8月24日,在好未来20周年直播活动中,CTO田密宣布好未来自研的数学领域
08月27日 12:53
8月24日,在好未来20周年直播活动中,CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT正式上线并开启公测。
好未来介绍,MathGPT是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。
MathGPT是否意味着“AI家教”成为可能?搜狐科技实测后发现MathGPT能够顺利完成小学试卷并且给出清晰的解答。在与GPT-4、文心一言的横向对比中,MathGPT在数学应用题能力上表现优于文心一言、不如GPT-4。
(资料图)
作为垂直于教育的数学领域大模型,MathGPT比起通用大模型能够更细致地拆解题干、提供重难点提示,也将有助于学生更好地吸收知识点。
田密表示,“好未来在数学的数据和业务上有20年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。”好未来希望用自己在数学和AI上的多年积累,做好AI大模型时代的数学基础工作。
小学数学考试能拿90分
此前,国内外巨头的大模型都被冠上“文科生”的名号,在翻译、内容概括摘要、理解文本和生成对话等方面表现出色,但涉及逻辑与计算问题时会出现胡言乱语的情况。
好未来团队指出,大模型“偏科”问题是因LLM模型的自身特点决定的。他们此前表示,“LLM大模型来自对海量语言文本的训练,因此最擅长语言处理。”
基于此,好未来的MathGPT结合大语言模型和计算引擎,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎,以提高题目解答正确率。
进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。
用户可以选择不同类型的数学题目进行针对性训练,也可以直接通过底部的对话框向MathGPT提问。用户可以通过文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过“随机来一题”的按钮,随机生成数学题目并由系统给出解答。
搜狐科技随机选取了一份小学数学考卷的前10题,包含简单的几何、找规律以及算数题,MathGPT能够回答正确9题,并且梳理出了解题逻辑以及考点。
会解函数,不会解方程
据MathGPT官网显示,MathGPT的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问,暂未开放数学之外的问答互动。
搜狐科技随机搜索一套高中数学题,通过图片提问的方式输入指令。
在五个题目中,仅有第三题的几何图片无法直接转化为文字指令,其他四题MathGPT均能够准确将公式与数学符号转化为文字。
在准确率上,四题答案均正确,并且解题过程完整,包含了分析题干、详解题目,也提炼出了题目所考核的知识点,但其中两题的分析过程语言出现了英文。
但在解方程时,搜狐科技输入两道简单的一元一次方程求X或Y值的题目,其中一题MathGPT答案错误,并且解题方法也是错误混乱的。
第二题虽然MathGPT给出了正确的结果,但在解答过程中的推理都是错误的。
数学应用题解答能力不如GPT-4、优于文心一言
根据MathGPT技术报告显示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中,好未来的MathGPT取得了多项测试的最高分数。同时,MathGPT在C-Eval的初高中的全科测试集合上也均有不错的表现。
基于此,搜狐科技选取三种不同难度的应用题,同时对MathGPT、GPT-4和文心一言进行测试。
在难倒一众大模型“文科生”的鸡兔同笼题目上,搜狐科技以“鸡兔同笼,头共20个,足共62只,求鸡与兔各有多少只?”该题目对三个大模型进行测试,均回答正确。其中,文心一言与MathGPT的解题逻辑相比GPT-4会更简洁易懂。
(文心一言答鸡兔同笼)
(GPT-4答鸡兔同笼)
(MathGPT答鸡兔同笼)
同时,MathGPT的优势在于,通过【分析】、【详解】与【点睛】三个模块拆解数学题进行解析,分析题干并且总结知识点,同时也给到了第二种解题方法“方程解答”。
第二题是以设X,列一元一次方程式解答的应用题,题干为:“杰森往池塘水面上的扔一块石头。石头在池塘表面反弹三下。如果第二次弹跳是第一次弹跳距离的一半,第三次弹跳是第二次弹跳距离的四分之一,弹跳之间的总距离是 65 英寸,那么岩石在第一次弹跳时移动了多少英寸?”
结果表明,GPT-4的答案与解题过程正确,文心一言的解题过程与答案均错误。MathGPT在设X与列出方程的步骤是正确的,但是在解方程的过程中出现错误。
(文心一言答案)
(GPT-4答案)
(MathGPT答案)
第三题能够以等量代换的逻辑解答,题干为:“1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?”
结果显示GPT-4过程与答案正确,文心一言解题逻辑正确但答案错误。MathGPT能够总结出题目知识点是等量代换,但解题思路与分析均错误。
(文心一言答案)
(GPT-4答案)
(MathGPT答案)
田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下,“学生自学+AI答疑”的新型学习方式成为可能。MathGPT作为垂直大模型,在答案之外能够更详细地总结出解题思路、思考方式以及对题目的考点、难点、关键点进行提示。但若要真正成为“AI家教“,辅助学生完成自学,在准确率上仍有较大提升空间。
据田密介绍,随着公测的顺利进行,MathGPT的解题能力将得到持续提升,基于MathGPT的产品级应用也正在加速研发中,将于近期发布。
责任编辑:
关键词:
8月24日,在好未来20周年直播活动中,CTO田密宣布好未来自研的数学领域
08月27日 12:53
亚冠三支中超球队的抽签,表面上看,是浙江的分组最好;但实际上浙江跟
08月27日 12:53
非深户居住证过期会关系到交灵活就业社保吗?非深户交灵活社保前提是什
08月27日 12:55
他还在文章中谈到了波士顿凯尔特人队最后两个剩余名额的使用情况,特别
08月27日 12:55
昨天晚间,石英股份发布2023年半年报,公司上半年实现营业收入34 34亿
08月27日 12:49
1、翻译: 王蓝田性子很急。2、有一次吃鸡蛋,他用筷子扎鸡蛋,没有
08月27日 12:55
属虎的是哪一年出生的(更多)属虎的年份以及命运都是怎么样的呢?天干壬
08月27日 12:50
图南股份(300855)2023年中报点评:业绩符合预期产量持续释放
08月27日 12:43
为丰富辖区青少年文化生活,放松孩子身心,提高孩子动手能力,8月24日
08月27日 12:49
网易-S(09999)发布截至2023年6月30日止二季度业绩,该集团期内取得净收
08月27日 12:40
“新能源汽车行业正在不断内卷,有的人害怕去卷,而我们认为就应该卷,
08月27日 12:49
启园,面朝太湖,背靠东山。园里亭台楼榭一应俱全,有夏日赏荷之景,有
08月27日 12:50
长沙恒大这个最大烂尾项目,犹如一座巨大的空城,烂尾,空城,长沙市,住宅
08月27日 12:40
2011年,日本福岛核电站核泄漏风波,在国内引发了一场轰轰烈烈的抢盐潮
08月27日 12:46
中国海油8月20日宣布,“深海一号”大气田顺利完成投产以来的首次海管
08月27日 12:51
小圆转弯飞行,关于小圆转弯飞行介绍这个很多人还不知道,现在让我们一
08月27日 12:40
中国农科新闻网是农业科技报社顺应网络时代新媒体发展趋势,在三农领域
08月27日 12:44
用染色蜂蜜测试微型3D打印马桶。图片来源:BinSuetal 本报讯你会因为马
08月27日 12:49
8月24日,5名电信诈骗犯罪嫌疑人在仰光国际机场由缅甸警方移交给中国警
08月27日 12:48
8月25日北向资金增持44 78万股世运电路。近5个交易日中,获北向资金增
08月27日 12:49
1、首先,点击QQ头像,点击“更换头像”,一共有四种换“头像”的方式
08月27日 12:50
,你们好,今天0471房产来聊聊一篇广阔,广阔简述的文章,网友们对这件
08月27日 12:40
白癜风是不是从嘴角开始的在白癜风开始时,通常是在小部位开始。由于口
08月27日 12:37
炎炎夏日,居民必须开着空调才能安然入睡。6月初的一天,黄浦区的一个
08月27日 12:46
试想一下 假如你突然收到一条陌生短信里面竟有自己的“不雅照”是否会
08月27日 12:44
外媒:一架美国军用运输机在澳大利亚执行任务过程中坠毁
08月27日 12:39
德国民众抗议北约供武激化俄乌冲突
08月27日 12:34
热带风暴“弗兰克林”升级为飓风
08月27日 12:36
罗马尼亚首都附近发生爆炸造成1人死亡46人受伤
08月27日 12:40
格隆汇8月26日丨九号公司(689009 SH)公布,基于公司战略规划,优化资源
08月27日 12:41