腾讯发布DeepMath-103K,数学能力断崖式超过所有基线!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理
数学能力的重大突破:腾讯发布的DeepMath-103K是什么?
如果LLM要参加奥数竞赛,它需要刷多少题?传统题库可能只有“课后习题”水平,而DeepMath-103K直接准备了10.3万道高难度数学题
,涵盖从初中几何到大学微积分,甚至竞赛级题目(比如椭圆线积分、组合数学等)。
论文:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning
链接:https://github.com/zwhe99/DeepMath/blob/main/deepmath-103k-report.pdf
比如论文中的例题:
题目:计算椭圆上的线积分,但积分公式里有个“坑”——某点在椭圆内会导致公式失效。
这种题对人类都是挑战,而LLM通过这个题库训练后,能学会避开陷阱,找到解题关键。

为什么它比现有数据集更牛?

亮点1:题目难到逆天
普通数学题库的题目难度像“爬小山”,而DeepMath-103K直接让LLM“登珠峰”。 论文数据显示,它的问题85%集中在难度5-9级(最高10级),远超其他公开数据集。
亮点2:防作弊系统
传统数据集常混入“考试真题”,导致AI刷题时提前“偷看答案”(比如AMC/AIME竞赛题)。而DeepMath-103K用侦探技术,通过语义对比和模型判断,删除了90%的相似题目,确保训练后的是“真学霸”,不是“背题机器”。
亮点3:答案可自动批改
每个题都有唯一可验证的答案(比如数值或符号结果),AI每做一题,系统能秒速判对错。这让AI像学生刷题一样,快速纠正错误,迭代进步。
亮点4:一题三解
每个题目附带3种不同解法,比如用几何分析、代数变形或数值计算。模型学完后,能灵活切换思路,解决同类问题更游刃有余。

打造过程有多硬核?

Step 1:全网搜题
团队从数学论坛、竞赛题库等渠道抓取286万道题,但90%因“太简单”或“重复”被淘汰。
Step 2:去污染
用语义模型和Llama-3大模型对比题目,像老师查重论文一样,把疑似“考试原题”全部删除。例如,一个关于“硬币找零”的题和AMC真题高度相似,直接被踢出题库。
Step 3:GPT-4当考官
剩下的题目让GPT-4扮演“奥数教练”,从知识深度、步骤复杂度等维度打分,只保留5级以上的题。
Step 4:答案一致性验证
生成3种解法,确保最终答案一致。比如某题若出现“2+3=6”这种低级错误,直接整题作废。

实战效果:用了它的LLM有多强?

训练后的模型(如DeepMath-Zero-7B)在多个数学竞赛级测试中表现逆天:
AMC23(美国数学竞赛):准确率64.7%,碾压其他模型
AIME25(国际数学邀请赛):成绩提升近3倍
更神奇的是,解题步骤变得更长、更详细。比如在AIME24测试中,推理文本从1500字暴涨到12000字(话说…这是好事还是?)
说明它学会了“一步步推导”,而不是瞎蒙答案。

对未来的意义:离数学家还有多远?

DeepMath-103K的诞生,让AI的数学推理能力迈出一大步。未来,这种“高难度题库+强化学习”的模式可能用于:
教育领域:AI家教秒解难题,还能教学生多种解法
科研辅助:帮数学家验证猜想,发现新规律
通用AI:培养逻辑思维,让AI更接近人类推理能力
当然,模型目前还不会自主提出“黎曼猜想”,但至少,它离“奥数金牌”越来越近了。

(文:机器学习算法与自然语言处理)

发表评论