MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

数学能力的重大突破：腾讯发布的DeepMath-103K是什么？

如果LLM要参加奥数竞赛，它需要刷多少题？传统题库可能只有“课后习题”水平，而DeepMath-103K直接准备了10.3万道高难度数学题

，涵盖从初中几何到大学微积分，甚至竞赛级题目（比如椭圆线积分、组合数学等）。

论文：DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

链接：https://github.com/zwhe99/DeepMath/blob/main/deepmath-103k-report.pdf

比如论文中的例题：

题目：计算椭圆上的线积分，但积分公式里有个“坑”——某点在椭圆内会导致公式失效。

这种题对人类都是挑战，而LLM通过这个题库训练后，能学会避开陷阱，找到解题关键。

为什么它比现有数据集更牛？

亮点1：题目难到逆天

普通数学题库的题目难度像“爬小山”，而DeepMath-103K直接让LLM“登珠峰”。论文数据显示，它的问题85%集中在难度5-9级（最高10级），远超其他公开数据集。

亮点2：防作弊系统

传统数据集常混入“考试真题”，导致AI刷题时提前“偷看答案”（比如AMC/AIME竞赛题）。而DeepMath-103K用侦探技术，通过语义对比和模型判断，删除了90%的相似题目，确保训练后的是“真学霸”，不是“背题机器”。

亮点3：答案可自动批改

每个题都有唯一可验证的答案（比如数值或符号结果），AI每做一题，系统能秒速判对错。这让AI像学生刷题一样，快速纠正错误，迭代进步。

亮点4：一题三解

每个题目附带3种不同解法，比如用几何分析、代数变形或数值计算。模型学完后，能灵活切换思路，解决同类问题更游刃有余。

打造过程有多硬核？

Step 1：全网搜题

团队从数学论坛、竞赛题库等渠道抓取286万道题，但90%因“太简单”或“重复”被淘汰。

Step 2：去污染

用语义模型和Llama-3大模型对比题目，像老师查重论文一样，把疑似“考试原题”全部删除。例如，一个关于“硬币找零”的题和AMC真题高度相似，直接被踢出题库。

Step 3：GPT-4当考官

剩下的题目让GPT-4扮演“奥数教练”，从知识深度、步骤复杂度等维度打分，只保留5级以上的题。

Step 4：答案一致性验证

生成3种解法，确保最终答案一致。比如某题若出现“2+3=6”这种低级错误，直接整题作废。

实战效果：用了它的LLM有多强？

训练后的模型（如DeepMath-Zero-7B）在多个数学竞赛级测试中表现逆天：

AMC23（美国数学竞赛）：准确率64.7%，碾压其他模型

AIME25（国际数学邀请赛）：成绩提升近3倍

更神奇的是，解题步骤变得更长、更详细。比如在AIME24测试中，推理文本从1500字暴涨到12000字（话说…这是好事还是？）

说明它学会了“一步步推导”，而不是瞎蒙答案。

对未来的意义：离数学家还有多远？

DeepMath-103K的诞生，让AI的数学推理能力迈出一大步。未来，这种“高难度题库+强化学习”的模式可能用于：

教育领域：AI家教秒解难题，还能教学生多种解法

科研辅助：帮数学家验证猜想，发现新规律

通用AI：培养逻辑思维，让AI更接近人类推理能力

当然，模型目前还不会自主提出“黎曼猜想”，但至少，它离“奥数金牌”越来越近了。

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

腾讯发布DeepMath-103K，数学能力断崖式超过所有基线！

为什么它比现有数据集更牛？

打造过程有多硬核？

实战效果：用了它的LLM有多强？

对未来的意义：离数学家还有多远？

发表评论取消回复

为什么它比现有数据集更牛？

打造过程有多硬核？

实战效果：用了它的LLM有多强？

对未来的意义：离数学家还有多远？

发表评论 取消回复

发表评论取消回复