数学任务归档

大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

2025年6月18日11时作者量子位

上海AI Lab提出LEMMA项目，通过构建‘错误-反思-修正’数据让大模型从错误中学习，Llama3-8B数学题准确率提升13.3%，有效提高模型的纠错和泛化能力。

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

2025年6月5日8时作者机器之心

NVIDIA团队提出ProRL框架，在2000步以上长期强化学习基础上，大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步，不仅提高了解题准确率，还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。

DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

2025年5月11日16时作者量子位

华为与中科院提出DEER模型，通过动态提前退出推理机制，在保持精度的同时显著缩短大模型的思维链长度。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

2025年5月5日16时作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

Claude 3.7 Sonnet发布：别提什么AGI，我Anthropic要赚企业客户的钱！

2025年2月25日12时作者硅星人Pro

Anthropic发布了其新模型Claude 3.7 Sonnet，这是一个混合推理模型，具备标准思考和扩展思考模式。它在多个测试中表现出色，并改进了代理训练能力。虽然Claude 3.7 Sonnet在一些指标上不如其他顶级推理模型，但Anthropic强调其在解决GitHub上的实际软件问题方面表现出色，并推出了智能编码工具Claude Code。