大模型也需要自我反思,上海AI Lab合成“错题本”让大模型数学成绩提升13.3%
上海AI Lab提出LEMMA项目,通过构建‘错误-反思-修正’数据让大模型从错误中学习,Llama3-8B数学题准确率提升13.3%,有效提高模型的纠错和泛化能力。
上海AI Lab提出LEMMA项目,通过构建‘错误-反思-修正’数据让大模型从错误中学习,Llama3-8B数学题准确率提升13.3%,有效提高模型的纠错和泛化能力。
NVIDIA团队提出ProRL框架,在2000步以上长期强化学习基础上,大幅提升大语言模型的推理能力。ProRL训练后模型在逻辑谜题等任务中表现出显著进步,不仅提高了解题准确率,还能生成新解法。研究揭示了长期RL训练的重要性及其对模型边界扩展的影响。
Anthropic发布了其新模型Claude 3.7 Sonnet,这是一个混合推理模型,具备标准思考和扩展思考模式。它在多个测试中表现出色,并改进了代理训练能力。虽然Claude 3.7 Sonnet在一些指标上不如其他顶级推理模型,但Anthropic强调其在解决GitHub上的实际软件问题方面表现出色,并推出了智能编码工具Claude Code。
大模型量化通过降低精度来提高推理速度,但研究发现不同精度下大语言模型在基本数学任务上的表现显著下降。研究证明足够的精度是解决这些任务的重要前提,而量化会严重损害大模型的数学推理能力。