PutnamBench 归档

DeepSeek开源最新大模型，数学能力大突破！

2025年5月1日11时作者 AIGC开放社区

DeepSeek开源了V2数学大模型，参数量分别为671B和7B，在MiniF2F测试中的通过率为88.9%，在ProverBench中包含325个问题的评估集。

DeepSeek再开源！大模型直觉+强化学习新方法：AI 数学证明迎来新突破

2025年5月1日8时作者 AI寒武纪

今日 AI 模型 DeepSeek-Prover-V2 开源，专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率，并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习，提出两步法：首先合成数据，再用强化学习提升模型能力。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28