MiniF2F-test 归档

Kimi新模型数学反超DeepSeek！北大校友刘征瀛等领衔

2025年7月11日23时作者量子位

Kimi新模型在定理证明任务上超越了DeepSeek，采用TTRL搜索框架和错误修复机制，通过率显著提高。该模型由Numina组织与Kimi团队联合打造，并计划在未来优化引理的筛选策略。

DeepSeek再开源！大模型直觉+强化学习新方法：AI 数学证明迎来新突破

2025年5月1日8时作者 AI寒武纪

今日 AI 模型 DeepSeek-Prover-V2 开源，专为 Lean 4 形式化证明开发。该模型在 MiniF2F-test 测试集上达到88.9%通过率，并成功解决PutnamBench中的49个问题。DeepSeek-Prover-V2-671B结合大语言模型直觉和强化学习，提出两步法：首先合成数据，再用强化学习提升模型能力。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28