IMO 主席正式宣布：Google DeepMind在国际数学奥赛拿下金牌！

刚刚，Google DeepMind 终于宣布，他们的Gemini Deep Think模型在2025年国际数学奥林匹克竞赛（IMO）中取得了金牌水平的成绩。

虽然比OpenAI 来得晚了一些，但要厚道许多。

这次AI 终于实现了质的飞跃：在规定时间内，用自然语言解决世界上最难的数学题了。

但在DeepMind正式宣布这个消息之前，还有一段戏剧性的插曲。

OpenAI「截胡」

据知情人士透露，DeepMind其实在7月19日周五下午就已经拿下了IMO金牌，但因为内部验证流程，计划等到周一才正式发布。

结果呢？

OpenAI在周六凌晨1点就抢先发布了他们的成绩，瞬间抢走了所有聚光灯。

Jasper(@zjasper666)指出：

在这个游戏里，速度大于官僚主义。错过时机，就失去了话语权。

更让人玩味的是，据Mikhail Samin透露，IMO组织方原本要求AI公司等到闭幕式后一周再公布成绩，不要抢走孩子们的风头。

但OpenAI并没有与IMO合作测试他们的模型，所以可能「不知道」这个约定。

OpenAI的Noam Brown后来澄清说，他们确实在闭幕式结束后才发布，并且提前通知了一位组织者。

不过据IMO协调员反映，OpenAI在闭幕晚会前就发布了，这被认为是「粗鲁和不恰当的」。

不过，Sam Altman和OpenAI 再懂不过的是，在这场AI 竞赛中，「注意力就是你所需要的一切」。

Deep Think：从形式语言到自然语言的跨越

抛开OAI 的插曲，让我们回到技术本身。

国际数学奥林匹克竞赛是全球最负盛名的青年数学竞赛，自1959年以来每年举办一次。每个参赛国派出6名顶尖的大学预科数学家，在4.5小时内解决6道极其困难的题目，涉及代数、组合学、几何和数论。

今年，Gemini Deep Think在同样的时间限制下，完美解决了6道题中的5道，获得35分（满分42分），达到了金牌标准。

这意味着什么？

去年，DeepMind的AlphaProof和AlphaGeometry 2组合系统虽然也取得了银牌成绩（28分），但需要专家先将题目从自然语言翻译成Lean等形式语言，而且计算时间长达两到三天。

今年的Gemini完全不同：它直接用英语读题，直接用英语写证明，全程端到端，而且在规定的4.5小时内完成。

IMO主席Gregor Dolinar教授评价道：

我们可以确认，Google DeepMind已经达到了这个备受期待的里程碑，获得了35分——金牌分数。他们的解答在许多方面都令人惊叹。IMO评分员发现这些解答清晰、准确，而且大部分都很容易理解。

Deep Think的技术细节

那么，Gemini是如何做到的呢？

Deep Think采用了一种增强推理模式，专门用于解决复杂问题。这个模式融入了DeepMind最新的研究技术，包括并行思考能力——

模型可以同时探索和组合多种可能的解决方案，而不是沿着单一的思维链前进。

为了充分发挥Deep Think的推理能力，研究团队还：

使用新颖的强化学习技术进行训练，让模型能够利用更多的多步推理、问题解决和定理证明数据
为Gemini提供了一个精选的高质量数学问题解答库
在指令中添加了解决IMO问题的一般提示和技巧

值得注意的是，DeepMind这次参与了IMO的官方评估流程，他们的成绩是由IMO协调员使用与学生解答相同的标准进行评分和认证的。

技术还是营销？

网友们对这次「抢先发布」事件的看法各不相同。

Think_Different_(@ThinkDi92468945)指出：

这不仅仅是速度问题。我打赌OpenAI的模型用了更少的计算资源+更少的专门/针对性方法。

soyboy(@soyboy)也持类似观点：

DeepMind用的是专门为此设计的模型，而OpenAI用的是通用模型。所以无论如何，他们能宣称的东西都会更少。

Krishna Kaasyap(@krishnakaasyap)则提出了不同看法：

他们会开源自己的答案，最有创意的答案将经得起时间的考验。如果DeepMind的答案确实有创意，DeepMind可以实现另一个AlphaGo的「第37手」，让这种先发优势变得无效。

社区反应激烈

消息一出，马斯克就回应：「Imagine」（想象一下），并称：这虽然是个重要的里程碑，但对AI 来说，这将很快变得微不足道。

还有开发者趁机调侃Grok：「这是真的吗？你觉得你能拿金牌吗？」

各路网友也纷纷发表看法。

有人调侃道，既然能解5道题，为什么不是6道？

是不是在考虑包容性问题？

有网友则认为DeepMind 和OpenAI 都进行了新的RL 微调：

也有人指出，目前还没有公开可用的模型能做到这一点，并展示了数学竞技场的排行榜截图：

即将向更多人开放

Google DeepMind表示，他们将向一批可信的测试者（包括数学家）开放这个Deep Think模型，然后再向Google AI Ultra订阅用户推出。

虽然今年的方法完全基于Gemini的自然语言能力，但DeepMind也在继续推进AlphaGeometry和AlphaProof等形式系统。

他们相信，结合自然语言流畅性和严格推理（包括形式语言中的验证推理）的AI代理，将成为数学家、科学家、工程师和研究人员的宝贵工具。

[1]

Google DeepMind IMO 2025结果公告: https://goo.gle/imo-2025-results

[2]

Gemini解题方案PDF文档: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

[3]

MathArena AI数学能力排行榜: https://matharena.ai/

[4]

Noam Brown关于发布时间的澄清: https://x.com/polynoamial/status/1947024171860476264

[5]

Harmonic公司关于IMO约定的声明: https://x.com/harmonicmath/status/1947023450578763991

[6]

Gemini模型系列: https://goo.gle/models/gemini/

[7]

AlphaProof项目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[8]

AlphaGeometry项目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

[9]

Google AI Studio: https://aistudio.google.com/prompts/new_chat

[10]

Gemini聊天界面: https://gemini.google.com/

（文：AGI Hunt）

2025 年 12 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31