刚刚,Google DeepMind 终于宣布,他们的Gemini Deep Think模型在2025年国际数学奥林匹克竞赛(IMO)中取得了金牌水平的成绩。

虽然比OpenAI 来得晚了一些,但要厚道许多。
这次AI 终于实现了质的飞跃:在规定时间内,用自然语言解决世界上最难的数学题了。
但在DeepMind正式宣布这个消息之前,还有一段戏剧性的插曲。
OpenAI「截胡」
据知情人士透露,DeepMind其实在7月19日周五下午就已经拿下了IMO金牌,但因为内部验证流程,计划等到周一才正式发布。
结果呢?
OpenAI在周六凌晨1点就抢先发布了他们的成绩,瞬间抢走了所有聚光灯。
Jasper(@zjasper666)指出:
在这个游戏里,速度大于官僚主义。错过时机,就失去了话语权。
更让人玩味的是,据Mikhail Samin透露,IMO组织方原本要求AI公司等到闭幕式后一周再公布成绩,不要抢走孩子们的风头。
但OpenAI并没有与IMO合作测试他们的模型,所以可能「不知道」这个约定。

OpenAI的Noam Brown后来澄清说,他们确实在闭幕式结束后才发布,并且提前通知了一位组织者。
不过据IMO协调员反映,OpenAI在闭幕晚会前就发布了,这被认为是「粗鲁和不恰当的」。
不过,Sam Altman和OpenAI 再懂不过的是,在这场AI 竞赛中,「注意力就是你所需要的一切」。

Deep Think:从形式语言到自然语言的跨越
抛开OAI 的插曲,让我们回到技术本身。
国际数学奥林匹克竞赛是全球最负盛名的青年数学竞赛,自1959年以来每年举办一次。每个参赛国派出6名顶尖的大学预科数学家,在4.5小时内解决6道极其困难的题目,涉及代数、组合学、几何和数论。
今年,Gemini Deep Think在同样的时间限制下,完美解决了6道题中的5道,获得35分(满分42分),达到了金牌标准。

这意味着什么?
去年,DeepMind的AlphaProof和AlphaGeometry 2组合系统虽然也取得了银牌成绩(28分),但需要专家先将题目从自然语言翻译成Lean等形式语言,而且计算时间长达两到三天。
今年的Gemini完全不同:它直接用英语读题,直接用英语写证明,全程端到端,而且在规定的4.5小时内完成。

IMO主席Gregor Dolinar教授评价道:
我们可以确认,Google DeepMind已经达到了这个备受期待的里程碑,获得了35分——金牌分数。他们的解答在许多方面都令人惊叹。IMO评分员发现这些解答清晰、准确,而且大部分都很容易理解。
Deep Think的技术细节
那么,Gemini是如何做到的呢?

Deep Think采用了一种增强推理模式,专门用于解决复杂问题。这个模式融入了DeepMind最新的研究技术,包括并行思考能力——
模型可以同时探索和组合多种可能的解决方案,而不是沿着单一的思维链前进。
为了充分发挥Deep Think的推理能力,研究团队还:
-
使用新颖的强化学习技术进行训练,让模型能够利用更多的多步推理、问题解决和定理证明数据
-
为Gemini提供了一个精选的高质量数学问题解答库
-
在指令中添加了解决IMO问题的一般提示和技巧
值得注意的是,DeepMind这次参与了IMO的官方评估流程,他们的成绩是由IMO协调员使用与学生解答相同的标准进行评分和认证的。
技术还是营销?
网友们对这次「抢先发布」事件的看法各不相同。
Think_Different_(@ThinkDi92468945)指出:
这不仅仅是速度问题。我打赌OpenAI的模型用了更少的计算资源+更少的专门/针对性方法。
soyboy(@soyboy)也持类似观点:
DeepMind用的是专门为此设计的模型,而OpenAI用的是通用模型。所以无论如何,他们能宣称的东西都会更少。
Krishna Kaasyap(@krishnakaasyap)则提出了不同看法:
他们会开源自己的答案,最有创意的答案将经得起时间的考验。如果DeepMind的答案确实有创意,DeepMind可以实现另一个AlphaGo的「第37手」,让这种先发优势变得无效。
社区反应激烈
消息一出,马斯克就回应:「Imagine」(想象一下),并称:这虽然是个重要的里程碑,但对AI 来说,这将很快变得微不足道。

还有开发者趁机调侃Grok:「这是真的吗?你觉得你能拿金牌吗?」

各路网友也纷纷发表看法。
有人调侃道,既然能解5道题,为什么不是6道?
是不是在考虑包容性问题?
有网友则认为DeepMind 和OpenAI 都进行了新的RL 微调:

也有人指出,目前还没有公开可用的模型能做到这一点,并展示了数学竞技场的排行榜截图:

即将向更多人开放
Google DeepMind表示,他们将向一批可信的测试者(包括数学家)开放这个Deep Think模型,然后再向Google AI Ultra订阅用户推出。

虽然今年的方法完全基于Gemini的自然语言能力,但DeepMind也在继续推进AlphaGeometry和AlphaProof等形式系统。
他们相信,结合自然语言流畅性和严格推理(包括形式语言中的验证推理)的AI代理,将成为数学家、科学家、工程师和研究人员的宝贵工具。
Google DeepMind IMO 2025结果公告: https://goo.gle/imo-2025-results
[2]Gemini解题方案PDF文档: https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
[3]MathArena AI数学能力排行榜: https://matharena.ai/
[4]Noam Brown关于发布时间的澄清: https://x.com/polynoamial/status/1947024171860476264
[5]Harmonic公司关于IMO约定的声明: https://x.com/harmonicmath/status/1947023450578763991
[6]Gemini模型系列: https://goo.gle/models/gemini/
[7]AlphaProof项目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
[8]AlphaGeometry项目: https://goo.gle/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
[9]Google AI Studio: https://aistudio.google.com/prompts/new_chat
[10]Gemini聊天界面: https://gemini.google.com/
(文:AGI Hunt)