

到底谁的AI模型达到了IMO金牌级别?谷歌和OpenAI打起了口水战。
谷歌DeepMind于美国时间周一宣布,Gemini人工智能模型的高级版本在国际数学奥林匹克竞赛(IMO)中取得金牌级表现,成功解答六道难题中的五道,成为首个获得竞赛主办方官方金牌级评分的人工智能系统。
这一突破标志着人工智能已经可以凭借自然语言理解解决复杂数学问题,无需依赖专门编程语言!

IMO始于1959年,是全球最具声望的大学预科生数学竞赛。每个参赛国家派出6名顶尖少年数学家,解答6道涵盖代数、组合数学、几何学和数论等领域的高难度题目。今年举办的第66届赛事在澳大利亚昆士兰州阳光海岸举行,630名参赛学生中,67人(约11%)达到金牌水准。

2024年,谷歌AlphaProof与AlphaGeometry系统结合,曾解答出六道题中的四道,获银牌。早期系统需人类专家将自然语言题目转化为特定编程语言,再对人工智能的数学输出结果进行解读。
今年的突破源于Gemini Deep Think——一款增强推理系统,它被研究人员称为“并行思考”系统。不同于遵循单一推理链的传统模型,Deep Think在得出最终答案前,会同步探索多种解决方案。

DeepMind首席执行官Demis Hassabis在社交媒体上表示:“官方结果已公布,Gemini在IMO中达到金牌水平!其高级版本成功解出6道题中的5道,这是一项惊人进步。”他还强调,模型全程以自然语言运行,能直接从官方题目描述中生成严谨的数学证明,且在竞赛规定的4.5小时时限内完成了任务。
IMO主席Gregor Dolinar教授评价称,谷歌AI系统在多个方面表现令人惊叹,竞赛评分员认为答案清晰精确,且大多易于理解。

值得关注的是,今年OpenAI与谷歌均投入“非形式化”系统,这类系统能接收题目并以自然语言生成基于证明的答案。
两家公司均称,其人工智能模型在赛事测试中解答出6道题中的5道,得分高于多数高中生及谷歌去年的人工智能模型,且无需任何人机翻译环节。

在谷歌公布结果的前一天,OpenAI就自称夺得金牌,这一宣言最终引发反噬。
美国时间周五,OpenAI技术团队成员Alexander Wei发文:“我激动地宣布,我们最新的实验性推理大语言模型实现了人工智能领域的一项长期重大挑战,在全球最负盛名的数学竞赛IMO中达到金牌级别表现。”

Alexander Wei还表示,OpenAI新模型是通用智能的一次升级,其表现在通用强化学习领域开辟了新天地,相比之下,DeepMind的AlphaGeometry专为数学任务设计。
OpenAI创始人Sam Altman第一时间回应称:“这是一个正在解答数学题的大语言模型,而非专门的形式化数学系统;这是我们向通用智能迈进的核心努力之一。”他还提到:“我们刚创办OpenAI时,在IMO取得好成绩还是个不太现实的梦想,这是过去十年人工智能取得巨大进步的重要标志。”

不过,就在OpenAI宣布消息时,批评人工智能炒作的专家Gary Marcus一方面称赞模型表现出色,另一方面也提出质疑,质疑涉及模型训练方式、“通用智能”的范围、对普通大众的实用性及解决每个问题的成本。
为何谷歌未在周五宣布结果?Demis Hassabis在X上解释:“我们未在周五发布消息,主要是尊重IMO委员会的原始要求,即所有人工智能实验室需在独立专家核实官方结果、参赛学生获得应有的赞誉后,再公布各自成果。”

DeepMind高级研究员、IMO项目主管Thang Luong也表示,谷歌推迟公布成绩是为了尊重参赛学生。他提到,谷歌自去年起就与IMO主办方合作筹备此次测试,希望在获得IMO主席认可及官方评分后再公布正式结果。他还强调:“IMO主办方有明确评分准则,任何不依据该准则的评估,都无权宣称达到金牌级表现。”
一位X用户评论:“看到了吗?OpenAI无视IMO的要求,这种做法不光彩、无格调,是赤裸裸的不尊重。而谷歌DeepMind的行为秉持诚信,契合人类价值观。”
OpenAI在未参与IMO官方评估流程的情况下自行公布成绩,此举不合流程,它仅让一组前IMO参赛者对其人工智能表现进行了评分。
另一位批评者称:“OpenAI可能是全球最差劲的AI公司。”并表示它应认真对待此事,提高公开信息的可信度。

尽管OpenAI在争论中处于弱势,但其开发的模型仍属一流。
OpenAI的突破借助一款新的实验性模型实现,该模型的核心在于大幅提升“测试时计算能力”。
据OpenAI研究员Noam Brown介绍,他们的具体做法包括两方面:一是延长模型“思考”时间,二是部署并行计算能力,使模型能同时运行多条推理路径。
不过,Noam Brown拒绝透露耗费的计算资源,仅称“成本极高”。不难发现,谷歌Gemini Deep Think也采用了并行计算,与OpenAI策略极为相似。
Noam Brown透露,几个月前,IMO曾联系OpenAI,邀请其参与一项正式数学竞赛,但OpenAI拒绝了,因为当时公司正致力于研发自然语言系统,且认为这类系统更值得投入,当时OpenAI并不知晓IMO正与谷歌合作开展非正式测试。

在评估结果时,OpenAI邀请三位熟悉评分体系的前IMO奖牌得主参与。Noam Brown称,在得知模型获得金牌级分数后,OpenAI联系了IMO,而IMO告知OpenAI需在周五晚间颁奖典礼结束后再公布结果。
双方争论的焦点在于公开流程与评定标准,其中掺杂着竞争中的不服与较真。显然,这场争论既关乎AI实力,也关乎利益,双方作为针锋相对的对手,正在争夺庞大的用户市场。谷歌计划先向数学家提供Deep Think模型的某个版本供测试,随后向每月支付250美元的谷歌AI Ultra订阅用户推出。
当前各大AI企业的竞争日益焦灼,在大众认知中,OpenAI仍是AI赛道佼佼者,与谷歌之间的争论牵扯着太多市场利益。
也许双方的争论并非关键,顶尖人工智能实验室的AI模型快速进步才是核心。今年,世界各国派出最优秀学生参加IMO,其中仅有凤毛麟角的人得分能与OpenAI和谷歌的AI模型持平。
Gemini的突破表明,人工智能系统在需要创造力、抽象思维及跨领域整合的复杂任务中,推理能力已达顶尖人类水平。以往,复杂数学推理被视为人类智慧的“专属领域”,而Gemini证明,人工智能在这些方面正快速追赶,逐渐具备与人类抗衡的能力。
对企业而言,这一进展意味着人工智能或许很快能在各行业处理复杂问题,无需依赖专门编程或领域专业知识,凭借日常语言对复杂挑战进行推理的能力,人类有望让高级分析能力在各类组织中快速普及。
当然,数学比赛只是一项特殊竞技,到底新技术突破有多少社会价值,还要用现实问题来检验。
-END-

(文:头部科技)