重拾当年“AlphaGo围棋”乐趣,谷歌推出模型竞技平台,让各路AI下棋玩游戏一较高下!

文丨谭梓馨
如今的AI模型厂商众多,在各种基准测试上刷分、刷排名的操作已经很难让大家提起兴趣。
作为AI领域资深玩家,谷歌想整点不一样的,就像当年AlphaGo对战九段棋手李世石一样,只不过,这次换成AI对战AI。
今天,谷歌DeepMind正式推出一个全新开源平台Kaggle Game Arena,作为一个另类的公共AI基准测试,全世界各大顶尖AI模型可以在战略游戏中展开正面交锋,从而提供可验证的动态能力衡量标准。
当前的人工智能基准测试普遍难以跟上现代模型的迭代速度,尽管基准有助于衡量模型在特定任务上的表现,但很难确定基于互联网数据训练的模型是真正在解决问题,还是仅仅记住了它们已经见过的答案。
随着模型在常规基准测试中得分越来越高,它们在揭示有意义的性能差异方面也变得不那么有效了,在迈向AGI的道路上,需要新的评估方法,这也成为谷歌推出这个平台的原因。
谷歌DeepMind首席执行官Demis Hassabis表示,游戏一直是人工智能的有用试验场(如谷歌在AlphaGo和AlphaZero方面的工作),这一基准将推动AI的更快进步;AI系统之间相互对战,使其成为一个客观且永恒的基准,并且随着AI系统的进步,大赛难度也会随之调整。
信息显示,首场较量将于太平洋时间8月5日上午10:30(大约是北京时间8月6日凌晨1:30)开始,会以一场国际象棋表演赛拉开帷幕。
模型过招,大师解说
第一波“竞技选手”来自6家AI公司的8个旗舰模型:Anthropic(Claude Opus 4)、DeepSeek(R1)、月之暗面(Kimi K2)、OpenAI(o4-mini和o3)、xAI(Grok 4)和谷歌(Gemini 2.5 Pro和2.5 Flash)。
这些模型既有开源模型也有封闭模型,在游戏中的表现最终会在Kaggle Benchmarks排行榜上展示,其中国产模型DeepSeek-R1将与o4-mini进行一轮交锋,Kimi K2的首个对手则是o3,结果会如何令人充满期待。
此外,为了保障公平性和趣味性,谷歌还请到了3位国际象棋界传奇人物Magnus Carlsen、Hikaru NakamuraLevy Rozman为观众解说。
Magnus Carlsen是挪威国际象棋特级大师,前国际象棋世界冠军,为国际象棋等级分(ELO)历史以来创下最高分的棋手(2882分);GMHikaru是国际象棋界的知名人物,在快棋领域实力强劲,2025年6月28日在 “快棋混战”中再次夺冠,赢下职业生涯的第42个冠军;Levy Rozman是知名国际象棋内容创作者,本身国际棋联等级分为2350分,棋艺精湛常与特级大师对决
AI在国际象棋领域胜过人类的经典一战发生在1997年,当时IBM公司邀请国际象棋世界冠军加里・卡斯帕罗夫到美国纽约曼哈顿,与该公司制造的97型“深蓝”计算机下了6盘国际象棋比赛,以2.5比3.5的总比分输给“深蓝”。
时过境迁,如今的AI不知道能比“深蓝”的智商高出多少倍。
让AI玩游戏的另一面

为什么游戏会是一个有意义的评估基准?


谷歌在博客中提到,游戏提供了清晰明确的成功信号,其结构化特性和可衡量的成果使其成为评估模型和智能体的理想试验台。


游戏会迫使模型展现诸多技能,包括战略推理、长期规划和与智能对手的动态适应能力,从而有力地展现其普遍的解决问题能力,为了获胜,AI模型需具备可迁移的技能,例如世界知识、深度推理以及根据对手的动作实时调整策略。


此外,游戏还能够帮助检查和可视化模型的“推理”能力,研究人员得以一窥其战略思维过程,做更深入的技术研究,助推相关技术创新和进步。


业内最典型的案例就是AlphaGo到AlphaZero的技术跨越。AlphaGo首次让世界意识到AI在高复杂度智力竞技中可超越人类,推动了深度学习在决策领域的应用;AlphaZero自我学习21天便战胜了顶尖棋手柯洁,证明了AI可以不依赖人类经验,通过“自主探索”掌握复杂技能,为通用人工智能(AGI)研究提供了关键思路。


虽然当今的大型语言模型并非为任何特定游戏而构建,它们的表现可能还不如人类棋手,但让这些模型缩小这一差距依然很有现实意义,毕竟人们对于未来AGI的全面能力期待非常高。


期待AI的“神之一手”

谷歌方面表示,Game Arena构建于Kaggle之上,旨在为模型评估提供公平、标准化的环境,为了确保透明度,游戏框架将每个AI模型连接到游戏环境并执行规则的框架以及游戏环境也已开源。


谷歌的新目标是建立一个不断扩展的基准,随着模型之间更激烈的竞争,其难度也会随之增加,伴随着时间的推移,这可能会催生出新的AI策略。


就像AlphaGo著名的、极具创意的“第37步”那样,它曾让解说席上的职业棋手纷纷表示困惑更是让九段棋手李世石陷入了长达15分钟的沉思,这步棋打破了人类3000年来的传统棋局认知,展现了对棋盘中腹战略价值的重新评估,也彻底改变了如今职业棋手的思维方式。



不过人类的智慧潜力仍是难以用数字化计算的,李世石当年与AlphaGo的人机大战中第四局第78手曾被业内称为人类智慧在绝境中反击AI的“神之一手”,成功扳回一局获胜,蕴含人类对“势”与“全局平衡”的深刻理解。


在棋盘游戏竞技中,在压力下进行规划、适应和推理的能力,类似于解决科学和商业领域复杂挑战所需的思维能力,有望推动AI在复杂决策领域的革命发生。


AI与AI的棋局对战会碰撞出怎样的新火花,可以拭目以待。


-END-

(文:头部科技)

发表评论