鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
就在刚刚,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》!
谷歌CEO劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像:

大模型这一小步,把网友们也整嗨了。

满屏画风皆是:泰!酷!辣!
这回,Gemini的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge)
要知道,一年前的旧模Claude 3.5还只能勉强走出新手村到达常磐森林,2个月前,Claude 3.7倒是终于能击败道馆主了,但也并未通关宝可梦。
Gemini 2.5 Pro通关宝可梦
游戏已通关,但直播仍继续。
画面是酱婶的:

有一说一,过程看上去是有那么点无聊,因为每动一步Gemini都要深思熟虑……
左边的文本框里显示了Gemini每个行动背后的详细思考过程。
在上面这个片段中,Gemini的主要目标是探索华蓝洞穴,寻找和捕获超梦。
直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro足足思考了40多秒,消耗76011个token,才开启下一步的行动规划。

(因为有点迷路,Gemini后面还想了很久很久……)
不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。
总结起来,Gemini玩宝可梦的基本步骤如下:
-
截取屏幕截图并检索游戏状态数据 -
用网格覆盖处理图像,以辅助空间推理 -
将屏幕截图和游戏信息发送给模型 -
AI决定是直接响应还是调用专门的智能体 -
解析响应内容,以确定按下哪个按钮 -
执行按钮按下操作,并等待游戏更新 -
对下一帧重复该过程
如果你对Gemini的宝可梦直播感兴趣,可以在twitch上搜索“gemini plays pokemon”,传送门我们也会在文末奉上~
宝可梦难在哪儿?
尽管已经是联盟冠军,但可以看出的是,在宝可梦这样一款最初主要面向儿童和青少年推出的游戏中,大模型的表现明显不如人类(经常一整个大迷路什么的……)。
参照Claude Plays Pokémon项目研究人员的说法,这主要是因为大模型“视力不佳”。
以Claude为例,模型很难像人类一样去解读Game Boy屏幕里展现出的低分辨率、像素化的世界。
同时,游戏中的二维地图看上去对未经专门训练的大模型而言也充满挑战性。
我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。
这对Claude来说却相当有挑战性。
△图源:Anthropic
另外,模型上下文的限制也影响了它们在游戏中的表现。
不过,在游戏中偏文本的部分,此前Claude就已经有惊艳表现。
比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude能马上get到其中的意思,并在此后将这些知识整合到自己的战斗策略里。

现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。
或许真的像网友所说:
以后测试大模型的基准要变成谁能更快通关宝可梦了。

直播地址:
https://www.twitch.tv/gemini_plays_pokemon
(文:量子位)