
但当模型的能力越来越强、benchmark 的提升越来越快,我们该如何判断“进展”是否真的等于“价值”?就在这一关键时刻,OpenAI 研究员、ReAct框架提出者姚顺雨,发布了题为《The Second Half》的长文,提出一个深刻命题:
“AI 的第一回合是关于训练方法,第二回合是关于评估方式。”
他指出,我们已经掌握了一套通用的“配方”来解决各种复杂任务:大规模语言预训练、扩展的计算资源,以及将推理纳入智能体的动作空间。而这套配方所引发的连锁效应是:
“模型能力的进步,已经不再依赖于新方法;即使你不针对某个任务做任何优化,下一代 o-series 模型依然能轻松碾压前者。”
因此,AI 的真正难题不再是“我们能不能训练出一个能做 X 的模型”,而是:
“我们该训练 AI 去做什么?我们又该如何判断它是否做得好?”
在这篇文章中,姚顺雨带我们从方法论走向范式转变,从 benchmark 的游戏规则走向真正“效用导向”的重构。以下是《The Second Half》的全文编译,欢迎进入 AI 的“下半场”。
TLDR:我们正站在 AI 发展的中场时刻。
几十年来,AI 的发展基本围绕着训练方法和模型的改进,这一策略卓有成效。从击败国际象棋和围棋世界冠军,到在 SAT 和律师资格考试中超越多数人类,再到在 IMO 和 IOI 上摘金夺银。这些写入 AI 史册的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series 系列模型——背后是关键的 AI 方法创新:搜索、深度强化学习、扩展性、推理能力。AI 就是这样在持续变强。
但现在,有什么突然改变了?
简而言之:RL(强化学习)终于真正起效了,确切地说,RL 实现了泛化。经过多次试错和阶段性突破,我们终于找到了一个可用的“配方”——利用语言与推理解决各类 RL 任务。放在一年前,你如果跟大多数 AI 研究者说,一个通用方法可以解决软件工程、创意写作、IMO 水平的数学题、鼠标键盘操作和长文本问答等,他们只会当你在“幻想”。这些任务本身都极其复杂,很多研究者整个博士阶段可能都只钻研其中之一。
但它确实发生了。
那么接下来会发生什么?AI 的下半场从此刻开启,其重点将从“如何解决问题”转向“如何定义问题”。在这个新阶段,评估将比训练更重要。我们的问题也将从“我们能不能训练一个模型去完成 X?”转变为“我们应不应该训练 AI 去做某件事?又该如何衡量它的实际进展?”要在下半场胜出,我们需要心智和技能的及时转型,或许更接近一名产品经理的思维方式。
第一回合
回顾 AI 的上半场,我们可以从它的“赢家们”看出端倪。你认为至今最有影响力的 AI 论文有哪些?在斯坦福 224N 的小测验中,答案并不意外:Transformer、AlexNet、GPT-3 等。这些论文都有共同特点:提出了重大模型训练突破,同时能在某些 benchmark 上展现显著提升。
但它们还有一个潜在共同点:这些“赢家”几乎全是关于模型或训练方法的,而不是关于 benchmark 或任务本身。即便是影响深远的 benchmark——ImageNet,它的引用量还不到 AlexNet 的三分之一。而 Transformer 的主要 benchmark——WMT’14,其 workshop 报告的引用量约为 1300,而 Transformer 论文本身超过了 16 万次引用。

这说明了 AI 上半场的游戏规则:重点在于提出新模型和新方法,而评估与 benchmark 只是次要的存在(尽管它们是让论文能发表的必要形式)。
为什么会这样?因为在 AI 的上半场,“方法”远比“任务”更难,也更令人兴奋。发明新的算法或架构(比如反向传播算法、AlexNet 的卷积神经网络、GPT-3 所用的 Transformer)需要的是洞见和工程能力;而“定义任务”通常只是把人类已经在做的事(翻译、图像识别、下棋)变成 benchmark,相对简单。
方法本身也往往更具通用性,适用范围比单一任务更广。例如 Transformer 架构如今已成为 NLP、CV、RL 等多个领域的基石,远超当初在翻译任务中首次亮相的 WMT’14 数据集。
这种模型方法主导的玩法持续了数十年,驱动了许多改变世界的突破。但现在,正是这些方法不断累积,最终组合出了解决任务的“通用配方”,使得游戏本身发生了质变。
配方的形成
这套配方包含的原料并不意外:大规模语言预训练、海量数据与算力、推理与行动的融合。这些听起来像你每天在湾区听到的 buzzword,但它们之所以能成为配方,是因为它们在强化学习(RL)语境下被重新组织。
RL 被长期视为 AI 的“终极形态”:理论上,它能赢得所有游戏;实践中,几乎所有超人类系统(如 AlphaGo)都少不了它。
RL 的三个核心组成部分是:算法(algorithm)、环境(environment)与先验(priors)。长期以来,研究者基本集中在算法本身(比如 REINFORCE、DQN、TD-learning、Actor-Critic、PPO、TRPO 等),几乎忽略环境与先验。例如 Sutton 和 Barto 的经典教材,几乎全篇都是讲算法,几乎不谈环境和先验知识的内容。

但进入深度强化学习时代后,环境在实践中被证明极其关键:一个算法的表现往往高度依赖它所测试的环境。你如果忽略环境,很可能就开发出一个在“玩具世界”表现极佳、却无法泛化的算法。
那我们为何不先明确“我们真正想解决的环境是什么”,然后再设计最适配的算法?这正是 OpenAI 的初衷。他们开发了 Gym,一个标准 RL 环境平台,然后是 World of Bits 与 Universe,试图把整个互联网或计算机环境“游戏化”。逻辑非常合理:一旦我们把所有数字世界变成环境,就能用智能体去“通关”,实现数字 AGI。
思路很好,但没完全奏效。OpenAI 在 Dota、机械手等方面通过 RL 取得巨大进展,但始终没能攻克计算机使用或网页导航等任务。而且,一个在某领域表现良好的智能体,往往无法迁移到其他任务。
问题出在哪里?直到 GPT-2 和 GPT-3 出现,我们才意识到:我们缺的不是算法或环境,而是“先验”。
我们需要强大的语言预训练,先将常识和语言知识注入模型,然后再微调它去做网页代理(WebGPT)或聊天(ChatGPT)这样的任务。讽刺的是,最关键的 RL 组件,可能既不是算法也不是环境,而是那些与 RL 毫不相关的“语言先验”。
语言预训练确实为聊天提供了良好先验,但在控制计算机、玩游戏这些任务上表现依然有限。为什么?因为这些任务与互联网文本的分布相去甚远,直接用 SFT 或 RL 微调在这些领域泛化效果差。
我在 2019 年就注意到了这个问题。当时 GPT-2 刚发布,我尝试用它做 SFT + RL 解决文字类游戏,开发了世界上第一个基于语言模型训练的 RL agent:CALM。它能玩一个游戏,但需要几百万步训练,而且无法迁移到其他游戏。虽然这在 RL 研究者看来并不意外,但我感到奇怪:人类明明可以 zero-shot 玩新游戏,而且玩得还不错。
这带来了我人生中的第一次“顿悟时刻”:人类能泛化,是因为我们能进行推理。我们不仅能执行 “走到柜子2”“用钥匙1打开箱子3”“用剑打败地牢怪物”这些指令,还能思考:“地牢危险,我需要武器。眼前没有武器,那我也许要去找个上锁的箱子。箱子3在柜子2,我要先去那里打开。”

推理(reasoning)是一种奇特的动作形式——它不会直接作用于外部世界,但它的空间是开放的、组合爆炸的。你可以思考一个词、一句话、一段话,甚至随机选择一万个英文单词,世界不会立即发生变化。
在传统 RL 理论中,这是一个糟糕的交易:想象你面前有两个箱子,一个有100万美元,一个是空的,选一个你期望值是50万美元。现在我加无数个空箱子进去,你选到钱的概率趋近于零。
但当我们将“推理”引入 RL 的动作空间,并结合语言预训练的先验,我们就能泛化,我们就能针对不同任务灵活地分配推理资源。这真的非常神奇。我在此无法完全讲清楚,你可以阅读 ReAct 框架的原始论文,感受我当时的想法。直觉上,这就像是:虽然你接触过无数空箱子,但这些经验帮助你在新游戏中更有可能找到有钱的那只。抽象解释就是:语言的泛化能力,体现在智能体的推理之中。
一旦我们具备了“正确的先验”(语言预训练)和“合适的环境”(将语言推理纳入动作空间),RL 的算法本身反而变得次要。于是我们得到了 o-series、R1、deep research、computer-using agent,以及未来更多的可能性。
这是一种讽刺的轮回。RL 社区几十年来高度关注算法,却忽视环境与先验;几乎所有 RL 实验都是“从零开始”;结果我们花了数十年绕远路,才意识到我们的优先级也许一直是反的。
但正如 Steve Jobs 所说:“你无法预见未来的连接点,只有回头看时才能发现它们如何串联成线。”
下半场游戏规则重构
这套配方已经改变了游戏。让我们总结一下上半场的规则:
-
提出新的训练方法或模型,在 benchmark 上不断爬坡;
-
创造更难的 benchmark,继续挑战。
-
但这套玩法正在失效:
-
配方已经标准化、工业化,它能轻松爬坡,无需新创意。你可能绞尽脑汁让某个任务提升 5%,而下一个 o-series 模型啥都没调就直接涨了 30%。
-
即使我们设计了更难的 benchmark,也很快(甚至越来越快)被配方攻克。
我同事 Jason Wei 做了一个可视化图表,很好地展现了这个趋势:benchmark 的生命周期越来越短。

那下半场我们还怎么玩?如果新方法越来越没必要,而更难的 benchmark 也越来越容易被秒杀,我们还能做什么?
我认为,我们必须彻底重新思考评估(evaluation)。不仅是设计更难的 benchmark,而是质疑现有评估机制的基本假设,去发明新的设置,从而逼迫我们创造新的方法,跳出“配方”的舒适区。
这很难,因为人类有惯性,我们往往不去质疑那些看似理所当然的前提。你认为的“自然法则”,往往只是“潜规则”。
什么是惯性?举个例子:你在 2021 年创造了一个基于人类考试的超级成功评估机制(比如 MMLU)。三年后,它已接近饱和。你会怎么办?大概率你会设计一个更难的考试。
或者你解决了简单的编程任务,然后就一路找更难的题目刷,直到到达 IOI 金牌水平。
惯性很正常,但问题是:AI 已经赢得了象棋、围棋、SAT、bar exam、IOI、IMO……但我们的世界并没有根本性改变,至少在经济和 GDP 层面没有。
我称之为“效用问题”(utility problem),它可能是 AI 面临的最重要问题。
或许我们很快会解决它,也可能不会。但问题的根源或许非常简单:我们当前的评估设置,在多个关键方面与真实世界不符。
举两个例子:
-
现实任务不是独立完成的。评估通常是 agent 接收一个任务输入,自动执行,然后得到一个评分。但现实中,agent 常常需要与人类持续交互。比如你不会发一条超长的客服消息、等十分钟、然后期望一条完美回复。质疑这种设置,带来了新一代 benchmark,比如引入真实人类交互的 Chatbot Arena,或模拟用户行为的 tau-bench。

-
现实任务不是独立同分布(i.i.d.)的。当前 benchmark 是这样设定的:你有 500 个任务,模型一个个独立做,最后取平均分。但现实中任务是顺序完成的:Google 的软件工程师会因为熟悉代码库而越修越快,但 AI agent 每次都像第一次一样从头开始。我们当然需要长期记忆机制,但学术界没有为此设计 benchmark,甚至没人愿意质疑 i.i.d. 这个早已成为 ML 奠基假设的前提。
这些假设之所以延续,是因为在 AI 智能水平较低时,只要 intelligence 上升,utility 也随之上升。但今天,通用配方已经保证了在这些假设下必然成功。
所以,下半场的新玩法是:
-
发明面向真实世界效用的新评估机制和任务;
-
用配方来解决它们,或在配方之上增添新组件,继续循环。
这场游戏难度更大,因为它陌生,但也更激动人心。上半场的玩家在打游戏、刷分数;而下半场的玩家,将通过“把 intelligence 产品化”来构建数十亿甚至万亿美元的公司。
上半场充满了渐进式方法和模型;而下半场会过滤掉这些——因为通用配方将碾压它们,除非你能设计一个打破配方假设的全新设置。那才是真正意义上的 game-changing 研究。
欢迎来到下半场。
原文链接:
https://ysymyth.github.io/The-Second-Half/

(文:硅星GenAI)