OpenAI 姚顺雨：在 o3 发布之际，我们更该重新思考 AI 的意义

在 ChatGPT 带动的生成式 AI 浪潮席卷全球之后，人工智能的发展正悄然进入“下半场”。大模型的能力边界持续扩展，从文本生成、代码撰写，到多模态理解和自主行动，OpenAI 最新发布的推理模型 o3 更是将图像信息纳入“思考”范畴，展现出强大的跨模态推理与任务执行能力。

但当模型的能力越来越强、benchmark 的提升越来越快，我们该如何判断“进展”是否真的等于“价值”？就在这一关键时刻，OpenAI 研究员、ReAct框架提出者姚顺雨，发布了题为《The Second Half》的长文，提出一个深刻命题：

“AI 的第一回合是关于训练方法，第二回合是关于评估方式。”

他指出，我们已经掌握了一套通用的“配方”来解决各种复杂任务：大规模语言预训练、扩展的计算资源，以及将推理纳入智能体的动作空间。而这套配方所引发的连锁效应是：

“模型能力的进步，已经不再依赖于新方法；即使你不针对某个任务做任何优化，下一代 o-series 模型依然能轻松碾压前者。”

因此，AI 的真正难题不再是“我们能不能训练出一个能做 X 的模型”，而是：

“我们该训练 AI 去做什么？我们又该如何判断它是否做得好？”

在这篇文章中，姚顺雨带我们从方法论走向范式转变，从 benchmark 的游戏规则走向真正“效用导向”的重构。以下是《The Second Half》的全文编译，欢迎进入 AI 的“下半场”。

TLDR：我们正站在 AI 发展的中场时刻。

几十年来，AI 的发展基本围绕着训练方法和模型的改进，这一策略卓有成效。从击败国际象棋和围棋世界冠军，到在 SAT 和律师资格考试中超越多数人类，再到在 IMO 和 IOI 上摘金夺银。这些写入 AI 史册的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series 系列模型——背后是关键的 AI 方法创新：搜索、深度强化学习、扩展性、推理能力。AI 就是这样在持续变强。

但现在，有什么突然改变了？

简而言之：RL（强化学习）终于真正起效了，确切地说，RL 实现了泛化。经过多次试错和阶段性突破，我们终于找到了一个可用的“配方”——利用语言与推理解决各类 RL 任务。放在一年前，你如果跟大多数 AI 研究者说，一个通用方法可以解决软件工程、创意写作、IMO 水平的数学题、鼠标键盘操作和长文本问答等，他们只会当你在“幻想”。这些任务本身都极其复杂，很多研究者整个博士阶段可能都只钻研其中之一。

但它确实发生了。

那么接下来会发生什么？AI 的下半场从此刻开启，其重点将从“如何解决问题”转向“如何定义问题”。在这个新阶段，评估将比训练更重要。我们的问题也将从“我们能不能训练一个模型去完成 X？”转变为“我们应不应该训练 AI 去做某件事？又该如何衡量它的实际进展？”要在下半场胜出，我们需要心智和技能的及时转型，或许更接近一名产品经理的思维方式。

第一回合

回顾 AI 的上半场，我们可以从它的“赢家们”看出端倪。你认为至今最有影响力的 AI 论文有哪些？在斯坦福 224N 的小测验中，答案并不意外：Transformer、AlexNet、GPT-3 等。这些论文都有共同特点：提出了重大模型训练突破，同时能在某些 benchmark 上展现显著提升。

但它们还有一个潜在共同点：这些“赢家”几乎全是关于模型或训练方法的，而不是关于 benchmark 或任务本身。即便是影响深远的 benchmark——ImageNet，它的引用量还不到 AlexNet 的三分之一。而 Transformer 的主要 benchmark——WMT’14，其 workshop 报告的引用量约为 1300，而 Transformer 论文本身超过了 16 万次引用。

这说明了 AI 上半场的游戏规则：重点在于提出新模型和新方法，而评估与 benchmark 只是次要的存在（尽管它们是让论文能发表的必要形式）。

为什么会这样？因为在 AI 的上半场，“方法”远比“任务”更难，也更令人兴奋。发明新的算法或架构（比如反向传播算法、AlexNet 的卷积神经网络、GPT-3 所用的 Transformer）需要的是洞见和工程能力；而“定义任务”通常只是把人类已经在做的事（翻译、图像识别、下棋）变成 benchmark，相对简单。

方法本身也往往更具通用性，适用范围比单一任务更广。例如 Transformer 架构如今已成为 NLP、CV、RL 等多个领域的基石，远超当初在翻译任务中首次亮相的 WMT’14 数据集。

这种模型方法主导的玩法持续了数十年，驱动了许多改变世界的突破。但现在，正是这些方法不断累积，最终组合出了解决任务的“通用配方”，使得游戏本身发生了质变。

配方的形成

这套配方包含的原料并不意外：大规模语言预训练、海量数据与算力、推理与行动的融合。这些听起来像你每天在湾区听到的 buzzword，但它们之所以能成为配方，是因为它们在强化学习（RL）语境下被重新组织。

RL 被长期视为 AI 的“终极形态”：理论上，它能赢得所有游戏；实践中，几乎所有超人类系统（如 AlphaGo）都少不了它。

RL 的三个核心组成部分是：算法（algorithm）、环境（environment）与先验（priors）。长期以来，研究者基本集中在算法本身（比如 REINFORCE、DQN、TD-learning、Actor-Critic、PPO、TRPO 等），几乎忽略环境与先验。例如 Sutton 和 Barto 的经典教材，几乎全篇都是讲算法，几乎不谈环境和先验知识的内容。

但进入深度强化学习时代后，环境在实践中被证明极其关键：一个算法的表现往往高度依赖它所测试的环境。你如果忽略环境，很可能就开发出一个在“玩具世界”表现极佳、却无法泛化的算法。

那我们为何不先明确“我们真正想解决的环境是什么”，然后再设计最适配的算法？这正是 OpenAI 的初衷。他们开发了 Gym，一个标准 RL 环境平台，然后是 World of Bits 与 Universe，试图把整个互联网或计算机环境“游戏化”。逻辑非常合理：一旦我们把所有数字世界变成环境，就能用智能体去“通关”，实现数字 AGI。

思路很好，但没完全奏效。OpenAI 在 Dota、机械手等方面通过 RL 取得巨大进展，但始终没能攻克计算机使用或网页导航等任务。而且，一个在某领域表现良好的智能体，往往无法迁移到其他任务。

问题出在哪里？直到 GPT-2 和 GPT-3 出现，我们才意识到：我们缺的不是算法或环境，而是“先验”。

我们需要强大的语言预训练，先将常识和语言知识注入模型，然后再微调它去做网页代理（WebGPT）或聊天（ChatGPT）这样的任务。讽刺的是，最关键的 RL 组件，可能既不是算法也不是环境，而是那些与 RL 毫不相关的“语言先验”。

语言预训练确实为聊天提供了良好先验，但在控制计算机、玩游戏这些任务上表现依然有限。为什么？因为这些任务与互联网文本的分布相去甚远，直接用 SFT 或 RL 微调在这些领域泛化效果差。

我在 2019 年就注意到了这个问题。当时 GPT-2 刚发布，我尝试用它做 SFT + RL 解决文字类游戏，开发了世界上第一个基于语言模型训练的 RL agent：CALM。它能玩一个游戏，但需要几百万步训练，而且无法迁移到其他游戏。虽然这在 RL 研究者看来并不意外，但我感到奇怪：人类明明可以 zero-shot 玩新游戏，而且玩得还不错。

这带来了我人生中的第一次“顿悟时刻”：人类能泛化，是因为我们能进行推理。我们不仅能执行 “走到柜子2”“用钥匙1打开箱子3”“用剑打败地牢怪物”这些指令，还能思考：“地牢危险，我需要武器。眼前没有武器，那我也许要去找个上锁的箱子。箱子3在柜子2，我要先去那里打开。”

推理（reasoning）是一种奇特的动作形式——它不会直接作用于外部世界，但它的空间是开放的、组合爆炸的。你可以思考一个词、一句话、一段话，甚至随机选择一万个英文单词，世界不会立即发生变化。

在传统 RL 理论中，这是一个糟糕的交易：想象你面前有两个箱子，一个有100万美元，一个是空的，选一个你期望值是50万美元。现在我加无数个空箱子进去，你选到钱的概率趋近于零。

但当我们将“推理”引入 RL 的动作空间，并结合语言预训练的先验，我们就能泛化，我们就能针对不同任务灵活地分配推理资源。这真的非常神奇。我在此无法完全讲清楚，你可以阅读 ReAct 框架的原始论文，感受我当时的想法。直觉上，这就像是：虽然你接触过无数空箱子，但这些经验帮助你在新游戏中更有可能找到有钱的那只。抽象解释就是：语言的泛化能力，体现在智能体的推理之中。

一旦我们具备了“正确的先验”（语言预训练）和“合适的环境”（将语言推理纳入动作空间），RL 的算法本身反而变得次要。于是我们得到了 o-series、R1、deep research、computer-using agent，以及未来更多的可能性。

这是一种讽刺的轮回。RL 社区几十年来高度关注算法，却忽视环境与先验；几乎所有 RL 实验都是“从零开始”；结果我们花了数十年绕远路，才意识到我们的优先级也许一直是反的。

但正如 Steve Jobs 所说：“你无法预见未来的连接点，只有回头看时才能发现它们如何串联成线。”

下半场游戏规则重构

这套配方已经改变了游戏。让我们总结一下上半场的规则：

提出新的训练方法或模型，在 benchmark 上不断爬坡；
创造更难的 benchmark，继续挑战。
但这套玩法正在失效：
配方已经标准化、工业化，它能轻松爬坡，无需新创意。你可能绞尽脑汁让某个任务提升 5%，而下一个 o-series 模型啥都没调就直接涨了 30%。
即使我们设计了更难的 benchmark，也很快（甚至越来越快）被配方攻克。

我同事 Jason Wei 做了一个可视化图表，很好地展现了这个趋势：benchmark 的生命周期越来越短。

那下半场我们还怎么玩？如果新方法越来越没必要，而更难的 benchmark 也越来越容易被秒杀，我们还能做什么？

我认为，我们必须彻底重新思考评估（evaluation）。不仅是设计更难的 benchmark，而是质疑现有评估机制的基本假设，去发明新的设置，从而逼迫我们创造新的方法，跳出“配方”的舒适区。

这很难，因为人类有惯性，我们往往不去质疑那些看似理所当然的前提。你认为的“自然法则”，往往只是“潜规则”。

什么是惯性？举个例子：你在 2021 年创造了一个基于人类考试的超级成功评估机制（比如 MMLU）。三年后，它已接近饱和。你会怎么办？大概率你会设计一个更难的考试。

或者你解决了简单的编程任务，然后就一路找更难的题目刷，直到到达 IOI 金牌水平。

惯性很正常，但问题是：AI 已经赢得了象棋、围棋、SAT、bar exam、IOI、IMO……但我们的世界并没有根本性改变，至少在经济和 GDP 层面没有。

我称之为“效用问题”（utility problem），它可能是 AI 面临的最重要问题。

或许我们很快会解决它，也可能不会。但问题的根源或许非常简单：我们当前的评估设置，在多个关键方面与真实世界不符。

举两个例子：

现实任务不是独立完成的。评估通常是 agent 接收一个任务输入，自动执行，然后得到一个评分。但现实中，agent 常常需要与人类持续交互。比如你不会发一条超长的客服消息、等十分钟、然后期望一条完美回复。质疑这种设置，带来了新一代 benchmark，比如引入真实人类交互的 Chatbot Arena，或模拟用户行为的 tau-bench。

现实任务不是独立同分布（i.i.d.）的。当前 benchmark 是这样设定的：你有 500 个任务，模型一个个独立做，最后取平均分。但现实中任务是顺序完成的：Google 的软件工程师会因为熟悉代码库而越修越快，但 AI agent 每次都像第一次一样从头开始。我们当然需要长期记忆机制，但学术界没有为此设计 benchmark，甚至没人愿意质疑 i.i.d. 这个早已成为 ML 奠基假设的前提。

这些假设之所以延续，是因为在 AI 智能水平较低时，只要 intelligence 上升，utility 也随之上升。但今天，通用配方已经保证了在这些假设下必然成功。

所以，下半场的新玩法是：

发明面向真实世界效用的新评估机制和任务；
用配方来解决它们，或在配方之上增添新组件，继续循环。

这场游戏难度更大，因为它陌生，但也更激动人心。上半场的玩家在打游戏、刷分数；而下半场的玩家，将通过“把 intelligence 产品化”来构建数十亿甚至万亿美元的公司。

上半场充满了渐进式方法和模型；而下半场会过滤掉这些——因为通用配方将碾压它们，除非你能设计一个打破配方假设的全新设置。那才是真正意义上的 game-changing 研究。

欢迎来到下半场。

原文链接：
https://ysymyth.github.io/The-Second-Half/

（文：硅星GenAI）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复