从 OpenAI 回清华，吴翼揭秘强化学习之路：随机选的、笑谈“当年不懂股权的我”

受访者 | 吴翼

采访 | 王启隆编辑 | 屠敏

出品 | CSDN（ID：CSDNnews）

人工智能的浪潮席卷而来，从大模型竞赛到智能体系统的探索，从生成模型到推理模型，技术巨头们纷纷入场，推动着一场“AI 重新定义一切”的时代跃迁。但在这场热潮背后，真正推动技术向前的，从来不是一场场轰动的发布会，也不是那些令人眼花缭乱的融资神话，而是一群敢于直面复杂性、埋头钻研底层机制的工程师与研究者。

吴翼，就是其中一位。

1992 年出生的他，高中时期便在全国青少年信息学奥林匹克竞赛（NOI2009）中斩获金牌，并代表中国参加国际信息学奥林匹克竞赛（IOI2010）。此后，他被清华大学交叉信息研究院提前“签下”，保送进入以“顶尖人才训练”著称的姚班，成为图灵奖得主姚期智教授的桃李门生。在本科阶段，吴翼先后前往微软亚洲研究院、Facebook 实习，积累了丰富的经验。

2014 年本科毕业后，吴翼赴加州大学伯克利分校，攻读人工智能方向的博士学位，师从著名 AI 学者 Stuart Russell，深入研究深度强化学习的泛化性以及多智能体学习。博士毕业后，他加入 OpenAI，成为全职研究员。

在 OpenAI，吴翼深度参与了多个项目的研发。其中，他与团队共同推出的“多智能体捉迷藏”项目，通过模拟多个智能体在环境中的自我博弈与策略演化，展示了复杂行为如何通过简单规则自发涌现。该项目发布后广受关注，成为 OpenAI 历史上观看量最高的研究视频之一，也被广泛引用于集体智能相关研究中。

然而，吴翼并未选择留在硅谷。他在 OpenAI 工作一年半后，于 2020 年回到国内，出任清华大学交叉信息研究院助理教授，将前沿技术带回教育与研究体系，并同步展开产业化探索。

2023 年，他创办边塞科技，尝试将大语言模型与强化学习结合，打造面向普通用户的智能系统。

2024 年，他参与的清华大学与蚂蚁技术研究院合作项目推出了 AReaL——一款专为大规模推理模型打造的开源强化学习系统，兼具灵活性与高效性，也重塑了强化学习训练新标杆。

从清华到伯克利求学之路，从 OpenAI 到边塞科技的前沿探索，再到清华、蚂蚁技术研究院的深度耕耘，吴翼用十余年的时间穿越了多个技术浪潮。他不是赶上时代的幸运儿，而是那个始终提前启程的人。

他的故事，也许没有太多浮夸的包装，但是一段由技术热爱与长期主义驱动的科研旅程，静水深流，值得被认真记录。

在 2025 年全球机器学习大会现场，CSDN 资深编辑王启隆对吴翼进行了面对面专访，聊人生、聊技术，也聊聊强化学习背后的那些真实挑战与希望。

AI 产品爆发，但你的痛点解决了吗？8.15-16 北京威斯汀·全球产品经理大会 PM-Summit，3000+ AI 产品人社群已就位。
直面 AI 落地难题、拆解头部案例、对接精准资源！

扫码登记信息，添加小助手进群，抢占 AI 产品下一波红利：

进群后，您将有机会得到：
· 吴翼在 2025 全球机器学习技术大会上海站的演讲 PPT
· 独家视频及文章解读 AGI 时代的产品方法论及实战经验
· 不定期赠送 AI 产品干货资料和秘籍

姚班出发、伯克利深造、OpenAI 历练、清华归来，吴翼的程序人生

王启隆：请您先做个简单的自我介绍吧。

吴翼：大家好，我叫吴翼。目前在清华大学交叉信息研究院担任助理教授，同时也是博士生导师。我的研究方向长期聚焦在强化学习。我于 2019 年在 UC Berkeley 获得博士学位，之后在 OpenAI 工作了一年半，2020 年回到清华任教。

最近，我也受邀帮助蚂蚁集团在蚂蚁研究院新组建了强化学习实验室，专注于强化学习相关的开源算法、模型以及基础设施的建设。

王启隆：您曾走过一条颇具代表性的路径：从清华姚班到伯克利攻读博士，再到加入 OpenAI 担任研究员，随后回到清华任教。期间，您还创办了边赛科技。一路走来，身份多次转换，您有哪些最深的体会？又遇到过哪些挑战？

吴翼：最大的挑战是——开公司真的太难了。

王启隆：相比之下，OpenAI 的工作节奏和现在在清华当老师，哪个更“卷”？或者说，是两种不一样的“卷”法？

吴翼：我觉得，创业绝对是最“卷”的。因为创业公司几乎每天都在和“死亡”赛跑，尤其是在 AI 这种竞争极其激烈的领域，稍有不慎就可能错失关键的时间窗口。比如错过融资机会、商业合作，甚至只是晚了半年，结果都可能完全不同。

像 Manus，如果晚发布半年，影响会非常大；DeepSeek-R1 也是一样。哪怕是在做开源系统，第一个和第二个推出的效果也可能天差地别。ChatGPT 能拿到那么多红利，很大程度上就是因为它是第一个出现的大模型产品。

所以，时间窗口非常短。对创业公司来说，抓不住这个窗口，可能就意味着“死”。而在 OpenAI 工作，不太可能“死”；在学校教书，即便科研进展、项目申请不顺利，学校也提供了很好的保障，无非是在哪工作的事，不至于生死攸关。

总体来看，无论是在学校还是早期的 OpenAI，环境相对更宽松，更适合专心做研究，不需要操心那么多。而创业就完全不一样了。所以我也经常劝身边的人，如果没有想得特别清楚，真的不建议轻易去创业。

但如果你在我劝退之后，还是坚持要去创业，那反倒说明你是真的准备好了，那就可以去试试。创业确实能让人快速成长，也能学到很多东西。

王启隆：您在 2020 年选择离开 OpenAI 回到清华，这个转变非常关键。您当时是出于什么原因做出这个决定的？

吴翼：其实关键原因可能是——当时不知道股权那么值钱（笑）。

王启隆：哈哈哈哈。

吴翼：（笑）开个玩笑啦。但我想澄清一点，不是我先在 OpenAI 工作，然后再决定回国的，而是反过来。我在 2018 年底就先答应姚期智先生要回清华了。然后我说，在正式回国之前想再在硅谷多待一段时间，于是去了 OpenAI。

王启隆：刚好就赶上了 OpenAI 的那个关键时期？

吴翼：对，现在回头看，有时候觉得人太守信用，可能也会“吃亏”。（笑）但当时确实是客观决定。我在美国读博期间经常回国实习，所以很幸运也亲眼看到了中国互联网时代的尾声。这也让我觉得中国仍然有很多机会，这是我选择回来发展的一个重要原因。

王启隆：在读博期间，你似乎也有过方向上的迷茫，最后是怎么选择了做强化学习（RL）的呢？

吴翼：说实话，我当时的选择其实挺随机的。最早我做的是编译器方向，研究一些跟逻辑推理相关的内容。但后来发现，一方面我在这个方向上做得不是特别好，另一方面我也不是特别感兴趣，而且它本身也比较小众。所以我开始考虑转方向。

这一点上我真的很感谢 Berkeley，那里的合作氛围非常好。当时我就去找了 Pieter Abbeel，他是 OpenAI 早期的首席科学家之一，后来离开创办了机器人公司 Covariant，前阵子刚被亚马逊收购。

我敲开他的门，说我想做强化学习——因为那会儿 RL 正火。他当时提了两个要求：第一，你得先跟你自己的导师沟通好，不能直接绕过导师来找我。我说这事我已经沟通过了；第二，他给了我三个项目，让我自己挑一个。我当时闭着眼随便选了一个，结果正好选中了后来拿了 Best Paper 的那个。所以你看，这完全就是运气，当时对方向根本没有太多判断力。

其实很多时候的选择，真的是这样。你回头再看，可能都很难解释当时为什么会做出那个决定。

王启隆：一路走来，你一直在“大神云集”的环境中，比如姚班、OpenAI，现在在清华。这种环境对你来说，是压力更大，还是动力更强？

吴翼：首先，压力肯定会存在。我认为，“动力”应源自内心真正想做的事。如果动力单纯来自外界环境，往往难以持久——毕竟，靠环境施压很难让人坚持一件事五到十年。能支撑一个人长期投入的，必定是源自内心的热爱与认同。

就像有些人能十年如一日地跑步，那不是因为有人拿鞭子逼他，而是因为他从中获得了快乐和放松感。

同理，如果你发现自己做很多事是出于周围人的影响或比较心态，我建议可以稍微放松一下，去想一想有没有什么事是你无论身处哪个环境都愿意做的。那种内在动机才更重要。

当然，“大神云集”也有好处，比如你能认识很多人，他们会在关键时刻帮助你、给你机会。Pieter 给了我做 RL 的机会，Stuart Russell 给了我很多研究上的启发。但环境的坏处是，压力太大也容易让人迷失方向。所以我建议大家多花时间去思考：我真正想做的是什么？

蚂蚁与清华开源强化学习框架 AReaL 究竟是什么？

王启隆：你的团队和蚂蚁技术研究院联合发布了 AReaL，能否简要说明一下 AReaL 主要想解决的问题是什么？

吴翼：强化学习最近在整个 AI 尤其是大模型的发展中，带来了很多新的变化。其中一个核心的新趋势就是所谓的“推理模型”（Reasoning Model）。最初是由 OpenAI 的 o1 模型提出的这个概念，后来包括 DeepSeek-R1 等模型也在延续和扩展这一方向。

推理模型的核心理念是：在生成最终答案之前，大模型会先“思考”一下，输出一段“thinking token”。研究发现，Thinking token 越多，模型的最终回答往往越准确。而强化学习正是训练这种“先思考、后回答”能力的有效方式。

推理模型的出现，使得强化学习在大模型训练中再次变得尤为关键，成为提升模型推理能力的一个重要 scaling 工具。因此我们设计了 AReaL ——全称是 Ant Reasoning Reinforcement Learning，即蚂蚁推理强化学习框架。AReaL 致力于为这一类推理模型提供高效、开源、可复用的训练方案。

当然，AReaL 并不仅限于推理模型的训练，作为一个强化学习框架，它也可以适配其他任务。但我们为适应新范式做了很多定制化的优化和设计。

王启隆：与大家熟悉的 RLHF（基于人类反馈的强化学习）相比，AReaL 的强化学习目标有何不同？RLHF 通常是依赖人类标注的数据进行训练的。

吴翼：这是一个非常重要的问题。首先要说明的是，其实所有的机器学习训练，广义上都离不开人类的参与和标注，只是参与的方式和标注的内容不同而已。

RLHF 最初是为了解决“大模型不好用”的问题。比如早期的 GPT-3，经常出现的问题是：你问它一个问题，它反而只是重复你的问题，而不给你真正的解答。这种行为让模型在实际应用中体验很差。

为了让模型更“听话”，OpenAI 研究了将近两年，最终提出了 RLHF 方法。其核心思路是：人类提供一批“好”答案和“不好”答案，让模型学习哪些回答是被偏好、被认可的，从而调整生成行为。这一方法显著提升了模型的可用性，让 GPT-3 这样的原始模型转变为“既听话又好用”的 ChatGPT。

但 RLHF 并不提升模型的“智力”，它只是让模型在形式上更合乎人类预期。直到后来，像 o1 这样的推理模型出现，大家才发现：强化学习不仅可以调优行为，还能实质性地增强模型的推理能力。

所以说，两者关注点不同：RLHF 的目标是“让模型听话”；而 AReaL 更关注“让模型更聪明”。这也正是 AReaL 构建的初衷之一。在推理模型训练中，我们发现强化学习也呈现出类似 Scaling Law 的特性：你投入越多算力和高质量数据，模型智力的提升就越显著。这是 RLHF 所不具备的能力，也是我们为什么要从“听话”走向“聪明”的关键所在。

王启隆：对，这是非常关键的一项技术。RLHF 本身并没有改变 Scaling Law。今年出现了一个非常有意思的研究成果——DeepSeek 推出的 R1 Zero，它是完全基于强化学习训练的，没有使用 SFT。这种纯强化学习的路线吸引力何在？它目前的成本或者说技术挑战又有哪些？这些挑战是可以克服的吗？

吴翼：它的作用其实就是“秀肌肉”，说得直接一点。我打个比方，比如梅西可以从后场一路带球过人到前场，然后完成射门得分。但他不会在每一场比赛里都这样做。训练时会这样做，目的是两个：一是锻炼脚法，二是告诉别人“我很厉害”。

R1 Zero 就是这样的“全场带球进球”。它展示了 DeepSeek 的训练数据是可靠的、训练流程是正确的、算法和基础设施也是可行的。它是一种能力的展示。但这不会成为他们在实际生产系统中的标准做法，因为这样效率太低。正常情况下，一定是团队配合，把球传到禁区附近，再让“梅西”发挥个人能力。同理，常规流程还是先通过 SFT 训练模型到一定水平，再用强化学习进一步提升表现，实现 Scaling。

王启隆：之前 OpenAI 官号在 YouTube 上曾发布一个爆火的视频，是关于多智能体的捉迷藏实验，那时你也参与了这个项目。其实当时也用了强化学习。你觉得当时的 RL 训练和如今开发 AReaL 所面临的挑战是否类似？这些年来强化学习在技术难点上的变化体现在哪里？

吴翼：这两者之间确实有很大不同。当然，也有些 Agent 相关的难点现在又重新出现了。我们可以从两个主要方面来谈。

第一个是模型体积的变化带来了巨大的挑战。在传统强化学习中，无论是机器人任务、捉迷藏，还是 Dota，所使用的模型都非常小，通常只有几十兆或最多一两百兆。推理和生成过程甚至可以在 CPU 上完成，计算需求很低，因此你根本不需要考虑推理效率问题，算法才是重点。那时候，训练更多是靠 CPU 来扩展，比如运行大量的游戏环境。

但进入大模型时代后，模型规模增长了几个数量级，可能是上千亿参数（100B）的模型，对比之前的 100M，扩展了 1000 倍。这对训练和推理提出了全新的要求。

第二个是环境交互的变化。以前训练游戏智能体时，一个对局可能持续 20 分钟。而在今天的大模型任务中，像操作系统交互、代码生成或数学推理等场景，环境交互往往很短，甚至有时模型是在“脑子里”推理，不依赖真实环境。所以交互过程变得更加简化。

虽然交互变简单了，但模型本身变得极为庞大，这反而成了新的瓶颈。所以我们也对之前为游戏类强化学习开发的系统进行了大量改造，以适配如今大模型的训练需求。

“神之一手”能否批量复现？

王启隆：提到游戏，难免联想到 AlphaGo 人机大战中第二局第 37 手（Move 37）那步颠覆职业棋手认知的操作。如今人们期待大模型（尤其是推理模型）能否迎来类似的 “AlphaGo 时刻”。对此可探讨两个问题：①强化学习的 Scaling Law 是否是通向该时刻的路径；②若某模型出现 “Move 37” 级表现，其突破能力是可持续的，还是更可能局限于游戏等垂直场景？

吴翼：首先，对于有没有出现类似 Move 37 的“神之一手”这个问题，其实已经出现了。比如 DeepSeek-R1 为什么能出圈？就是因为它第一次展示了清晰的推理链，让大家感受到“AI 是在认真思考”，而不是随便给个答案。它的推理过程让人觉得“哇，它像个人”。这就是一种“神之一手”，而且是大家都能理解的“神之一手”。所以它出圈了。

其次，Scaling Law 是否会持续？我认为是会的。比如最近 OpenAI 发布的 o3、o4，从结果来看，强化学习在后训练阶段确实带来了效果的进一步提升。当然这种提升不是只靠后训练，而是“预训练 × 后训练”的联合作用。只是预训练的边际收益越来越低，ROI 降低了，所以强化学习的提升空间相对更值得挖掘。整体来看，Scaling Law 的趋势还在继续。

最后，“神之一手”是否只会局限于游戏等垂直场景力？我认为，垂类模型的应用场景绝非局限于游戏领域。大模型的核心价值在于泛化能力——支持多场景交互、适配各类用户需求，仅凭单一游戏场景的模型无法体现这一时代特征。

真正的垂类模型往往诞生于细分领域的深度优化。例如 Deep Research、OpenAI 曾推出的 operator（尽管未达预期），以及 Claude 在代码生成、PPT 制作等场景的突出表现，这些案例均表明：强化学习技术既能推动 o1、o3 等通用模型的演进，也能针对特定场景打造专用产品。

王启隆：当一个模型的能力与泛化能力达到某个临界点，甚至进入新的 “突破阶段”（如能产出类似 AlphaGo 的 “神之一手”），这是否意味着它已具备批量生成 “神之一手” 的能力？即达到类似 AGI（通用人工智能）的水平？还是说，其突破仍会像 Deep Research 那样，以产品发布的形式陆续出现？

吴翼：这个问题可以从两个层面分析：

第一，即便模型接近 AGI 能力，产品层面的创新空间依然存在。类比人类社会：一个顶尖人才搭配更高效的工具或协作方式，仍能产出更卓越的成果。例如，微信作为成熟平台，仍可通过小程序生态持续延伸价值。未来 AI 生态可能呈现多层次结构——既有统一的基础模型，也有基于其开发的垂直应用。

这种生态的厚度和多样性值得探索，尽管其最终形态（多层级或简单化）可能需要 1-2 年才能清晰化。我倾向于认为，“产品 + 强化学习” 仍将是重要方向，但不排除未来出现极强的统一 AI 模型。

第二，模型尺寸的权衡我们可能看到两类模型分化：

大而强但成本高的模型：具备更强的通用能力，但部署成本高昂；
轻量化、高效的小模型：针对特定场景优化，性价比更高。这种分化将推动模型架构与产品形态的多元化。

此外，不同公司的模型（如 OpenAI、Gemini、Claude、Grok 及国内模型）在使用体验上的差异，也可能影响产品定义方式。这些趋势的走向，或许需要一年后才能更清晰地判断。

强化学习三要素：奖励、搜索与提示

王启隆：你之前提到 RL 包含三个要素：一个是奖励模型（Reward Model），一个是搜索/探索机制，还有一个是 Prompt。在目前的技术水平下，这三者中哪个最难搞定？

吴翼：首先需要明确强化学习的基本框架 —— 它包含任务定义（即提示词）、环境（产品场景或交互载体，如文本输入）、奖励函数这三大核心要素。当我们讨论如何构建一个强化学习模型时，实则涉及四个关键要素：基座模型、训练系统、训练数据和训练算法。

这里需要说明：模型定义本身并无优劣之分，只要符合强化学习的框架即可（否则便不属于该领域问题）。因此，我们的讨论应聚焦于训练要素 —— 基座模型、系统、数据、算法中，哪些更难突破？

在我看来，预训练模型属于预训练阶段的范畴（如开源社区或企业提供的基础模型），其优化是另一维度的课题，暂不纳入本次讨论。聚焦强化学习的训练环节，核心挑战集中在算法、系统和数据这三者。

这三者中，我认为算法反而是“最不重要”。最难的是系统和数据。后两者中，我个人认为系统的门槛更高。我的排序是：系统>数据（我甚至打个 1.5）>算法。

为什么这么说呢？

先说数据。强化学习要想做得好，训练的数据质量非常关键。你出什么题给模型练习，决定了它能不能真正变强。出太简单的题，比如让大学生做小学数学题，是没用的；出太难的，比如让他去解菲尔兹奖题目，也一样学不到东西。所以数据的构造要刚刚好，足够有挑战但又能学得会。

再说系统。系统的关键作用在于加快实验迭代的速度。算法的进步，本质上是靠反复实验积累出来的。如果一个团队能在相同时间和资源下跑一万个实验，而另一个团队只能跑一百次，即使后者有再好的人才，差距也是非常大的。你可能一万对一千还能靠人弥补，但一万对一百就基本没戏了。

所以，训练系统的效率和稳定性，直接决定了算法团队的迭代能力，进而决定了整个模型的进化速度。这也是为什么我们团队会花这么多精力投入在训练系统上——甚至认为，开源训练系统的价值，可能比开源模型还要大。

AI 是否需要知道自己“不知道”？

王启隆：我曾经在北京一次智源大会上，见到你在现场与 Stuart Russell（加州大学伯克利分校电气工程与计算机科学系教授）教授对话。他是你在伯克利的博导，也是 AI 对齐领域的权威，起还与他人合著了《人工智能：现代方法》这本教材。他一直非常关注 AI 的安全和对齐问题。当时他提到，AI 需要知道自己不知道人类的价值观。那你现在在设计强化学习系统时，怎么体现对不确定性或安全性的考量？

吴翼：我非常认同 Russell 教授对 AI 安全的看法。这个问题的核心在于目标定义。当我们让一个模型去推理或完成任务时，人类其实很难用一种完全明确的语言表达出自己真正想要的东西。所以，如果 AI 对目标过于自信，就很容易出现偏差或错误，这也是 Russell 强调“AI 应该知道自己可能不知道”的原因。

但在当前阶段，能够体现这种“不确定性认知”的方法还不成熟，还难以直接应用在工业或大规模的生产环境中。目前我们在产品层面还是默认模型需要给出明确、准确的结果——输入要明确、输出要精确。

不过我在清华做的一些人机协作游戏相关工作，就特别关注这类问题。比如 AI 和人一起玩 Overcooked、狼人杀，AI 要与人配合，就必须猜测人类的行为，这就需要模型对“我可能不知道人类怎么想”有某种形式的认知。我们也在这些项目中用了不少这类方法，如果大家感兴趣，可以看看我们的一些论文，里面有很多好玩的尝试。

王启隆：当时 Russell 教授还谈到提示工程。他觉得我们现在和 AI 对话时还得加上“请你”“帮我”这样的敬语，有点像在驯化一只动物。那你怎么看？未来我们和 AI 对话还会一直需要提示工程吗？还是会变得更自然？

记得 o1 出来时，很多人说提示工程要消失了，提示工程师这职业也要完了。但到 R1 出来后，风向又变了。连 Sam Altman 自己都说，提示工程师未来几年仍然很重要。我自己感觉也是，如果不用提示工程、只是随便说几句，自然语言生成效果确实不如写得精准一些。

吴翼：首先，我觉得在任何阶段，提示工程都是有价值的。这是因为整个 AI 的交互范式已经从原来的图形界面变成自然语言了。这是方式本身就会带来了“谁用得好、谁用得不好”的差异。就像以前大家用 Google 搜索，关键词好不好，结果会差很多。任何产品形态都会有“用得溜的人”和“用得一般的人”，这在历史上屡见不鲜。Prompt 工程也是一样，它的价值一定会持续存在。

其次，产品的发展趋势，肯定是让用户说得越来越少、用得越来越简单。早期的 Prompt Engineering 要写几千个 token，现在很多只需要几百个，甚至更短。这说明 AI 系统本身变得更智能，Prompt 负担更小。但 Prompt 工程不会消失，它的形式会演化，越来越贴近自然语言，但本质上，它仍然是“把事情表达清楚”的能力。

王启隆：我突然想到人工智能教父 Geoffrey Hinton 在一次采访里提到，他和 Ilya Sutskever（前 OpenAI 联合创始人和首席科学家）都是典型的“直觉型”决策者，甚至一个电话就能决定方向。你刚才说“随机”，我感觉也有点像这种风格。

吴翼：对，我基本上也差不多。我有个“抛硬币理论”：当你在两个或多个选项之间纠结时，其实说明这些选项都差不多，没有明显好或不好。既然这样，那就抛个硬币吧，正面选 A，反面选 B。

但其实，大多数人并不会真的去看硬币的正反面——一旦你决定“交给命运”，你内心就已经有倾向了。所以抛硬币的过程，反而帮你做出了决策。

王启隆：某次访谈中，你提到过自己是 INTJ 人格，这种人格特质会影响你理想中的人机交互方式吗？你更倾向于 AI 主动一点，还是保持被动响应？

吴翼：这需要因人而异。我认为，AI 产品的设计必须是多样化、可个性化的。比如面对 I 型人格和 E 型人格用户，AI 的交互方式就应该有所差异。作为典型的 I 型人，我更希望 AI 减少主动打扰，但能精准捕捉我的需求。

这也是我此前研究人机协作时的核心出发点：当人和 AI 共同完成任务（例如玩游戏）时，我做出一个动作，AI 最好能预判我接下来的意图，而不是反复追问。未来 AI 的核心竞争力之一，正是个性化。我觉得，AI 产品的设计一定是多样化、可个性化的。

王启隆：但现在 AI 还有一个问题，就是“幻觉”——它经常一本正经地胡说八道。那 AI 应该学会“犹豫”吗？比如说“我不确定”或者“我不知道”？

吴翼：我觉得应该。AI 需要知道什么时候自己不确定。

王启隆：但现在似乎没有哪个 AI 模型会主动这么做。

吴翼：对，我觉得这可能是底层架构上的问题。

我们当然是希望 AI 能意识到自己“不知道”。这也是我老师 Stuart Russell（加州大学伯克利分校电气工程与计算机科学系教授）一直强调的观点。他做了很多关于 AI 为什么要具备“不确定性意识”的研究，认为一个好的 AI 系统应该知道自己“不知道”。

但要做到这一点，其实非常难。难的原因主要有两个：

第一个原因是现有的训练范式本身就不鼓励 AI 说“不知道”。比如强化学习，需要明确的目标和奖励机制；又比如 Next Token Prediction，它的训练目标就是“预测下一个词”，而没有内置处理不确定性的机制。这跟训练算法的设计有关。但问题是，目前这些方法虽然有理论局限，却是“能用”的。所以我们才不得不用。
第二个原因是深度学习本身带来的问题：模型越大，越容易“过度自信”。这是一个我们在理论和实践中都观察到的现象。因为大模型的记忆力强，你给它一个有瑕疵的答案，它也可能完整记下来，然后非常自信地复述出来。

所以我们现在面临的难题是，怎么让一个本质上“过度自信”的模型，学会承认自己的不确定性。这非常难。过去有不少科学家在研究这个问题，但还没有找到特别好的解决方法。

我自己对这件事情做了一个公开演讲，如果大家对这个方向感兴趣，可以看看我在 B 站的视频（搜索“深度学习+我的名字+蚂蚁公开课”），当然也可以自行做一些这样的研究，这仍然是一个非常开放且挑战极大的问题。

AI 的下一站突破会在哪里？

王启隆：展望未来三到五年，甚至更短的时间，你最期待 AI 在哪个方向上取得突破？你今天其实也提到了多智能体协作。最近我看到 Stanford 有篇论文提到，多智能体协作的研究进展缓慢、瓶颈明显——为什么会这样？

吴翼：这个问题其实可以分为两个部分。

第一部分是关于未来 AI 最有可能取得突破的方向。其实很难想象未来会是什么样，因为 AI 的能力还没有达到上限。不过，就我个人而言，我还是比较关注“记忆表达”和“个性化”。这些年 OpenAI 也在探索个性化方向，但目前还没做得特别好。

从长期来看，大家对 AI 智能水平的不断提升已经见怪不怪了，但“智能如何更好地与人交互”仍有很大探索空间。短期内，大模型仍在不断追求 Scaling Law 带来的性能提升。

第二部分是关于多智能体系统为什么发展缓慢、瓶颈明显。我认为根本问题在于，目前我们所谓的“多智能体协作”，很多时候本质上还是在解决“指令执行”问题——人给出一个明确的指令，多个智能体按照分工去完成它。这个前提是：指令本身是清晰、完整的。

很多被称作“多智能体协作”的场景，其实是因为一个模型能力不够强，我们才用多个模型互相配合，试图通过工程方式或是 Prompt Engineering 手段来补足。

换句话说，如果将来出现了一个能力更强、泛化性更好的单模型，那原本需要多个智能体协作才能完成的任务，它一个模型就能胜任——那还需要多智能体吗？所以，从理论上讲，多智能体框架并不是“必需”的，它更像是一种可选的优化路径，而不是不可替代的基础。

但确实存在一些任务，天然就需要多智能体建模。比如那些本质上涉及博弈或协作的任务：人和 AI 一起打游戏、协作完成任务，或是在有竞争关系的系统中互动。在这些情况下，你没法用一个模型来模拟所有 Agent，就必须引入多智能体系统。

另一个典型场景是，等到 Agent 真正普及，比如每个人都拥有自己的 AI 助手，这些助手帮助人类获取信息、使用工具，那整个世界本质上就变成了一个多智能体环境。建模方法也必须适应这种结构化、多主体的现实。

（文：AI科技大本营）

2025 年 12 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复