从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人

受访者 | 吴翼
采访 | 王启隆     编辑 | 屠敏  
出品 | CSDN(ID:CSDNnews)

人工智能的浪潮席卷而来,从大模型竞赛到智能体系统的探索,从生成模型到推理模型,技术巨头们纷纷入场,推动着一场“AI 重新定义一切”的时代跃迁。但在这场热潮背后,真正推动技术向前的,从来不是一场场轰动的发布会,也不是那些令人眼花缭乱的融资神话,而是一群敢于直面复杂性、埋头钻研底层机制的工程师与研究者。

吴翼,就是其中一位。

1992 年出生的他,高中时期便在全国青少年信息学奥林匹克竞赛(NOI2009)中斩获金牌,并代表中国参加国际信息学奥林匹克竞赛(IOI2010)。此后,他被清华大学交叉信息研究院提前“签下”,保送进入以“顶尖人才训练”著称的姚班,成为图灵奖得主姚期智教授的桃李门生。在本科阶段,吴翼先后前往微软亚洲研究院、Facebook 实习,积累了丰富的经验。

2014 年本科毕业后,吴翼赴加州大学伯克利分校,攻读人工智能方向的博士学位,师从著名 AI 学者 Stuart Russell,深入研究深度强化学习的泛化性以及多智能体学习。博士毕业后,他加入 OpenAI,成为全职研究员。

在 OpenAI,吴翼深度参与了多个项目的研发。其中,他与团队共同推出的“多智能体捉迷藏”项目,通过模拟多个智能体在环境中的自我博弈与策略演化,展示了复杂行为如何通过简单规则自发涌现。该项目发布后广受关注,成为 OpenAI 历史上观看量最高的研究视频之一,也被广泛引用于集体智能相关研究中。

然而,吴翼并未选择留在硅谷。他在 OpenAI 工作一年半后,于 2020 年回到国内,出任清华大学交叉信息研究院助理教授,将前沿技术带回教育与研究体系,并同步展开产业化探索。

2023 年,他创办边塞科技,尝试将大语言模型与强化学习结合,打造面向普通用户的智能系统。

2024 年,他参与的清华大学与蚂蚁技术研究院合作项目推出了 AReaL——一款专为大规模推理模型打造的开源强化学习系统,兼具灵活性与高效性,也重塑了强化学习训练新标杆。

从清华到伯克利求学之路,从 OpenAI 到边塞科技的前沿探索,再到清华、蚂蚁技术研究院的深度耕耘,吴翼用十余年的时间穿越了多个技术浪潮。他不是赶上时代的幸运儿,而是那个始终提前启程的人。

他的故事,也许没有太多浮夸的包装,但是一段由技术热爱与长期主义驱动的科研旅程,静水深流,值得被认真记录。

在 2025 年全球机器学习大会现场,CSDN 资深编辑王启隆对吴翼进行了面对面专访,聊人生、聊技术,也聊聊强化学习背后的那些真实挑战与希望。

AI 产品爆发,但你的痛点解决了吗?8.15-16 北京威斯汀·全球产品经理大 会 PM-Summit,3000+ AI 产品人社群已就位。
直面 AI 落地难题、拆解头部案例、对接精准资源!

扫码登记信息,添加小助手进群,抢占 AI 产品下一波红利:

进群后,您将有机会得到:
· 吴翼在 2025 全球机器学习技术大会上海站的演讲 PPT
· 独家视频及文章解读 AGI 时代的产品方法论及实战经验
· 不定期赠送 AI 产品干货资料和秘籍



姚班出发、伯克利深造、OpenAI 历练、清华归来,吴翼的程序人生

王启隆:请您先做个简单的自我介绍吧。

吴翼大家好,我叫吴翼。目前在清华大学交叉信息研究院担任助理教授,同时也是博士生导师。我的研究方向长期聚焦在强化学习。我于 2019 年在 UC Berkeley 获得博士学位,之后在 OpenAI 工作了一年半,2020 年回到清华任教。

最近,我也受邀帮助蚂蚁集团在蚂蚁研究院新组建了强化学习实验室,专注于强化学习相关的开源算法、模型以及基础设施的建设。

王启隆:您曾走过一条颇具代表性的路径:从清华姚班到伯克利攻读博士,再到加入 OpenAI 担任研究员,随后回到清华任教。期间,您还创办了边赛科技。一路走来,身份多次转换,您有哪些最深的体会?又遇到过哪些挑战?

吴翼最大的挑战是——开公司真的太难了。

王启隆:相比之下,OpenAI 的工作节奏和现在在清华当老师,哪个更“卷”?或者说,是两种不一样的“卷”法?

吴翼我觉得,创业绝对是最“卷”的。因为创业公司几乎每天都在和“死亡”赛跑,尤其是在 AI 这种竞争极其激烈的领域,稍有不慎就可能错失关键的时间窗口。比如错过融资机会、商业合作,甚至只是晚了半年,结果都可能完全不同。

像 Manus,如果晚发布半年,影响会非常大;DeepSeek-R1 也是一样。哪怕是在做开源系统,第一个和第二个推出的效果也可能天差地别。ChatGPT 能拿到那么多红利,很大程度上就是因为它是第一个出现的大模型产品。

所以,时间窗口非常短。对创业公司来说,抓不住这个窗口,可能就意味着“死”。而在 OpenAI 工作,不太可能“死”;在学校教书,即便科研进展、项目申请不顺利,学校也提供了很好的保障,无非是在哪工作的事,不至于生死攸关。

总体来看,无论是在学校还是早期的 OpenAI,环境相对更宽松,更适合专心做研究,不需要操心那么多。而创业就完全不一样了。所以我也经常劝身边的人,如果没有想得特别清楚,真的不建议轻易去创业。

但如果你在我劝退之后,还是坚持要去创业,那反倒说明你是真的准备好了,那就可以去试试。创业确实能让人快速成长,也能学到很多东西。

王启隆:您在 2020 年选择离开 OpenAI 回到清华,这个转变非常关键。您当时是出于什么原因做出这个决定的?

吴翼其实关键原因可能是——当时不知道股权那么值钱笑)

王启隆哈哈哈哈。

吴翼(笑)开个玩笑啦。但我想澄清一点,不是我先在 OpenAI 工作,然后再决定回国的,而是反过来。我在 2018 年底就先答应姚期智先生要回清华了。然后我说,在正式回国之前想再在硅谷多待一段时间,于是去了 OpenAI。

王启隆:刚好就赶上了 OpenAI 的那个关键时期?

吴翼对,现在回头看,有时候觉得人太守信用,可能也会“吃亏”。(笑)但当时确实是客观决定。我在美国读博期间经常回国实习,所以很幸运也亲眼看到了中国互联网时代的尾声。这也让我觉得中国仍然有很多机会,这是我选择回来发展的一个重要原因。

王启隆在读博期间,你似乎也有过方向上的迷茫,最后是怎么选择了做强化学习(RL)的呢?

吴翼说实话,我当时的选择其实挺随机的。最早我做的是编译器方向,研究一些跟逻辑推理相关的内容。但后来发现,一方面我在这个方向上做得不是特别好,另一方面我也不是特别感兴趣,而且它本身也比较小众。所以我开始考虑转方向。

这一点上我真的很感谢 Berkeley,那里的合作氛围非常好。当时我就去找了 Pieter Abbeel,他是 OpenAI 早期的首席科学家之一,后来离开创办了机器人公司 Covariant,前阵子刚被亚马逊收购。

我敲开他的门,说我想做强化学习——因为那会儿 RL 正火。他当时提了两个要求:第一,你得先跟你自己的导师沟通好,不能直接绕过导师来找我。我说这事我已经沟通过了;第二,他给了我三个项目,让我自己挑一个。我当时闭着眼随便选了一个,结果正好选中了后来拿了 Best Paper 的那个。所以你看,这完全就是运气,当时对方向根本没有太多判断力。

其实很多时候的选择,真的是这样。你回头再看,可能都很难解释当时为什么会做出那个决定。

王启隆:一路走来,你一直在“大神云集”的环境中,比如姚班、OpenAI,现在在清华。这种环境对你来说,是压力更大,还是动力更强?

吴翼首先,压力肯定会存在。我认为,“动力”应源自内心真正想做的事。如果动力单纯来自外界环境,往往难以持久——毕竟,靠环境施压很难让人坚持一件事五到十年。能支撑一个人长期投入的,必定是源自内心的热爱与认同。

就像有些人能十年如一日地跑步,那不是因为有人拿鞭子逼他,而是因为他从中获得了快乐和放松感。

同理,如果你发现自己做很多事是出于周围人的影响或比较心态,我建议可以稍微放松一下,去想一想有没有什么事是你无论身处哪个环境都愿意做的。那种内在动机才更重要。

当然,“大神云集”也有好处,比如你能认识很多人,他们会在关键时刻帮助你、给你机会。Pieter 给了我做 RL 的机会,Stuart Russell 给了我很多研究上的启发。但环境的坏处是,压力太大也容易让人迷失方向。所以我建议大家多花时间去思考:我真正想做的是什么?


蚂蚁与清华开源强化学习框架 AReaL 究竟是什么?

王启隆:你的团队和蚂蚁技术研究院联合发布了 AReaL,能否简要说明一下 AReaL 主要想解决的问题是什么?

吴翼强化学习最近在整个 AI 尤其是大模型的发展中,带来了很多新的变化。其中一个核心的新趋势就是所谓的“推理模型”(Reasoning Model)。最初是由 OpenAI 的 o1 模型提出的这个概念,后来包括 DeepSeek-R1 等模型也在延续和扩展这一方向。

推理模型的核心理念是:在生成最终答案之前,大模型会先“思考”一下,输出一段“thinking token”。研究发现,Thinking token 越多,模型的最终回答往往越准确。而强化学习正是训练这种“先思考、后回答”能力的有效方式。

推理模型的出现,使得强化学习在大模型训练中再次变得尤为关键,成为提升模型推理能力的一个重要 scaling 工具。因此我们设计了 AReaL ——全称是 Ant Reasoning Reinforcement Learning,即蚂蚁推理强化学习框架。AReaL 致力于为这一类推理模型提供高效、开源、可复用的训练方案。

当然,AReaL 并不仅限于推理模型的训练,作为一个强化学习框架,它也可以适配其他任务。但我们为适应新范式做了很多定制化的优化和设计。

王启隆:与大家熟悉的 RLHF(基于人类反馈的强化学习)相比,AReaL 的强化学习目标有何不同?RLHF 通常是依赖人类标注的数据进行训练的。

吴翼:这是一个非常重要的问题。首先要说明的是,其实所有的机器学习训练,广义上都离不开人类的参与和标注,只是参与的方式和标注的内容不同而已。

RLHF 最初是为了解决“大模型不好用”的问题。比如早期的 GPT-3,经常出现的问题是:你问它一个问题,它反而只是重复你的问题,而不给你真正的解答。这种行为让模型在实际应用中体验很差。

为了让模型更“听话”,OpenAI 研究了将近两年,最终提出了 RLHF 方法。其核心思路是:人类提供一批“好”答案和“不好”答案,让模型学习哪些回答是被偏好、被认可的,从而调整生成行为。这一方法显著提升了模型的可用性,让 GPT-3 这样的原始模型转变为“既听话又好用”的 ChatGPT。

但 RLHF 并不提升模型的“智力”,它只是让模型在形式上更合乎人类预期。直到后来,像 o1 这样的推理模型出现,大家才发现:强化学习不仅可以调优行为,还能实质性地增强模型的推理能力。

所以说,两者关注点不同:RLHF 的目标是“让模型听话”;而 AReaL 更关注“让模型更聪明”。这也正是 AReaL 构建的初衷之一。在推理模型训练中,我们发现强化学习也呈现出类似 Scaling Law 的特性:你投入越多算力和高质量数据,模型智力的提升就越显著。这是 RLHF 所不具备的能力,也是我们为什么要从“听话”走向“聪明”的关键所在。

王启隆:对,这是非常关键的一项技术。RLHF 本身并没有改变 Scaling Law。今年出现了一个非常有意思的研究成果——DeepSeek 推出的 R1 Zero,它是完全基于强化学习训练的,没有使用 SFT。这种纯强化学习的路线吸引力何在?它目前的成本或者说技术挑战又有哪些?这些挑战是可以克服的吗?

吴翼它的作用其实就是“秀肌肉”,说得直接一点。我打个比方,比如梅西可以从后场一路带球过人到前场,然后完成射门得分。但他不会在每一场比赛里都这样做。训练时会这样做,目的是两个:一是锻炼脚法,二是告诉别人“我很厉害”。

R1 Zero 就是这样的“全场带球进球”。它展示了 DeepSeek 的训练数据是可靠的、训练流程是正确的、算法和基础设施也是可行的。它是一种能力的展示。但这不会成为他们在实际生产系统中的标准做法,因为这样效率太低。正常情况下,一定是团队配合,把球传到禁区附近,再让“梅西”发挥个人能力。同理,常规流程还是先通过 SFT 训练模型到一定水平,再用强化学习进一步提升表现,实现 Scaling。

王启隆:之前 OpenAI 官号在 YouTube 上曾发布一个爆火的视频,是关于多智能体的捉迷藏实验,那时你也参与了这个项目。其实当时也用了强化学习。你觉得当时的 RL 训练和如今开发 AReaL 所面临的挑战是否类似?这些年来强化学习在技术难点上的变化体现在哪里?

吴翼:这两者之间确实有很大不同。当然,也有些 Agent 相关的难点现在又重新出现了。我们可以从两个主要方面来谈。

第一个是模型体积的变化带来了巨大的挑战。在传统强化学习中,无论是机器人任务、捉迷藏,还是 Dota,所使用的模型都非常小,通常只有几十兆或最多一两百兆。推理和生成过程甚至可以在 CPU 上完成,计算需求很低,因此你根本不需要考虑推理效率问题,算法才是重点。那时候,训练更多是靠 CPU 来扩展,比如运行大量的游戏环境。

但进入大模型时代后,模型规模增长了几个数量级,可能是上千亿参数(100B)的模型,对比之前的 100M,扩展了 1000 倍。这对训练和推理提出了全新的要求。

第二个是环境交互的变化以前训练游戏智能体时,一个对局可能持续 20 分钟。而在今天的大模型任务中,像操作系统交互、代码生成或数学推理等场景,环境交互往往很短,甚至有时模型是在“脑子里”推理,不依赖真实环境。所以交互过程变得更加简化。

虽然交互变简单了,但模型本身变得极为庞大,这反而成了新的瓶颈。所以我们也对之前为游戏类强化学习开发的系统进行了大量改造,以适配如今大模型的训练需求。


“神之一手”能否批量复现?

王启隆提到游戏,难免联想到 AlphaGo 人机大战中第二局第 37 手(Move 37)那步颠覆职业棋手认知的操作。如今人们期待大模型(尤其是推理模型)能否迎来类似的 “AlphaGo 时刻”。对此可探讨两个问题:①强化学习的 Scaling Law 是否是通向该时刻的路径;②若某模型出现 “Move 37” 级表现,其突破能力是可持续的,还是更可能局限于游戏等垂直场景?

吴翼首先,对于有没有出现类似 Move 37 的“神之一手”这个问题,其实已经出现了。比如 DeepSeek-R1 为什么能出圈?就是因为它第一次展示了清晰的推理链,让大家感受到“AI 是在认真思考”,而不是随便给个答案。它的推理过程让人觉得“哇,它像个人”。这就是一种“神之一手”,而且是大家都能理解的“神之一手”。所以它出圈了。

其次,Scaling Law 是否会持续?我认为是会的。比如最近 OpenAI 发布的 o3、o4,从结果来看,强化学习在后训练阶段确实带来了效果的进一步提升。当然这种提升不是只靠后训练,而是“预训练 × 后训练”的联合作用。只是预训练的边际收益越来越低,ROI 降低了,所以强化学习的提升空间相对更值得挖掘。整体来看,Scaling Law 的趋势还在继续。

最后,“神之一手”是否只会局限于游戏等垂直场景力?我认为,垂类模型的应用场景绝非局限于游戏领域。大模型的核心价值在于泛化能力——支持多场景交互、适配各类用户需求,仅凭单一游戏场景的模型无法体现这一时代特征。

真正的垂类模型往往诞生于细分领域的深度优化。例如 Deep Research、OpenAI 曾推出的 operator(尽管未达预期),以及 Claude 在代码生成、PPT 制作等场景的突出表现,这些案例均表明:强化学习技术既能推动 o1、o3 等通用模型的演进,也能针对特定场景打造专用产品。

王启隆:当一个模型的能力与泛化能力达到某个临界点,甚至进入新的 “突破阶段”(如能产出类似 AlphaGo 的 “神之一手”),这是否意味着它已具备批量生成 “神之一手” 的能力?即达到类似 AGI(通用人工智能)的水平?还是说,其突破仍会像 Deep Research 那样,以产品发布的形式陆续出现?

吴翼这个问题可以从两个层面分析:

第一,即便模型接近 AGI 能力,产品层面的创新空间依然存在。类比人类社会:一个顶尖人才搭配更高效的工具或协作方式,仍能产出更卓越的成果。例如,微信作为成熟平台,仍可通过小程序生态持续延伸价值。未来 AI 生态可能呈现多层次结构——既有统一的基础模型,也有基于其开发的垂直应用。

这种生态的厚度和多样性值得探索,尽管其最终形态(多层级或简单化)可能需要 1-2 年才能清晰化。我倾向于认为,“产品 + 强化学习” 仍将是重要方向,但不排除未来出现极强的统一 AI 模型。

第二,模型尺寸的权衡我们可能看到两类模型分化:

  • 大而强但成本高的模型:具备更强的通用能力,但部署成本高昂;

  • 轻量化、高效的小模型:针对特定场景优化,性价比更高。这种分化将推动模型架构与产品形态的多元化。

此外,不同公司的模型(如 OpenAI、Gemini、Claude、Grok 及国内模型)在使用体验上的差异,也可能影响产品定义方式。这些趋势的走向,或许需要一年后才能更清晰地判断。


强化学习三要素:奖励、搜索与提示

王启隆:你之前提到 RL 包含三个要素:一个是奖励模型(Reward Model),一个是搜索/探索机制,还有一个是 Prompt。在目前的技术水平下,这三者中哪个最难搞定?

吴翼首先需要明确强化学习的基本框架 —— 它包含任务定义(即提示词)、环境(产品场景或交互载体,如文本输入)、奖励函数这三大核心要素。当我们讨论如何构建一个强化学习模型时,实则涉及四个关键要素:基座模型、训练系统、训练数据和训练算法。

这里需要说明:模型定义本身并无优劣之分,只要符合强化学习的框架即可(否则便不属于该领域问题)。因此,我们的讨论应聚焦于训练要素 —— 基座模型、系统、数据、算法中,哪些更难突破?

在我看来,预训练模型属于预训练阶段的范畴(如开源社区或企业提供的基础模型),其优化是另一维度的课题,暂不纳入本次讨论。聚焦强化学习的训练环节,核心挑战集中在算法、系统和数据这三者。

这三者中,我认为算法反而是“最不重要”。最难的是系统和数据。后两者中,我个人认为系统的门槛更高。我的排序是:系统>数据(我甚至打个 1.5)>算法。

为什么这么说呢?

先说数据。强化学习要想做得好,训练的数据质量非常关键。你出什么题给模型练习,决定了它能不能真正变强。出太简单的题,比如让大学生做小学数学题,是没用的;出太难的,比如让他去解菲尔兹奖题目,也一样学不到东西。所以数据的构造要刚刚好,足够有挑战但又能学得会。

再说系统。系统的关键作用在于加快实验迭代的速度算法的进步,本质上是靠反复实验积累出来的。如果一个团队能在相同时间和资源下跑一万个实验,而另一个团队只能跑一百次,即使后者有再好的人才,差距也是非常大的。你可能一万对一千还能靠人弥补,但一万对一百就基本没戏了。

所以,训练系统的效率和稳定性,直接决定了算法团队的迭代能力,进而决定了整个模型的进化速度。这也是为什么我们团队会花这么多精力投入在训练系统上——甚至认为,开源训练系统的价值,可能比开源模型还要大。


AI 是否需要知道自己“不知道”?

王启隆:我曾经在北京一次智源大会上,见到你在现场与 Stuart Russell加州大学伯克利分校电气工程与计算机科学系教授 教授对话。他是你在伯克利的博导,也是 AI 对齐领域的权威,起还与他人合著了《人工智能:现代方法》这本教材。他一直非常关注 AI 的安全和对齐问题。当时他提到,AI 需要知道自己不知道人类的价值观。那你现在在设计强化学习系统时,怎么体现对不确定性或安全性的考量?

吴翼我非常认同 Russell 教授对 AI 安全的看法。这个问题的核心在于目标定义。当我们让一个模型去推理或完成任务时,人类其实很难用一种完全明确的语言表达出自己真正想要的东西。所以,如果 AI 对目标过于自信,就很容易出现偏差或错误,这也是 Russell 强调“AI 应该知道自己可能不知道”的原因。

但在当前阶段,能够体现这种“不确定性认知”的方法还不成熟,还难以直接应用在工业或大规模的生产环境中。目前我们在产品层面还是默认模型需要给出明确、准确的结果——输入要明确、输出要精确。

不过我在清华做的一些人机协作游戏相关工作,就特别关注这类问题。比如 AI 和人一起玩 Overcooked、狼人杀,AI 要与人配合,就必须猜测人类的行为,这就需要模型对“我可能不知道人类怎么想”有某种形式的认知。我们也在这些项目中用了不少这类方法,如果大家感兴趣,可以看看我们的一些论文,里面有很多好玩的尝试。

王启隆:当时 Russell 教授还谈到提示工程。他觉得我们现在和 AI 对话时还得加上“请你”“帮我”这样的敬语,有点像在驯化一只动物。那你怎么看?未来我们和 AI 对话还会一直需要提示工程吗?还是会变得更自然?

记得 o1 出来时,很多人说提示工程要消失了,提示工程师这职业也要完了。但到 R1 出来后,风向又变了。连 Sam Altman 自己都说,提示工程师未来几年仍然很重要。我自己感觉也是,如果不用提示工程、只是随便说几句,自然语言生成效果确实不如写得精准一些。

吴翼:首先,我觉得在任何阶段,提示工程都是有价值的。这是因为整个 AI 的交互范式已经从原来的图形界面变成自然语言了。这是方式本身就会带来了“谁用得好、谁用得不好”的差异。就像以前大家用 Google 搜索,关键词好不好,结果会差很多。任何产品形态都会有“用得溜的人”和“用得一般的人”,这在历史上屡见不鲜。Prompt 工程也是一样,它的价值一定会持续存在。

其次,产品的发展趋势,肯定是让用户说得越来越少、用得越来越简单。早期的 Prompt Engineering 要写几千个 token,现在很多只需要几百个,甚至更短。这说明 AI 系统本身变得更智能,Prompt 负担更小。但 Prompt 工程不会消失,它的形式会演化,越来越贴近自然语言,但本质上,它仍然是“把事情表达清楚”的能力。

王启隆:我突然想到人工智能教父 Geoffrey Hinton 在一次采访里提到,他和 Ilya Sutskever(前 OpenAI 联合创始人和首席科学家)都是典型的“直觉型”决策者,甚至一个电话就能决定方向。你刚才说“随机”,我感觉也有点像这种风格。

吴翼对,我基本上也差不多。我有个“抛硬币理论”:当你在两个或多个选项之间纠结时,其实说明这些选项都差不多,没有明显好或不好。既然这样,那就抛个硬币吧,正面选 A,反面选 B。

但其实,大多数人并不会真的去看硬币的正反面——一旦你决定“交给命运”,你内心就已经有倾向了。所以抛硬币的过程,反而帮你做出了决策。

王启隆:某次访谈中,你提到过自己是 INTJ 人格,这种人格特质会影响你理想中的人机交互方式吗?你更倾向于 AI 主动一点,还是保持被动响应?

吴翼这需要人而异。我认为,AI 产品的设计必须是多样化、可个性化的。比如面对 I 型人格和 E 型人格用户,AI 的交互方式就应该有所差异。作为典型的 I 型人,我更希望 AI 减少主动打扰,但能精准捕捉我的需求。

这也是我此前研究人机协作时的核心出发点:当人和 AI 共同完成任务(例如玩游戏)时,我做出一个动作,AI 最好能预判我接下来的意图,而不是反复追问。未来 AI 的核心竞争力之一,正是个性化我觉得,AI 产品的设计一定是多样化、可个性化的。

王启隆:但现在 AI 还有一个问题,就是“幻觉”——它经常一本正经地胡说八道。那 AI 应该学会“犹豫”吗?比如说“我不确定”或者“我不知道”?

吴翼我觉得应该。AI 需要知道什么时候自己不确定。

王启隆:但现在似乎没有哪个 AI 模型会主动这么做。

吴翼对,我觉得这可能是底层架构上的问题。

我们当然是希望 AI 能意识到自己“不知道”。这也是我老师 Stuart Russell加州大学伯克利分校电气工程与计算机科学系教授一直强调的观点。他做了很多关于 AI 为什么要具备“不确定性意识”的研究,认为一个好的 AI 系统应该知道自己“不知道”。

但要做到这一点,其实非常难。难的原因主要有两个:

  • 第一个原因是现有的训练范式本身就不鼓励 AI 说“不知道”。比如强化学习,需要明确的目标和奖励机制;又比如 Next Token Prediction,它的训练目标就是“预测下一个词”,而没有内置处理不确定性的机制。这跟训练算法的设计有关。但问题是,目前这些方法虽然有理论局限,却是“能用”的。所以我们才不得不用。

  • 第二个原因是深度学习本身带来的问题:模型越大,越容易“过度自信”。这是一个我们在理论和实践中都观察到的现象。因为大模型的记忆力强,你给它一个有瑕疵的答案,它也可能完整记下来,然后非常自信地复述出来。

所以我们现在面临的难题是,怎么让一个本质上“过度自信”的模型,学会承认自己的不确定性。这非常难。过去有不少科学家在研究这个问题,但还没有找到特别好的解决方法。

我自己对这件事情做了一个公开演讲,如果大家对这个方向感兴趣,可以看看我在 B 站的视频(搜索“深度学习+我的名字+蚂蚁公开课”),当然也可以自行做一些这样的研究,这仍然是一个非常开放且挑战极大的问题。


AI 的下一站突破会在哪里?

王启隆:展望未来三到五年,甚至更短的时间,你最期待 AI 在哪个方向上取得突破?你今天其实也提到了多智能体协作。最近我看到 Stanford 有篇论文提到,多智能体协作的研究进展缓慢、瓶颈明显——为什么会这样?

吴翼:这个问题其实可以分为两个部分。

第一部分是关于未来 AI 最有可能取得突破的方向。其实很难想象未来会是什么样,因为 AI 的能力还没有达到上限。不过,就我个人而言,我还是比较关注“记忆表达”和“个性化”。这些年 OpenAI 也在探索个性化方向,但目前还没做得特别好。

从长期来看,大家对 AI 智能水平的不断提升已经见怪不怪了,但“智能如何更好地与人交互”仍有很大探索空间。短期内,大模型仍在不断追求 Scaling Law 带来的性能提升。

第二部分是关于多智能体系统为什么发展缓慢、瓶颈明显。我认为根本问题在于,目前我们所谓的“多智能体协作”,很多时候本质上还是在解决“指令执行”问题——人给出一个明确的指令,多个智能体按照分工去完成它。这个前提是:指令本身是清晰、完整的。

很多被称作“多智能体协作”的场景,其实是因为一个模型能力不够强,我们才用多个模型互相配合,试图通过工程方式或是 Prompt Engineering 手段来补足。

换句话说,如果将来出现了一个能力更强、泛化性更好的单模型,那原本需要多个智能体协作才能完成的任务,它一个模型就能胜任——那还需要多智能体吗?所以,从理论上讲,多智能体框架并不是“必需”的,它更像是一种可选的优化路径,而不是不可替代的基础。

但确实存在一些任务,天然就需要多智能体建模。比如那些本质上涉及博弈或协作的任务:人和 AI 一起打游戏、协作完成任务,或是在有竞争关系的系统中互动。在这些情况下,你没法用一个模型来模拟所有 Agent,就必须引入多智能体系统。

另一个典型场景是,等到 Agent 真正普及,比如每个人都拥有自己的 AI 助手,这些助手帮助人类获取信息、使用工具,那整个世界本质上就变成了一个多智能体环境。建模方法也必须适应这种结构化、多主体的现实。

(文:AI科技大本营)

发表评论