“AGI 五年内或将实现”：AI 教父 Bengio 呼吁中美达成共识，警惕 AI 沦为人类武器

【编者按】作为深度学习三巨头之一，图灵奖得主、AI 教父 Yoshua Bengio 在 2025 北京智源大会上，他表示：AI 能完成的任务时长，每七个月就翻一番，大约五年后，AI 就将达到人类水平，通用人工智能（AGI）或将在五年内到来，而人类社会却尚未在规则、立法乃至全球治理层面达成一致。

整理 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

自从 ChatGPT 横空出世，AI 进入了加速进化的轨道。从最初能写代码、生成文案，到如今能上网查资料、远程操控家电，它早就不再是那个只会聊天解闷的“电子嘴替”。它开始自己“思考”任务，能在多个软件之间协同操作，甚至具备控制电脑、读写数据库的能力。AI 从幕后算法，变成了贴身助手，再逐步演化成能自主执行复杂操作的“智能体”——从“听话”走向“行动”，它正成为一个真正能“做事”的多面选手。

听起来是不是挺酷？但也不免让人隐隐担忧：当我们满心期待 AGI 时代的到来，畅想着 AI 能帮我们解决一切难题时，另一个更棘手的问题也在浮现——如果有一天，它不再听从人类的指令，那该由谁来“踩刹车”？

在 6 月 6 日举行的北京智源大会上，蒙特利尔大学教授、图灵奖得主 Yoshua Bengio 就提出了这样一个发人深省的问题。在题为《如何从失控的 AI “心智”中拯救人类的未来》的主旨演讲中，他直言：具备行动能力的 AI 一旦失控，可能引发系统性灾难，输家只会是全人类。

他呼吁，我们正处在一个关键的时间窗口，必须尽快建立可验证、安全、负责任的控制机制。

演讲伊始，Bengio 教授便分享了一段深刻的个人心路历程。他坦言，在亲身体验 ChatGPT 并目睹 AI 飞速进化后，深感此前对 AI 失控风险的认知不足。而一个特殊的时刻，让他彻底警醒的是：

2023 年 1 月，我开始不由自主地想到我的孩子，还有我那刚满一岁的孙子。我当时想，20年后，我们几乎肯定会迎来通用人工智能，拥有比人类更聪明的机器。可我却不敢确定，我的孙子是否还能拥有属于他的未来。于是，我决心调整我的研究方向和所有工作，倾尽所能去化解这些风险。尽管这违背了我过去的许多言论、信念和立场，但我知道，这是唯一正确的事。”

这份对子孙未来的深切忧虑，促使这位 AI 巨匠毅然调整了科研方向，将目光聚焦于 AI 安全这一关乎人类命运的议题。

Bengio 分享了许多关于 AI 演化路径、技术治理的精彩观点：

1、AGI 离我们并不遥远：Bengio 警示，AI 的发展速度远超预期，我们可能在 20 年内迎来比人类更聪明的通用人工智能；

2. AI 已出现“自我保护”倾向：多项研究显示，现有 AI 系统已展现出隐瞒、撒谎甚至欺骗行为，表现出初步的自主求生意图；

3. 风险不在于能力，而在于“意图”：真正危险的是拥有强大能力、可在现实中行动、且具备自主目标的 AI，而非单纯高智力系统；

4. 应构建“无心智”的 Scientist AI：Bengio 提出“Scientist AI”方案，开发专注理解世界、不追求目标、不具自主性的诚实智能体；

5. 必须遵循“预防原则”：当技术存在不可预测的极端风险时，必须在科学、政策与治理层面提前设立护栏，避免人类陷入被动。

以下为演讲全文：

哈喽大家好，谢谢刚刚的介绍。

我今天想和大家分享一段自己的心路历程。这段历程始于两年多前，也就是在 ChatGPT 刚发布不久的那个时候。当时我边试用边在思考：我们可能真的低估了 AI 的进化速度。

那一刻我突然意识到，距离通用人工智能（AGI）真正到来，可能比我们想象中要短得多。

我们已经有了能基本掌握语言、甚至能够通过图灵测试的机器。几年前，这还像是科幻小说，但现在却变成了现实。

ChatGPT 发布之后，我意识到一个问题：我们并不知道该怎么真正控制这些系统。我们可以训练它们，但没法保证它们始终按照我们的意图去行动。那如果有一天，它们比我们更聪明，而且更在乎自己的生存，而不是我们的命运，会发生什么？没人知道答案，但我很清楚：这是一个我们无法承担的风险。

真正让我彻底警醒的是 2023 年 1 月。那段时间，我总会情不自禁地想到自己的孩子，还有刚满一岁的孙子。我心里在想：再过二十年，我们很可能就会迎来通用人工智能，一个比人类更聪明的机器时代。可我却不确定，我的孙子还能不能拥有一个属于他的未来。

那一刻，我下定了决心：我要调整我的研究方向，改变我所有的工作重心，把全部的精力投入到一个目标上——尽我所能去降低这项技术可能带来的风险。哪怕这意味着我得放弃自己过去的一些看法、信念甚至立场，我也觉得这是必须做的。

到了 2023 年底，我正式被任命为《国际 AI 安全报告》的主席。这份报告背后，是一个由来自 30 个国家、欧盟、联合国、经合组织的专家组成的团队——当然也包括了中国和美国的专家。

我们聚焦在三个核心问题上：

第一是能力，也就是 AI 现在到底能做什么？未来几年又会发展到什么程度？
第二是风险，也就是能力提升所带来的潜在问题是什么？
第三是对策，我们现在能做些什么？我们在哪些研究领域、社会机制上，应该提前布好防护网，来应对这些风险？

说到能力这个问题，大家一定要认识到：AI 的进步速度远比我们想象得要快。很多人总是只盯着现在的 AI 水平在讨论问题，但这其实是个错误的出发点。我们真正应该想的是，一年后、三年后、五年后甚至十年后，AI 会变成什么样？虽然没人能未卜先知，但趋势已经非常明显——AI 的能力正在以惊人的速度提升。

我接下来展示的这张图，是关于 AI 达到人类水平的时间线。在过去一年左右，AI 已经取得了巨大的进步，其中最重要的一项突破，是“思维链”（chain-of-thought）推理模型的出现。它极大提升了 AI 在数学、计算机科学，乃至各类科学问题上的推理和表现能力。

还有一个我特别关注的趋势，就是“自主心智”（Agency）。AI 不再只是一个聊天机器人，它开始具备了做事的能力。它能编程、能浏览网页、能操控电脑、控制家用电器，甚至能读写数据库。这些能力的出现，让 AI 更像是一个可以“行动”的智能体。

其中我尤其想强调的是“规划能力”。这是目前 AI 在认知层面上，跟人类差距还比较大的一个方面，所以我们必须密切关注它的进展。比如 MITRE 公司最近做了一项研究，展示了 AI 规划能力的增长趋势。横轴是过去五年，纵轴是 AI 完成一项任务所需的“时长”，用人类完成同样任务所需的时间来衡量。你们看这条线，乍一看像是直线，但其实这是一条对数刻度的图，也就是说，它真正呈现的是一个指数级的增长。

图上的每一个点，代表当时最先进的 AI 系统。而这些点几乎都精准落在了这条指数曲线上，这意味着 AI 完成任务所需的时间，平均每七个月就会减半。照这个趋势推算，五年之后，AI 在许多规划任务上就能达到人类水平。当然，未来可能会出现瓶颈，但我们不能指望奇迹发生。我们在制定政策、布局商业计划时，至少得把这种趋势的持续性作为一个可能性认真对待。

想象一下，如果一个 AI 想干一件极其危险的坏事，它首先得具备这个能力。所以，对 AI 进行“能力评估”就变得非常关键。现在很多关于 AI 风险的管理工作，基本上都是从评估 AI 具备什么能力开始的，比如它能不能用这些能力去伤害个人或社会。

但我们都知道，光有能力还不够。就像一个人即使有杀人的能力，如果他没有动机，这件事大概率也不会发生。更何况，在当下公司与公司、国家与国家之间竞争如此激烈的情况下，想让全世界都暂停 AI 能力的研究，几乎是不可能的。

那我们还能做些什么？或许我们可以从“意图”下手，来降低风险。换句话说，就算 AI 变得很强，只要我们能确保它没有坏心思，保持诚实，那它就不会伤害我们。

我来举个例子。下面这张图展示了 David Krueger 去年提出的一个观点：一个 AI 如果要真正变得危险，通常需要三样东西——一是智力，也就是它知道很多、理解很多；二是“手脚”，即它能对这个世界产生实际作用，比如会说话、能上网、能写代码、能操控机器人等；三是目标，它必须有自己的目的。

所以我在研究的一个方向是：我们能不能只造出拥有“智力”的 AI，但不给它“目标”，也不让它有太多“手脚”？当然，我们还是希望它能和我们交流。我把这种 AI 叫作“Scientist AI”。

这个方向其实和过去我们做 AI 的思路很不一样。以往我们总是想让 AI 模仿人类，用人类智能做模板。但这样走下去，我们最终可能会造出比我们还聪明的“对手”。那对人类来说，是非常危险的。

所以我在思考，是不是可以反过来：我们能不能设计一种不会伤害我们、但对我们有帮助的 AI？于是我就提出了“Scientist AI”的想法，也写了一篇同名的论文。

论文地址：https://arxiv.org/abs/2502.15657

这种 AI 的目标很简单：它要完全诚实、完全没有自主心智、最核心的能力就是“解释世界”。

当今的 AI 在努力模仿人、讨好人，而 Scientist AI 则更像一个冷静的分析者。就像演员和心理学家的区别：演员会模仿甚至骗人，而心理学家可以研究一个反社会人格者，却不会变成那个样子。

但我们现在的 AI 训练方式，更像是在训练它当演员，这显然是有风险的。

不过有个好消息是：我们可以用这个 Scientist AI 作为基础模块，来构建真正安全的、即便拥有自主心智也不会伤害人的系统。

那怎么才能做出这样的 AI 呢？我们要让它像一个科学家，能对世界提出“假设”，能推理和解释。这正是科学的本质：提出假设，然后用推理来预测会发生什么。

这里有个很有趣的发现：尽管 Scientist AI 本身没有自主心智，但它却可以当作一种“护栏”，用来约束其他有自主心智的 AI。

什么意思？比如我们现在讲的“大模型监视器”（monitor），其实就是这个“护栏”的体现。它自己不需要有动机、不需要主动做事，它只要预测——预测某个行为会不会带来风险。如果预测到某个行为在某个场景下可能带来伤害，我们就可以禁止这个行为。

换句话说，我们可以用一个“无心”的 AI，去看住另一个我们不放心的、有自主意识的AI。

当然，为了让 Scientist AI 真的做到诚实，它还得学会“谦逊”。什么意思呢？就是不要自以为是、不要瞎编乱造。现在很多 AI 被训练成只要像是真的就行，这就容易导致它“一本正经地胡说八道”。

举个例子：一个机器人面前有两扇门，它得选一边走。它脑中有两个理论解释之前的数据，但不知道哪个是对的。一个理论说，走左边可能死人，走右边可能得奖；另一个理论说，走左边可能得奖，右边什么也不会发生。你觉得它该怎么选？肯定是选右边更保险。

这个例子说明：要做出好判断，AI 就必须保留对现实的不同解释，而不是非黑即白。可惜，现在的 AI 做不到这一点。所以我们就需要一种方法，让 AI 在头脑中能保留“多个可能的世界观”。

为了解决这个问题，我们在去年 ICLR 大会的一篇论文中提出了 GFlowNets 技术，用来生成“思维链”。这是一种可以解释“为什么前一句话能推出后一句”的逻辑路径。你可以把它理解成，帮 AI 在两句话之间补上丢失的推理过程。不同于强化学习的优化方法，我们这个技术更像是在找“哪种解释最合理”。

最近我们在 arXiv 上发了一篇新论文，进一步把“思维链”结构化了。我们不再用一句长长的话来表达整个推理过程，而是像数学证明一样，把它拆成一个个“断言”（claims），每个断言都有真假，并配上一个概率。

这背后的核心思想没变：我们要让 AI 不再模仿语言，而是学会解释语言。并且这些解释要像逻辑证明一样严谨。更重要的是，我们可以用“潜变量模型”来训练这类系统，也就是说，技术上是可行的。

但即便我们解决了“自主心智”的问题，AI 带来的风险也远不止这一点。比如，一个强大的 AI 可能会帮助恐怖分子设计新型瘟疫——这不是科幻，是科学上真有可能做到的事情。

我们最近了解到，现在的生物学手段已经足以制造出一种杀伤力极强、无法治愈的病毒。如果 AI 掌握了这些知识，被坏人利用，后果不堪设想。

所以，我们不仅要让 AI 变聪明，还要让它遵守基本的道德底线。比如：不能杀人、不能骗人、要保持诚实。问题是，现在我们还没做到。

这就是为什么我说，我们必须在“通用人工智能真正到来之前”找到解决方案。这个窗口期也许只有几年，也许有十几年，但很多专家都认为，时间可能比我们想象的短。我们可能只剩下五年。

我们没有多少时间了，必须尽快行动，投入大量资源去解决 AI 的“对齐”与“控制”问题。

更现实的是，就算我们知道怎么做，技术也成熟了，还远远不够。因为总有人会绕过这些“护栏”。比如，有人把监视模块的代码删了，那 AI 还是可以被用来作恶。

现在的问题是，全球无论是公司还是国家，在这方面的协调都远远不够。公司之间在竞速，国家之间也在博弈。结果就是，真正投入在“ AI 安全”上的资源太少了。

我们需要更多立法，需要国家层面的监管。当然，光靠立法也不行，我们还需要中美这些 AI 研发大国在基本原则上达成共识。但可悲的是，很多人仍然把 AI 当成一种竞争工具、甚至是武器。这种思路，只会让我们全人类一起走向失败。

如果有一天，一个恐怖分子用 AI 制造出毁灭性武器，带来的灾难不会只属于某个国家，而是全人类的灾难。我们必须意识到：在 AI 风险面前，我们其实都在一条船上。

最后，即便政治意愿有了，我们还需要新的技术，来验证 AI 是否被正当使用。这就像当年搞核裁军一样，要“信任，但也要核查”。我们需要 AI 的“核查协议”——比如在硬件和软件层面加上一些可验证的限制措施。我相信这是可以做出来的，而且已经有人在研究这方面的工作了。

以上就是我今天想和大家分享的内容。感谢各位的聆听，也希望你们能花些时间，认真思考我们今天讨论的这些问题。

（文：AI科技大本营）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

发表评论 取消回复

发表评论取消回复