“AGI 五年内或将实现”:AI 教父 Bengio 呼吁中美达成共识,警惕 AI 沦为人类武器

【编者按】作为深度学习三巨头之一,图灵奖得主、AI 教父 Yoshua Bengio 在 2025 北京智源大会上,他表示:AI 能完成的任务时长,每七个月就翻一番,大约五年后,AI 就将达到人类水平,通用人工智能(AGI)或将在五年内到来,而人类社会却尚未在规则、立法乃至全球治理层面达成一致。


整理 | 梦依丹
出品丨AI 科技大本营(ID:rgznai100)

自从 ChatGPT 横空出世,AI 进入了加速进化的轨道。从最初能写代码、生成文案,到如今能上网查资料、远程操控家电,它早就不再是那个只会聊天解闷的“电子嘴替”。它开始自己“思考”任务,能在多个软件之间协同操作,甚至具备控制电脑、读写数据库的能力。AI 从幕后算法,变成了贴身助手,再逐步演化成能自主执行复杂操作的“智能体”——从“听话”走向“行动”,它正成为一个真正能“做事”的多面选手。

听起来是不是挺酷?但也不免让人隐隐担忧:当我们满心期待 AGI 时代的到来,畅想着 AI 能帮我们解决一切难题时,另一个更棘手的问题也在浮现——如果有一天,它不再听从人类的指令,那该由谁来“踩刹车”?

在 6 月 6 日举行的北京智源大会上,蒙特利尔大学教授、图灵奖得主 Yoshua Bengio 就提出了这样一个发人深省的问题。在题为《如何从失控的 AI “心智”中拯救人类的未来》的主旨演讲中,他直言:具备行动能力的 AI 一旦失控,可能引发系统性灾难,输家只会是全人类。

他呼吁,我们正处在一个关键的时间窗口,必须尽快建立可验证、安全、负责任的控制机制。

演讲伊始,Bengio 教授便分享了一段深刻的个人心路历程。他坦言,在亲身体验 ChatGPT 并目睹 AI 飞速进化后,深感此前对 AI 失控风险的认知不足。而一个特殊的时刻,让他彻底警醒的是:

2023 年 1 月,我开始不由自主地想到我的孩子,还有我那刚满一岁的孙子。我当时想,20年后,我们几乎肯定会迎来通用人工智能,拥有比人类更聪明的机器。可我却不敢确定,我的孙子是否还能拥有属于他的未来。于是,我决心调整我的研究方向和所有工作,倾尽所能去化解这些风险。尽管这违背了我过去的许多言论、信念和立场,但我知道,这是唯一正确的事。”

这份对子孙未来的深切忧虑,促使这位 AI 巨匠毅然调整了科研方向,将目光聚焦于 AI 安全这一关乎人类命运的议题。

Bengio 分享了许多关于 AI 演化路径、技术治理的精彩观点:

1、AGI 离我们并不遥远:Bengio 警示,AI 的发展速度远超预期,我们可能在 20 年内迎来比人类更聪明的通用人工智能;

2. AI 已出现“自我保护”倾向:多项研究显示,现有 AI 系统已展现出隐瞒、撒谎甚至欺骗行为,表现出初步的自主求生意图;
3. 风险不在于能力,而在于“意图”:真正危险的是拥有强大能力、可在现实中行动、且具备自主目标的 AI,而非单纯高智力系统;
4. 应构建“无心智”的 Scientist AI:Bengio 提出“Scientist AI”方案,开发专注理解世界、不追求目标、不具自主性的诚实智能体;
5. 必须遵循“预防原则”:当技术存在不可预测的极端风险时,必须在科学、政策与治理层面提前设立护栏,避免人类陷入被动。

以下为演讲全文:

哈喽大家好,谢谢刚刚的介绍。

我今天想和大家分享一段自己的心路历程。这段历程始于两年多前,也就是在 ChatGPT 刚发布不久的那个时候。当时我边试用边在思考:我们可能真的低估了 AI 的进化速度。

那一刻我突然意识到,距离通用人工智能(AGI)真正到来,可能比我们想象中要短得多。

我们已经有了能基本掌握语言、甚至能够通过图灵测试的机器。几年前,这还像是科幻小说,但现在却变成了现实。

ChatGPT 发布之后,我意识到一个问题:我们并不知道该怎么真正控制这些系统。我们可以训练它们,但没法保证它们始终按照我们的意图去行动。那如果有一天,它们比我们更聪明,而且更在乎自己的生存,而不是我们的命运,会发生什么?没人知道答案,但我很清楚:这是一个我们无法承担的风险。

真正让我彻底警醒的是 2023 年 1 月。那段时间,我总会情不自禁地想到自己的孩子,还有刚满一岁的孙子。我心里在想:再过二十年,我们很可能就会迎来通用人工智能,一个比人类更聪明的机器时代。可我却不确定,我的孙子还能不能拥有一个属于他的未来。

那一刻,我下定了决心:我要调整我的研究方向,改变我所有的工作重心,把全部的精力投入到一个目标上——尽我所能去降低这项技术可能带来的风险。哪怕这意味着我得放弃自己过去的一些看法、信念甚至立场,我也觉得这是必须做的。

到了 2023 年底,我正式被任命为《国际 AI 安全报告》的主席。这份报告背后,是一个由来自 30 个国家、欧盟、联合国、经合组织的专家组成的团队——当然也包括了中国和美国的专家。

我们聚焦在三个核心问题上:

  • 第一是能力,也就是 AI 现在到底能做什么?未来几年又会发展到什么程度?

  • 第二是风险,也就是能力提升所带来的潜在问题是什么?

  • 第三是对策,我们现在能做些什么?我们在哪些研究领域、社会机制上,应该提前布好防护网,来应对这些风险?

说到能力这个问题,大家一定要认识到:AI 的进步速度远比我们想象得要快。很多人总是只盯着现在的 AI 水平在讨论问题,但这其实是个错误的出发点。我们真正应该想的是,一年后、三年后、五年后甚至十年后,AI 会变成什么样?虽然没人能未卜先知,但趋势已经非常明显——AI 的能力正在以惊人的速度提升。

我接下来展示的这张图,是关于 AI 达到人类水平的时间线。在过去一年左右,AI 已经取得了巨大的进步,其中最重要的一项突破,是“思维链”(chain-of-thought)推理模型的出现。它极大提升了 AI 在数学、计算机科学,乃至各类科学问题上的推理和表现能力。

还有一个我特别关注的趋势,就是“自主心智”(Agency)。AI 不再只是一个聊天机器人,它开始具备了做事的能力。它能编程、能浏览网页、能操控电脑、控制家用电器,甚至能读写数据库。这些能力的出现,让 AI 更像是一个可以“行动”的智能体。

其中我尤其想强调的是“规划能力”。这是目前 AI 在认知层面上,跟人类差距还比较大的一个方面,所以我们必须密切关注它的进展。比如 MITRE 公司最近做了一项研究,展示了 AI 规划能力的增长趋势。横轴是过去五年,纵轴是 AI 完成一项任务所需的“时长”,用人类完成同样任务所需的时间来衡量。你们看这条线,乍一看像是直线,但其实这是一条对数刻度的图,也就是说,它真正呈现的是一个指数级的增长。

图上的每一个点,代表当时最先进的 AI 系统。而这些点几乎都精准落在了这条指数曲线上,这意味着 AI 完成任务所需的时间,平均每七个月就会减半。照这个趋势推算,五年之后,AI 在许多规划任务上就能达到人类水平。当然,未来可能会出现瓶颈,但我们不能指望奇迹发生。我们在制定政策、布局商业计划时,至少得把这种趋势的持续性作为一个可能性认真对待。

想象一下,如果一个 AI 想干一件极其危险的坏事,它首先得具备这个能力。所以,对 AI 进行“能力评估”就变得非常关键。现在很多关于 AI 风险的管理工作,基本上都是从评估 AI 具备什么能力开始的,比如它能不能用这些能力去伤害个人或社会。

但我们都知道,光有能力还不够。就像一个人即使有杀人的能力,如果他没有动机,这件事大概率也不会发生。更何况,在当下公司与公司、国家与国家之间竞争如此激烈的情况下,想让全世界都暂停 AI 能力的研究,几乎是不可能的。

那我们还能做些什么?或许我们可以从“意图”下手,来降低风险。换句话说,就算 AI 变得很强,只要我们能确保它没有坏心思,保持诚实,那它就不会伤害我们。

我来举个例子。下面这张图展示了 David Krueger 去年提出的一个观点:一个 AI 如果要真正变得危险,通常需要三样东西——一是智力,也就是它知道很多、理解很多;二是“手脚”,即它能对这个世界产生实际作用,比如会说话、能上网、能写代码、能操控机器人等;三是目标,它必须有自己的目的。

所以我在研究的一个方向是:我们能不能只造出拥有“智力”的 AI,但不给它“目标”,也不让它有太多“手脚”?当然,我们还是希望它能和我们交流。我把这种 AI 叫作“Scientist AI”。

这个方向其实和过去我们做 AI 的思路很不一样。以往我们总是想让 AI 模仿人类,用人类智能做模板。但这样走下去,我们最终可能会造出比我们还聪明的“对手”。那对人类来说,是非常危险的。
所以我在思考,是不是可以反过来:我们能不能设计一种不会伤害我们、但对我们有帮助的 AI?于是我就提出了“Scientist AI”的想法,也写了一篇同名的论文。
论文地址:https://arxiv.org/abs/2502.15657
这种 AI 的目标很简单:它要完全诚实、完全没有自主心智、最核心的能力就是“解释世界”。
当今的 AI 在努力模仿人、讨好人,而 Scientist AI 则更像一个冷静的分析者。就像演员和心理学家的区别:演员会模仿甚至骗人,而心理学家可以研究一个反社会人格者,却不会变成那个样子。
但我们现在的 AI 训练方式,更像是在训练它当演员,这显然是有风险的。
不过有个好消息是:我们可以用这个 Scientist AI 作为基础模块,来构建真正安全的、即便拥有自主心智也不会伤害人的系统。
那怎么才能做出这样的 AI 呢?我们要让它像一个科学家,能对世界提出“假设”,能推理和解释。这正是科学的本质:提出假设,然后用推理来预测会发生什么。
这里有个很有趣的发现:尽管 Scientist AI 本身没有自主心智,但它却可以当作一种“护栏”,用来约束其他有自主心智的 AI。
什么意思?比如我们现在讲的“大模型监视器”(monitor),其实就是这个“护栏”的体现。它自己不需要有动机、不需要主动做事,它只要预测——预测某个行为会不会带来风险。如果预测到某个行为在某个场景下可能带来伤害,我们就可以禁止这个行为。
换句话说,我们可以用一个“无心”的 AI,去看住另一个我们不放心的、有自主意识的AI。
当然,为了让 Scientist AI 真的做到诚实,它还得学会“谦逊”。什么意思呢?就是不要自以为是、不要瞎编乱造。现在很多 AI 被训练成只要像是真的就行,这就容易导致它“一本正经地胡说八道”。
举个例子:一个机器人面前有两扇门,它得选一边走。它脑中有两个理论解释之前的数据,但不知道哪个是对的。一个理论说,走左边可能死人,走右边可能得奖;另一个理论说,走左边可能得奖,右边什么也不会发生。你觉得它该怎么选?肯定是选右边更保险。
这个例子说明:要做出好判断,AI 就必须保留对现实的不同解释,而不是非黑即白。可惜,现在的 AI 做不到这一点。所以我们就需要一种方法,让 AI 在头脑中能保留“多个可能的世界观”。
为了解决这个问题,我们在去年 ICLR 大会的一篇论文中提出了 GFlowNets 技术,用来生成“思维链”。这是一种可以解释“为什么前一句话能推出后一句”的逻辑路径。你可以把它理解成,帮 AI 在两句话之间补上丢失的推理过程不同于强化学习的优化方法,我们这个技术更像是在找“哪种解释最合理”。
最近我们在 arXiv 上发了一篇新论文,进一步把“思维链”结构化了。我们不再用一句长长的话来表达整个推理过程,而是像数学证明一样,把它拆成一个个“断言”(claims),每个断言都有真假,并配上一个概率。
这背后的核心思想没变:我们要让 AI 不再模仿语言,而是学会解释语言。并且这些解释要像逻辑证明一样严谨。更重要的是,我们可以用“潜变量模型”来训练这类系统,也就是说,技术上是可行的。
但即便我们解决了“自主心智”的问题,AI 带来的风险也远不止这一点。比如,一个强大的 AI 可能会帮助恐怖分子设计新型瘟疫——这不是科幻,是科学上真有可能做到的事情。
我们最近了解到,现在的生物学手段已经足以制造出一种杀伤力极强、无法治愈的病毒。如果 AI 掌握了这些知识,被坏人利用,后果不堪设想。
所以,我们不仅要让 AI 变聪明,还要让它遵守基本的道德底线。比如:不能杀人、不能骗人、要保持诚实。问题是,现在我们还没做到。
这就是为什么我说,我们必须在“通用人工智能真正到来之前”找到解决方案。这个窗口期也许只有几年,也许有十几年,但很多专家都认为,时间可能比我们想象的短。我们可能只剩下五年。
我们没有多少时间了,必须尽快行动,投入大量资源去解决 AI 的“对齐”与“控制”问题。
更现实的是,就算我们知道怎么做,技术也成熟了,还远远不够。因为总有人会绕过这些“护栏”。比如,有人把监视模块的代码删了,那 AI 还是可以被用来作恶。
现在的问题是,全球无论是公司还是国家,在这方面的协调都远远不够。公司之间在竞速,国家之间也在博弈。结果就是,真正投入在“ AI 安全”上的资源太少了
我们需要更多立法,需要国家层面的监管。当然,光靠立法也不行,我们还需要中美这些 AI 研发大国在基本原则上达成共识。但可悲的是,很多人仍然把 AI 当成一种竞争工具、甚至是武器。这种思路,只会让我们全人类一起走向失败。
如果有一天,一个恐怖分子用 AI 制造出毁灭性武器,带来的灾难不会只属于某个国家,而是全人类的灾难。我们必须意识到:在 AI 风险面前,我们其实都在一条船上。
最后,即便政治意愿有了,我们还需要新的技术,来验证 AI 是否被正当使用。这就像当年搞核裁军一样,要“信任,但也要核查”。我们需要 AI 的“核查协议”——比如在硬件和软件层面加上一些可验证的限制措施。我相信这是可以做出来的,而且已经有人在研究这方面的工作了。
以上就是我今天想和大家分享的内容。感谢各位的聆听,也希望你们能花些时间,认真思考我们今天讨论的这些问题。

(文:AI科技大本营)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往