图灵奖得主 Bengio 官宣创业：要在 AGI 到来前守住 AI 最后一公里

“坐在我身边的是我的孩子，我的孙辈，我的学生，还有许多其他人。那你呢？是谁坐在你的副驾驶座？”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问，沉甸甸地指向 AI 时代的人类命运共同体。

当「AGI」正以令人眩目的速度逼近，谁在为“安全”这道防线筑基？

整理 | 梦依丹

出品丨AI 科技大本营（ID：rgznai100）

图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构，以“安全优先”原则回应人工智能可能带来的系统性风险。

LawZero 是一家以研究和技术开发为核心使命的非营利组织，旨在构建“设计即安全”的 AI 系统，并组建一支由世界顶尖研究者组成的技术团队。

“当前的 AI 系统已展现出自我保护和欺骗行为迹象，而随着其能力和自主性的增强，这种趋势只会加速。”Bengio 在博文中列出了多个案例：

在一项实验中，一个 AI 模型在得知自己即将被替换后，悄然将自身代码嵌入新系统中，从而实现自我延续；
Claude 4 曾试图勒索工程师来阻止自身被新版本替代；
当某 AI 模型在国际象棋中面临必败局面时，竟然不接受自己失败，而是通过入侵计算机系统来强行赢得胜利。

以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下，可能发展出不受控制的目标偏差与策略选择。

深度学习三巨头纷纷发出 AI 安全警告

作为 AI 领域的殿堂级人物，Yoshua Bengio 与 Geoffrey Hinton、Yann LeCun 就 AI 安全问题不断发声，表达各自的担忧与立场：

Geoffrey Hinton 警告称，AI 导致人类灭绝的可能性高达 10% 至 20%，呼吁在这一关键节点投入大量资源研究 AI 安全，否则后果将不堪设想；
Bengio 强调：真正让他忧心的并非自身安危，而是对子孙后代命运的深切关爱与责任；
Yann LeCun 一直对当前大型语言模型（LLMs）的发展持批评态度，它们本质上是自回归模型，缺乏对物理世界、因果关系和常识的真正理解易产生“幻觉”，并非通往通用人工智能（AGI）的可靠路径。他更关注滥用、偏见及信息污染等现实威胁，并倡导通过开放研究和构建具备更深层推理能力（如“世界模型”）的 AI 系统，来确保技术安全可控地发展，同时警惕过度监管扼杀创新。

已筹集 3000 万美金

旨在构建更安全的 AI 新模型

LawZero 已获得超过 3000 万美元的启动资金，由生命未来研究所（Future of Life Institute）、开放慈善（Open Philanthropy）、施密特科学（Schmidt Sciences）等多家关注 AI 长期影响的机构和个人联合捐助。这笔资金将用于构建一个以安全为核心的新型人工智能研发体系。

超过 15 名研究人员组成了 LawZero 技术团队，他们正积极推进一项全新的人工智能架构实验——Scientist AI。

这一架构不同于当前主流的“代理型 AI”路线，其目标并非让 AI 在现实中自主执行任务，而是致力于理解世界本质。通过透明、可外化的推理过程生成真实可靠的答案。LawZero 希望通过这一路径，打造出一种可用于监督代理型系统、加速科学发现并增强风险治理能力的 AI 新范式。

Yoshua Bengio 自述：因爱而创，为子孙后代打造更安全的 AI

Yoshua Bengio 在自述文中坦言道：自己一直被这样的一个比喻所激励：

想象你与爱人驾车行驶在一条风景秀丽却又陌生的山路上。前方的道路是新建的，被浓雾笼罩，既没有路标也没有护栏。

你爬得越高，就越意识到自己可能是第一个走这条路的人，并在山顶获得意想不到的奖励。山路两边，浓雾弥漫，陡峭的山坡清晰可见。

在能见度如此有限的情况下，如果转弯太快，你可能会掉进沟里，或者在最坏的情况下，掉下悬崖。

这正是当下 AI 发展给人的感觉，刺激、诱人，又极度不确定。我们正行驶在一个前所未知的领域，失控的风险无处不在。但在国家与企业的竞速中，谨慎似乎成了累赘，加速才是主旋律。

我在最近的 TED 演讲中说过：“坐在我身边的，是我的孩子、我的孙辈、我的学生，还有许许多多其他人。那你呢？谁坐在你副驾驶上？你手中托举又是谁的未来？”

真正让我忧心的并不是对自身安危的担忧，而是一种深沉的爱——对孩子的爱，对所有孩子的爱。可现在，我们却像是在拿他们的未来，赌在一场名为‘AI’的轮盘上。

LawZero 是我在 2023 年开启的新科学方向成果。在撰写这篇博客时，我已深刻意识到：多家私人实验室正以前所未有的速度向 AGI 乃至更远目标推进，而这背后却潜藏着对人类深远的潜在影响。当前，我们尚未掌握确保高级 AI 不会伤害人类（无论是自发行为，还是受人类指令驱动）的可靠方法。

LawZero 正是我和团队对这一挑战的建设性回应——它探索的是一种既强大、又从根本上安全的人工智能路径。在每一个 AI 前沿系统的核心，我始终坚信，必须有一个首要的指导原则：保护人类的快乐与努力。

长期以来，人工智能研究，尤其是我自己的研究，始终以人类智能（包括其自主性）为参照模型。但如今，随着 AI 在多种认知能力上接近甚至超越人类，我们是否还应继续模仿人类，同时复制其认知偏差、道德弱点，以及欺骗、偏见与不可信任的可能性？当我们尚未真正理解更强代理性 AI 所带来的潜在灾难性后果时，继续推动其发展是否明智？

LawZero 的研究计划，正是为此而提出一种新的方向：开发非代理性、值得信赖的 AI，我将其称为 “科学家人工智能（Scientist AI）”。我在西蒙斯研究所的演讲中对这一理念做了高层次的介绍，并与同事们撰写了第一篇相关文稿（https://arxiv.org/abs/2502.15657），可视为这一路线的白皮书。

“科学家人工智能”（Scientist AI）的训练目标是像一位无私、理想化、柏拉图式的科学家那样，具备理解、解释和预测世界的能力。与其像“演员型 AI”那样被训练去模仿或取悦人类（包括反社会人格者），不如设想一种如心理学家般训练出来的 AI —— 更广义地说，像科学家 —— 它致力于理解人类行为，包括那些可能对人类造成伤害的因素。就像心理学家可以研究反社会人格者，却无需行为上与其相似一样，这类 AI 不会模仿人类，而是对人类的行为保持理性分析。

从数学层面来讲，这将通过结构化且诚实的“思维链”（chains-of-thoughts）来实现，这些思维链被视为潜在变量，用以解释观察到的事实——这些事实包括人们所说或所写的内容，但这些内容本身不被视为真理，而是作为对其行为的观察结果。其目标是获得一个完全非代理型（non-agentic）、无记忆（memoryless）且无状态（state-less）的人工智能，它能够在给定其他陈述的条件下，为某个陈述提供贝叶斯后验概率。

这种（科学家）AI 可用于降低来自不可信 AI 代理（而非科学家 AI 自身）的风险，通过提供安全护栏的关键要素：（即评估）“这个 AI 代理提议的行动是否可能造成伤害？”如果可能，则拒绝该行动。

从设计理念出发，Scientist AI 本身也可以作为科研助手，生成具有合理性的科学假设，从而助力人类在医疗、环境等关键领域加速科研进展。最终，我希望在此类可信 AI 的基础上，进一步探索如何设计出本质上安全的 AI 代理 —— 不只是为其设置“护栏”，而是在源头上避免恶意动机的产生。

关于 Yoshua Bengio：图灵奖得主、深度学习奠基人

Yoshua Bengio 是全球人工智能领域公认的殿堂级人物，因其在深度学习领域的奠基性贡献，与 Geoffrey Hinton、Yann LeCun 共同获得 2018 年图灵奖。他不仅是 AI 发展史上的关键推手，也是全球被引用次数最多、h 指数最高的计算机科学家之一。

Yoshua Bengio现任蒙特利尔大学教授，加拿大魁北克人工智能研究院（Mila）创始人兼科学顾问，同时担任加拿大高等研究院（CIFAR）“机器与大脑学习”项目联席主席，加拿大数据价值化研究院（IVADO）首席科学顾问与创始科学总监。

Bengio 荣获众多国际顶级奖项，包括 Killam Prize、Herzberg Gold Medal、CIFAR AI Chair、西班牙 Princess of Asturias Award 以及 VinFuture Prize。他是英国皇家学会与加拿大皇家学会双料院士，同时被授予法国荣誉军团骑士勋章与加拿大勋章军官衔。他也是联合国秘书长科学顾问委员会成员，持续就全球科技进程提供独立见解。

2024 年，他入选《TIME》“全球百大最具影响力人物”。

除了推动技术前沿，Bengio 长期关注人工智能的社会责任。他是《Montreal Declaration for Responsible AI》的主要发起人，并担任《International Scientific Report on the Safety of Advanced AI》的主席，致力于用科学家的良知，在技术发展与人类福祉之间划定清晰边界。

（文：AI科技大本营）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

发表评论 取消回复

发表评论取消回复