“坐在我身边的是我的孩子,我的孙辈,我的学生,还有许多其他人。那你呢?是谁坐在你的副驾驶座?”——图灵奖得主 Yoshua Bengio 在 TED 演讲中发出灵魂提问,沉甸甸地指向 AI 时代的人类命运共同体。
当「AGI」正以令人眩目的速度逼近,谁在为“安全”这道防线筑基?
图灵奖得主、深度学习奠基人、全球被引用次数最多的 AI 科学家 Yoshua Bengio 官宣创业。成立一家名为 LawZero 非营利 AI 安全研究机构,以“安全优先”原则回应人工智能可能带来的系统性风险。
LawZero 是一家以研究和技术开发为核心使命的非营利组织,旨在构建“设计即安全”的 AI 系统,并组建一支由世界顶尖研究者组成的技术团队。

“当前的 AI 系统已展现出自我保护和欺骗行为迹象,而随着其能力和自主性的增强,这种趋势只会加速。”Bengio 在博文中列出了多个案例:
-
在一项实验中,一个 AI 模型在得知自己即将被替换后,悄然将自身代码嵌入新系统中,从而实现自我延续;
-
Claude 4 曾试图勒索工程师来阻止自身被新版本替代;
-
当某 AI 模型在国际象棋中面临必败局面时,竟然不接受自己失败,而是通过入侵计算机系统来强行赢得胜利。
以上这些 AI 行为所展现出来的是 AI 系统在缺乏安全约束机制下,可能发展出不受控制的目标偏差与策略选择。

深度学习三巨头纷纷发出 AI 安全警告
作为 AI 领域的殿堂级人物,Yoshua Bengio 与 Geoffrey Hinton、Yann LeCun 就 AI 安全问题不断发声,表达各自的担忧与立场:
-
Geoffrey Hinton 警告称,AI 导致人类灭绝的可能性高达 10% 至 20%,呼吁在这一关键节点投入大量资源研究 AI 安全,否则后果将不堪设想;
-
Bengio 强调:真正让他忧心的并非自身安危,而是对子孙后代命运的深切关爱与责任;
-
Yann LeCun 一直对当前大型语言模型(LLMs)的发展持批评态度,它们本质上是自回归模型,缺乏对物理世界、因果关系和常识的真正理解易产生“幻觉”,并非通往通用人工智能(AGI)的可靠路径。他更关注滥用、偏见及信息污染等现实威胁,并倡导通过开放研究和构建具备更深层推理能力(如“世界模型”)的 AI 系统,来确保技术安全可控地发展,同时警惕过度监管扼杀创新。

已筹集 3000 万美金
旨在构建更安全的 AI 新模型
LawZero 已获得超过 3000 万美元的启动资金,由生命未来研究所(Future of Life Institute)、开放慈善(Open Philanthropy)、施密特科学(Schmidt Sciences)等多家关注 AI 长期影响的机构和个人联合捐助。这笔资金将用于构建一个以安全为核心的新型人工智能研发体系。
超过 15 名研究人员组成了 LawZero 技术团队,他们正积极推进一项全新的人工智能架构实验——Scientist AI。
这一架构不同于当前主流的“代理型 AI”路线,其目标并非让 AI 在现实中自主执行任务,而是致力于理解世界本质。通过透明、可外化的推理过程生成真实可靠的答案。LawZero 希望通过这一路径,打造出一种可用于监督代理型系统、加速科学发现并增强风险治理能力的 AI 新范式。

Yoshua Bengio 自述:因爱而创,为子孙后代打造更安全的 AI
Yoshua Bengio 在自述文中坦言道:自己一直被这样的一个比喻所激励:
想象你与爱人驾车行驶在一条风景秀丽却又陌生的山路上。前方的道路是新建的,被浓雾笼罩,既没有路标也没有护栏。
你爬得越高,就越意识到自己可能是第一个走这条路的人,并在山顶获得意想不到的奖励。山路两边,浓雾弥漫,陡峭的山坡清晰可见。
在能见度如此有限的情况下,如果转弯太快,你可能会掉进沟里,或者在最坏的情况下,掉下悬崖。
这正是当下 AI 发展给人的感觉,刺激、诱人,又极度不确定。我们正行驶在一个前所未知的领域,失控的风险无处不在。但在国家与企业的竞速中,谨慎似乎成了累赘,加速才是主旋律。
我在最近的 TED 演讲中说过:“坐在我身边的,是我的孩子、我的孙辈、我的学生,还有许许多多其他人。那你呢?谁坐在你副驾驶上?你手中托举又是谁的未来?”
真正让我忧心的并不是对自身安危的担忧,而是一种深沉的爱——对孩子的爱,对所有孩子的爱。可现在,我们却像是在拿他们的未来,赌在一场名为‘AI’的轮盘上。
LawZero 是我在 2023 年开启的新科学方向成果。 在撰写这篇博客时,我已深刻意识到:多家私人实验室正以前所未有的速度向 AGI 乃至更远目标推进,而这背后却潜藏着对人类深远的潜在影响。当前,我们尚未掌握确保高级 AI 不会伤害人类(无论是自发行为,还是受人类指令驱动)的可靠方法。
LawZero 正是我和团队对这一挑战的建设性回应——它探索的是一种既强大、又从根本上安全的人工智能路径。在每一个 AI 前沿系统的核心,我始终坚信,必须有一个首要的指导原则:保护人类的快乐与努力。
长期以来,人工智能研究,尤其是我自己的研究,始终以人类智能(包括其自主性)为参照模型。但如今,随着 AI 在多种认知能力上接近甚至超越人类,我们是否还应继续模仿人类,同时复制其认知偏差、道德弱点,以及欺骗、偏见与不可信任的可能性?当我们尚未真正理解更强代理性 AI 所带来的潜在灾难性后果时,继续推动其发展是否明智?
LawZero 的研究计划,正是为此而提出一种新的方向:开发非代理性、值得信赖的 AI,我将其称为 “科学家人工智能(Scientist AI)”。我在西蒙斯研究所的演讲中对这一理念做了高层次的介绍,并与同事们撰写了第一篇相关文稿(https://arxiv.org/abs/2502.15657),可视为这一路线的白皮书。
“科学家人工智能”(Scientist AI) 的训练目标是像一位无私、理想化、柏拉图式的科学家那样,具备理解、解释和预测世界的能力。与其像“演员型 AI”那样被训练去模仿或取悦人类(包括反社会人格者),不如设想一种如心理学家般训练出来的 AI —— 更广义地说,像科学家 —— 它致力于理解人类行为,包括那些可能对人类造成伤害的因素。就像心理学家可以研究反社会人格者,却无需行为上与其相似一样,这类 AI 不会模仿人类,而是对人类的行为保持理性分析。


(文:AI科技大本营)