下一代 AI 系统怎么改?让 AI 自己改?!

机器之心PRO · 会员通讯 Week 28

— 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 —

1. 下一代 AI 系统怎么改?让 AI 自己改?! 

人类数据为何不足以支撑「经验时代」?DGM 验证了怎样的路径?「自进化」范式有哪些特征?让 AI 自我改进的框架和 RL 有何异同?「自进化」有哪些研究视角?未来的「自进化」方案来自模块的排列组合??…

2. 智元启动「买买买」,路径未明,资本抢跑,主流技术范式下谁在领跑具身智能赛道?

相比端到端,双系统架构是否在高复杂场景下更稳定?大多数具身智能公司都倾向「自研本体+定制模型」的路径?从轮式、四足到人形,不同本体背后有哪些模型设计差异?2025 年上半年,具身行业谁最受资本青睐?智元收购上纬新材,具身智能技术未成却资本先行?

3. Brett Adcock:装可爱的机器人没有未来?!

Figure AI 已经在筹备量产了?Brett Adock 的飞机公司为做机器人带来了哪些经验?哪些要素促成了机器人能力的指数级突破?Figure AI 也在「沿途下蛋」?为什么装可爱的机器人无法被社会接受?为什么没有机器人会让人类沦为「仆从」?…


本期完整版通讯含 3 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 7 项,国外方面 11 项。
本期通讯总计 26359 字,可免费试读至 8% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  下一代 AI 系统怎么改?让 AI 自己改?!

AI 的「经验时代」就是「自进化」的时代?

1、AI 领域通过构建大语言模型取得了长足的进步,但伴随互联网上人类产出的数据的枯竭,以及人类数据本身的局限性,人们开始寻求新的建模范式,如尝试让机器真正与世界互动,产生经验,并将其作为燃料改进自身,从而发现人类未知的知识。[1-1] [1-2]

① 图灵奖得主 Richard Sutton 与 Google DeepMind 研究员 David Silver 在 2025 年 4 月的论文中提出了「经验时代(Era of Experience)」的构想,主张智能体将主要通过自身的经验进行学习,从而获得超越人类水平的能力。

② David Silver 在论文发布同期的访谈中对该工作进行了补充,称当前时代的所有 AI 方法都基于一个共同理念,即提取人类拥有的全部知识,并将其‘喂’给机器。这种方法很强大,但我们需要在某个节点突破人类已知的范畴。

2、在相似的主张下,关于 AI「自进化」(Self-evolve)的工作开始涌现,很多研究者的目标在逐渐从单纯的「训练模型」向「让模型学会自我学习和自我进化」转变。Sakana AI 和 UBC 提出的「达尔文哥德尔机(DGM)」则是其中较有代表性的工作。[1-3]

① DGM 利用基础模型和开放式算法来创建和评估新的 AI 智能体,并能够读取和修改自身的 Python 代码库以进行自我改进,还通过评估在编码基准上的性能来判断更改是否有效。

② 在实验中,DGM 在 SWE-bench 上的性能表现从 20.0%的初始状态在 80 轮迭代后提升至 50.0%;其在 Polyglot 上的性能表现则从 14.2%提升到 30.7%,均实现自我学习后超越人类手工设计的智能体 Aider。

3、DGM 的表现不仅在于其技术实现,还在于其验证了 AI 系统可以与科学发现本身一样(也是论文的研究背景)基于过往积累,通过递归式的自我改进逐步提升自身的性能。[1-3]

都是改进,自进化与 SL/RL 有何不同?[1-4]

1、自进化/自我改进范式,即实现在初始训练数据之外持续改进的机器学习技术正在数据枯竭的趋势下愈发受到关注。

① 伴随基础模型的规模和能力发展,数据问题在不同的研究方向均有体现。如 LLM 中预训练的收益正在递减,导致许多工作尝试寻找 test-time 的 Scaling 机会,具身智能和物理智能中也长期存在真机数据匮乏的局限。

② 理论上,数据总量、数据质量和人类知识制约等问题可以通过训练来自相同(或其它模型)产生的自我生成或合成数据来实现,因而促进了许多研究者在该路径的发散探索。

2、人工智能定会 ICLR 2025 首次在研讨会中设置了关注基础模型自我改进能力(Scaling Self-Improving Foundation Models)的主题,探讨没有人类监督的情况下如何通过生成合成数据来持续提升模型性能。

① 该场研讨会总计有约 500 名参会者,接受了约 80 篇论文,其相关演讲和探讨话题较为广泛,涵盖学习目标和算法、用于实现自进化的多智能体和多模型系统以及软件整体、机器人自进化等领域的实现。

3、作为一种学习范式,自进化与标准的监督学习(SL)和强化学习 (RL) 在几个关键方面有所不同,且其特异性理论上能够提供比通用强化学习方法更有效、更精准的算法。

① 在监督学习中,模型基于人类提供的高质量注释进行训练。此外,对于 LLM 的预训练,高质量数据通常以启发式方式进行管理,这些方式很大程度上独立于学习算法。

② 相比之下,自进化框架依赖于模型生成自身训练数据(或使用其他模型生成这些数据)的能力,因此数据管理算法现在必须纳入学习框架。

③ RL 还涉及对模型生成的训练,因此,可能看起来与自进化范式相似。然而,由于其通用性,通用的 RL 算法(旨在解决所有下游 RL 问题)可能不足以适应模型自我改进,对后者提出了特定的约束和条件。

④ 原则上,除非精心设计,否则自进化的方法可能会导致模型在进行更多训练后崩溃,而这种现象在传统 RL 中由于存在有意义的奖励信号而不适用。

4、由于自进化范式仍处于发展初期,其研究涉及基础模型、强化学习和在线学习、认知神经科学等领域的不同实践和交叉影响。

DGM 是如何实现模型自我改进的?[1-3] [1-5]

Sakana AI 和不列颠哥伦比亚大学(UBC)的研究者在 DGM 中以 AI4S 的视角下,探索了 AI 在没有人类干预的情况下学习并提升自身能力的可能性。其核心理念在于让 AI 系统像科学发现本身一样,基于过往积累自主地不断改进自身,实现更高效的发展。

1、DGM(Darwin Gödel Machine)是一种受达尔文进化论启发的自改进系统,其目的在于通过自我修改代码来不断提升自身性能,尤其是在解决编码任务方面的能力。

(文:机器之心)

发表评论