一篇自进化Agents技术最新综述：迈向人工超级智能

LLMs 虽然在多种任务中表现出色，但本质上是静态的，无法适应新任务、知识领域的演变或动态交互环境，因此，研究者们开始关注能够实时适应性推理、行动和进化的Agents系统，这种从静态模型到自进化Agents的范式转变，为实现人工超级智能（ASI）铺平了道路。

首次系统地回顾了自进化智能体（Self-Evolving Agents）的研究进展。围绕“什么要进化”“何时进化”“如何进化”三个核心问题展开，为AI领域中从静态模型向动态、自适应智能体系统的发展提供理论框架和实践指导。

2022年至2025年若干代表性自进化代理框架的进化全景图

一、什么要进化？

探讨代理系统中哪些部分可以进化，包括模型、上下文（如记忆和提示）、工具和架构。

模型

自生成监督学习：通过角色交替生成问题和解决方案，利用成功轨迹微调模型参数。
交互反馈学习：将执行轨迹或自然语言批评作为奖励信号，结合监督微调和强化学习框架，实现持续策略改进。
文本反馈学习：将非结构化文本反馈视为可微训练信号，影响提示设计和模型参数。

上下文

记忆进化：积累知识、回忆事件并根据经验调整行为，如基于遗忘曲线的记忆管理、动态记忆更新和经验总结。
提示优化：改进代理输入给底层模型的指令，无需修改模型权重，如基于搜索的优化、迭代重写和自然语言修正。

工具

自主发现和创建：克服固定工具集的限制，按需创新，如探索性发现、反应式创建和结构化框架。
掌握工具：通过迭代改进掌握新生成的工具，确保工具的可靠性和实用性。
管理工具：高效管理和选择工具，如工具编码和架构优化。

架构

单代理系统优化：优化LLM调用节点和代理的整体架构，如节点优化和架构优化。
多代理系统优化：优化代理之间的组织和通信结构，如工作流优化和多代理协同进化。

二、何时进化（When to Evolve）：

分析进化发生的时间点，分为测试时进化（intra-test-time）和测试间进化（inter-test-time）。

测试时进化

基于上下文学习（ICL）：动态调整模型的上下文窗口，实现即时适应，无需修改模型参数。例如，AdaPlanner通过自我反思和计划修订，动态调整策略。
监督微调（SFT）：代理通过生成“自我编辑”指令，直接对模型参数进行即时调整。例如，Self-Adaptive Language Modeling通过强化学习训练模型生成有效的自我编辑指令。
强化学习（RL）：代理在遇到超出当前能力范围的问题时，通过生成相关问题变体并进行针对性的强化学习，实现即时技能获取。例如，LADDER通过测试时强化学习（TTRL）机制，针对特定问题类别进行强化学习。

测试间进化

基于上下文学习（ICL）：将之前任务的执行结果和反馈作为上下文信息，指导未来任务的解决。例如，Wang等人通过从代理行动历史中诱导工作流，并将其纳入后续任务的上下文中，实现知识的积累和复用。
监督微调（SFT）：通过生成合成数据和自我评估，实现迭代自我改进。例如，SELF通过自我反馈和自我修正能力，迭代生成对未标记指令的响应，并通过自我批评进行优化。
强化学习（RL）：利用无约束的计算资源，通过与环境的广泛交互和复杂的课程设计，优化代理策略。例如，RAGEN和DYSTIL通过在线强化学习，优化多轮交互任务中的代理策略。

三、如何进化（How to Evolve）：

总结引导进化适应的方法，包括基于奖励的进化、模仿和示范学习、基于种群和进化的方法。

基于奖励的进化

文本反馈：利用自然语言反馈指导代理的改进。例如，Reflexion通过自然语言反思改进代理的行为。
内部奖励：利用模型自身的置信度或概率估计作为奖励信号。例如，Self-Rewarding Self-Improving通过内部奖励机制实现自我改进。
外部奖励：利用外部环境提供的奖励信号。例如，SWE-Dev通过环境反馈优化代理的行为。
隐式奖励：利用模型的内在奖励机制，如“Reward Is Enough”通过简单的标量信号实现奖励学习。

模仿与示范学习

自生成示范学习：代理通过生成自己的训练数据来改进行为。例如，STaR通过生成和验证问题解决方案来提升推理能力。
跨代理示范学习：代理通过学习其他代理的示范来改进行为。例如，SiriuS通过多阶段改进和反馈整合来提升性能。
混合示范学习：结合自生成和跨代理示范学习。例如，SOFT通过内部反馈进行优化，提升代理的性能。

基于种群和进化的方法

单代理进化：通过种群机制进化单个代理。例如，Darwin Gödel Machine通过开放性进化实现自我改进。
多代理进化：通过种群机制进化多个代理。例如，EvoMAC通过多代理协同进化提升性能。
混合进化方法：结合单代理和多代理进化。例如，AutoFlow通过自适应搜索优化代理工作流。

https://arxiv.org/pdf/2507.21046Github Repo: https://github.com/CharlesQ9/Self-Evolving-AgentsA Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence

（文：PaperAgent）

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30