Anthropic首次公开Claude「深度研究」功能构建细节：全藏在“指挥家-演奏家”模式里

Anthropic把自家的深度研究功能构建过程分享出来了，非常值得一读

当面对需要跨越海量信息、探索未知领域的复杂研究任务时，单一的大语言模型（LLM）往往会遇到瓶颈。为了更有效地解决这类问题，Anthropic 的工程师们构建了一套先进的多智能体研究系统，并将其整合为 Claude 的“研究”（Research）功能。

Anthropic详细分享了该系统从原型到产品的全过程，为我们揭示了构建一个高效、可靠的智能体系统所必需的核心原则、架构设计和工程智慧

一、为什么选择多智能体系统？

研究工作本质上是开放和动态的，无法预设固定的路径。它需要根据新发现不断调整方向，这恰好是 AI 智能体（Agent）的优势所在。然而，单智能体在处理需要“广度优先”搜索的复杂查询时，仍然会因顺序执行而效率低下

多智能体系统通过以下方式解决了这一难题：

并行压缩与分工： 系统的核心思想是“压缩”——从海量信息中提炼洞见。多个“子智能体”（Subagents）可以并行工作，各自拥有独立的上下文窗口，同时探索问题的不同方面。这种分工不仅减少了路径依赖，还实现了关注点分离（例如，不同的子智能体使用不同的工具或提示）

性能的指数级提升： Anthropic 的内部评估显示，在处理需要分解任务的复杂查询时（如“找出标普500信息技术板块所有公司的董事会成员”），一个由 Claude Opus 4 担任主智能体、Claude Sonnet 4 担任子智能体的多智能体系统，其性能比单个 Claude Opus 4 智能体高出 90.2%。

代价与权衡： 强大的性能并非没有代价。多智能体系统是“token消耗大户”。数据显示，智能体交互的 token 消耗约为普通聊天的 4 倍，而多智能体系统则高达 15 倍。因此，这类系统最适用于那些能够通过其卓越性能创造足够高价值的任务

二、系统核心架构：“指挥家-演奏家”模式

该研究系统采用了一种经典的 “指挥家-演奏家”（Orchestrator-Worker）模式

主智能体（Lead Agent / 指挥家）： 当用户提交一个复杂查询后，系统会创建一个主智能体。它负责：

*   **理解和规划：** 分析用户意图，制定一个全面的研究策略。
*   **任务分解与授权：** 将大任务分解为多个独立的子任务。
*   **创建子智能体：** 为每个子任务生成专门的“子智能体”，并分配任务。
*   **结果合成：** 汇总所有子智能体返回的信息，进行综合分析，形成最终报告。

子智能体（Subagents / 演奏家）： 它们是并行的工作单元，接收主智能体的指令，独立地执行搜索、评估信息，然后将关键发现返回给主智能体

外部记忆（Memory）： 为了处理超过模型上下文窗口（如200K tokens）的超长任务，系统使用外部记忆来持久化存储研究计划等关键信息，防止上下文丢失

引用智能体（Citation Agent）： 在生成最终报告后，一个专门的引用智能体会负责检查报告中的所有声明，并将其与原始信源进行匹配，确保所有信息都有据可查。

整个流程是一个动态的、迭代的循环。主智能体可以根据初步结果调整策略，创建更多的子智能体进行深入或补充研究，直到收集到足够的信息为止。

三、成功的关键：提示工程与评估的最佳实践

让一群智能体高效协作远比控制单个智能体复杂。Anthropic 分享了他们在提示工程和系统评估方面的八大原则：

提示工程（Prompt Engineering）的八大原则：

1. 像智能体一样思考： 通过模拟系统，逐步观察智能体的行为，理解其“心智模型”，从而发现失败模式（如过度搜索、选择错误工具）并进行针对性优化
2. 教会“指挥家”如何授权： 给子智能体的指令必须清晰具体，包含明确的目标、输出格式、工具使用建议和任务边界，避免模糊指令导致的重复工作或任务失败。
3. 根据任务复杂度调整投入： 在提示中嵌入规则，指导主智能体根据任务的复杂性（简单事实查询、对比分析、复杂研究）来决定启动的子智能体数量和工具调用次数，避免资源浪费。
4. 精心设计工具（Tool）： 工具的接口和描述至关重要。为智能体提供明确的启发式规则（如优先使用专用工具、先广泛搜索再深入），确保它们能选择正确的工具。
5. 让智能体自我改进： Claude 4 模型本身就是优秀的提示工程师。Anthropic 创建了一个“工具测试智能体”，当发现一个工具描述有问题时，它能自我诊断、重写描述以避免未来出错，使任务完成时间减少了 40%。
6. 先拓宽，再深入（Start wide, then narrow down）： 引导智能体模仿人类专家的研究方式——先用宽泛的查询探索全景，评估可用信息，再逐步缩小焦点。
7. 引导思考过程（Extended thinking）： 利用模型的“思考”能力作为可控的草稿纸。主智能体通过“思考”来规划、评估和分配任务。子智能体则在每次工具调用后进行“思考”，评估结果质量并规划下一步行动。
8. 并行化提升速度与性能： 系统实现了两个层面的并行化：主智能体并行启动多个子智能体；每个子智能体可以并行调用多个工具。这使得复杂研究的耗时从数小时缩短到几分钟。

有效评估（Effective Evaluation）的三大原则：

1. 从小样本开始快速迭代： 在开发早期，一个小的、有代表性的测试集（约20个查询）就足以发现重大问题并验证改进效果。不要等到构建完美的大型评估集才开始测试
2. 利用 LLM 作为“裁判”： 对于难以程序化评估的自由格式文本输出，LLM 是理想的“裁判”。Anthropic 使用一个 LLM 裁判，根据一套标准（事实准确性、引用准确性、完整性、信源质量等）对输出进行打分。
3. 人工评估不可或缺： 自动化评估无法捕捉所有边缘案例。人工测试员能发现微妙的偏见（如早期版本偏爱SEO优化的内容农场而非学术PDF）和系统性故障。

四、从原型到产品：生产环境的可靠性挑战

将一个复杂的智能体系统投入生产环境，会遇到传统软件开发中不常见的挑战

状态与错误累积： 智能体是长时运行且有状态的。任何一个小错误都可能被放大，导致整个任务失败。因此，系统必须具备从故障点恢复（Resume）的能力，而不是从头开始。

调试困难： 智能体的非确定性使得复现和调试问题异常困难。解决方案是引入高级别的生产追踪（Tracing，监控智能体的决策模式和交互结构，而非具体对话内容，以保护用户隐私

部署协调： 由于智能体是持续运行的，不能简单地停止旧版本、启动新版本。Anthropic 采用 “彩虹部署”（Rainbow Deployments），新旧版本的系统同时运行，流量逐步从旧版本迁移到新版本，确保平稳过渡

性能瓶颈： 目前的同步执行模式（主智能体等待一批子智能体完成后再继续）简化了协调，但造成了瓶颈。未来的方向是异步执行，虽然会增加复杂性，但性能收益将是巨大的。

结论

构建一个生产级别的多智能体研究系统是一项艰巨的工程挑战，“最后一公里”往往最为艰难。从原型到可靠的产品，需要细致的工程设计、全面的测试、精巧的提示与工具设计，以及跨团队的紧密合作。

参考：

https://www.anthropic.com/engineering/built-multi-agent-research-system

⭐

（文：AI寒武纪）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

一、为什么选择多智能体系统？

二、系统核心架构：“指挥家-演奏家”模式

三、成功的关键：提示工程与评估的最佳实践

四、从原型到产品：生产环境的可靠性挑战

结论

发表评论 取消回复

发表评论取消回复