
Agent现在成为大模型的主战场了,这个大家应该都感受到了,之前有Claude code,最近kimi k2,昨天的ChatGPT Agent,但是如何构建Agent现在各家还在探索中
刚刚Manus发了一个blog,算是揭秘吧,把各种踩坑后经验教训,以及最佳实践分享出来了,manus认为一个成功的AI Agent依赖于巧妙的上下文工程(Context Engineering),而非单纯的模型能力

强烈建议阅读原文:
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
在项目初期,团队面临了两个选择:使用开源基础模型进行端到端训练,还是基于先进模型的上下文学习(in-context learning)能力构建Agent。过去,类似于BERT的模型必须通过漫长的微调过程才能应用到新任务中,每次迭代可能耗时数周,显然不适合快速迭代的应用场景。然而,GPT-3和Flan-T5的出现,让上下文学习成为可能,彻底改变了开发模式。Manus团队果断选择了上下文工程,以实现小时级别的快速迭代。
不过,上下文工程并非易事。它是一门实验性的科学,团队多次重构了整个Agent框架,笑称这一过程为“随机梯度下降法(Stochastic Graduate Descent)”,虽然笨拙但行之有效。
具体实践中,有几个关键点值得注意:
一、设计围绕KV缓存(KV-cache)展开。KV缓存命中率直接决定了AI Agent的延迟和成本,具体来说,确保prompt前缀稳定、仅追加而不修改已有上下文、明确标记缓存断点是提高缓存命中率的核心手段。
二、屏蔽(mask)工具而非移除。在工具数量膨胀时,Agent可能错误地选择行动,团队发现动态地增加或删除工具会严重破坏KV缓存。因此,他们采用了上下文感知状态机,通过屏蔽特定行动的logits而非删除工具定义,从而有效控制行动选择。
三、文件系统即上下文。尽管如今的模型拥有超长的上下文窗口(甚至超过128K token),但在实际应用中依然不够。Manus将文件系统视作无限且持久的上下文扩展,通过存储文件路径而非具体内容,实现了信息的可恢复压缩。
四、通过反复回顾(recitation)操纵注意力。Agent容易在复杂任务中偏离目标,因此Manus设计了让Agent不断更新待办事项列表(todo list)的机制,从而将全局目标持续推入模型的近期注意力窗口,有效避免了目标遗忘。
五、保留错误以学习成长。团队发现,Agent犯错并非坏事,反而是提升能力的重要途径。保留错误信息能够帮助模型自动修正内部推理,避免重复犯同样的错误。
六、避免Few-shot误导。尽管少样本(few-shot)提示能改善模型表现,但在Agent系统中,过于一致的上下文会导致模型陷入重复模式。团队通过引入结构化的变化和受控随机性,有效防止了这一问题。
总而言之,上下文工程虽然尚处于探索阶段,但已是构建智能Agent不可或缺的一环。Manus的经验表明,如何塑造上下文将最终决定你的Agent表现如何、恢复能力如何、以及扩展潜力多大。AI的未来,每一步都从精心设计的上下文开始
参考:
https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
(文:AI寒武纪)