大火的LLM上下文工程技术首篇全面综述来了

大型语言模型(LLMs)的性能从根本上取决于推理过程中提供的上下文信息,介绍了上下文工程(Context Engineering)这一正式学科,它超越了简单的提示设计,涵盖了对LLMs信息负载的系统性优化:从底层的上下文处理,可参考过往发布的技术,比如:递归神经网络的复兴:Mixture-of-Recursions;再到系统级的智能体系统实现,过往示例:扣子空间+MCP,我的科研伙伴Agent上线了!
从2020年到2025年,上下文工程实现的发展轨迹的全面可视化,展示了从基础的检索增强生成(RAG)系统到复杂的多智能体架构和工具集成推理系统的演变。
提出了一个全面的分类法,大型语言模型中的上下文工程被划分为基础组件、系统实现、评估方法和未来方向。每个领域都涵盖了特定的技术和框架,共同推动了针对LLMs的信息负载的系统性优化。

上下文工程可以形式化为一个优化问题,目标是找到一组理想的上下文生成函数,以最大化LLM输出的预期质量。给定任务的分布,目标是:

提示工程与上下文工程范式的比较

一、上下文工程的基础组件

  • 上下文检索与生成:包括基于提示的生成、外部知识检索和动态上下文组装。例如,提示工程通过设计有效的指令和推理框架来引导模型输出;外部知识检索通过RAG等技术结合模型内部知识和外部信息。


  • 上下文处理:涉及长序列处理、自我优化机制和结构化信息集成。例如,长上下文处理技术如LongNet将Transformer复杂度从二次降至线性,支持百万级标记。

  • 上下文管理:包括内存层次结构、压缩和优化。例如,MemGPT通过虚拟内存管理实现超长对话,LLMLingua实现20倍压缩,保持任务性能。

二、上下文工程的系统实现

  • 检索增强生成(RAG):通过模块化架构、智能体化和图增强架构实现动态知识注入。例如,知识图谱增强的RAG在问答任务中显著提升了性能。

  • 内存系统:模仿人类认知能力,实现持久信息保留。例如,LongMem的时间衰减机制有效处理长期依赖。

  • 工具集成推理:通过定义函数调用规范,实现推理规划-工具调用-结果整合的闭环,支持数字与物理环境交互。

  • 多智能体系统:设计通信协议、编排机制和协调策略,实现复杂目标。例如,多智能体系统在代码生成等任务上显著提升了性能。


三、实验结果与性能提升

  • 长上下文处理:LongNet和StreamingLLM等技术显著提升了长序列处理能力。

  • 自我优化方法:如Self-Refine使GPT-4性能提升约20%,思维树(ToT)显著提高了任务成功率。

  • RAG系统:在问答任务中,知识图谱增强的RAG显著提升了性能。

  • 内存系统:MemGPT和LongMem等技术实现了超长对话和长期依赖的有效处理。

  • 上下文压缩:LLMLingua等技术实现了高效压缩,保持任务性能。

  • 多智能体协作:多智能体系统在代码生成等任务上显著提升了性能。

    https://arxiv.org/abs/2507.13334A Survey of Context Engineering for Large Language Models

    (文:PaperAgent)

    发表评论