大火的LLM上下文工程技术首篇全面综述来了

大型语言模型（LLMs）的性能从根本上取决于推理过程中提供的上下文信息，介绍了上下文工程（Context Engineering）这一正式学科，它超越了简单的提示设计，涵盖了对LLMs信息负载的系统性优化：从底层的上下文处理，可参考过往发布的技术，比如：递归神经网络的复兴：Mixture-of-Recursions；再到系统级的智能体系统实现，过往示例：扣子空间+MCP，我的科研伙伴Agent上线了！。

从2020年到2025年，上下文工程实现的发展轨迹的全面可视化，展示了从基础的检索增强生成（RAG）系统到复杂的多智能体架构和工具集成推理系统的演变。

提出了一个全面的分类法，大型语言模型中的上下文工程被划分为基础组件、系统实现、评估方法和未来方向。每个领域都涵盖了特定的技术和框架，共同推动了针对LLMs的信息负载的系统性优化。

上下文工程可以形式化为一个优化问题，目标是找到一组理想的上下文生成函数，以最大化LLM输出的预期质量。给定任务的分布，目标是：

提示工程与上下文工程范式的比较

一、上下文工程的基础组件

上下文检索与生成：包括基于提示的生成、外部知识检索和动态上下文组装。例如，提示工程通过设计有效的指令和推理框架来引导模型输出；外部知识检索通过RAG等技术结合模型内部知识和外部信息。
上下文处理：涉及长序列处理、自我优化机制和结构化信息集成。例如，长上下文处理技术如LongNet将Transformer复杂度从二次降至线性，支持百万级标记。
上下文管理：包括内存层次结构、压缩和优化。例如，MemGPT通过虚拟内存管理实现超长对话，LLMLingua实现20倍压缩，保持任务性能。

二、上下文工程的系统实现

检索增强生成（RAG）：通过模块化架构、智能体化和图增强架构实现动态知识注入。例如，知识图谱增强的RAG在问答任务中显著提升了性能。
内存系统：模仿人类认知能力，实现持久信息保留。例如，LongMem的时间衰减机制有效处理长期依赖。
工具集成推理：通过定义函数调用规范，实现推理规划-工具调用-结果整合的闭环，支持数字与物理环境交互。
多智能体系统：设计通信协议、编排机制和协调策略，实现复杂目标。例如，多智能体系统在代码生成等任务上显著提升了性能。

三、实验结果与性能提升

长上下文处理：LongNet和StreamingLLM等技术显著提升了长序列处理能力。
自我优化方法：如Self-Refine使GPT-4性能提升约20%，思维树（ToT）显著提高了任务成功率。
RAG系统：在问答任务中，知识图谱增强的RAG显著提升了性能。
内存系统：MemGPT和LongMem等技术实现了超长对话和长期依赖的有效处理。
上下文压缩：LLMLingua等技术实现了高效压缩，保持任务性能。
多智能体协作：多智能体系统在代码生成等任务上显著提升了性能。

https://arxiv.org/abs/2507.13334A Survey of Context Engineering for Large Language Models

（文：PaperAgent）

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一、上下文工程的基础组件

二、上下文工程的系统实现

三、实验结果与性能提升

发表评论 取消回复

发表评论取消回复