前沿动向：本周9个值得关注的Agent动向及上下文工程技术总结

今天是2025年7月19日，星期六，北京，晴。

我们今天来看两个东西，一个是近一周的9个值得关注的Agent进展，做个整理汇总，有很多东西，工具、协议、评估、实践指南等。

另一个是上下文工程，这个之前也说过，学术界跟的很紧，出了个技术总结综述，对于系统了解有帮助，可以看看。

温故而知新，大家一起加油。

一、近一周的9个值得关注的Agent进展

我们来梳理下近一周十大Agent进展，做个记录。

1、ChatGPT推出Agent，能主动选择合适的工具（如虚拟计算机、网络浏览器、API等），独立完成复杂任务。Pro用户每月无限使用，Plus用户每月50次，目前Pro用户立即可用，Plus用户需要等几天，HLE刷到了41.6%，https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

2、浏览器自动化工具Stagehand，具有数据提取功能，可按结构化格式获取网页内容：https://github.com/browserbase/stagehand，做网页爬虫的可以看下。

3、Agent能力专用训练框架，ART （Agent Reinforcement Trainer）：https://github.com/OpenPipe/ART

4、大模型Agent工具调用能力训练中的数据构成、Prompt构造及训练工具。分成两个：一个是数据层，训练数据占啥样，代表的中文数据有哪些；一个是实践层，有了这个数据，是怎么拼接成prompt的，可以使用什么工具进行训练，loss可以怎么变。这都是很具体的实践问题。https://mp.weixin.qq.com/s/Szv25SECTOQvEfxgmA48FA

5、Agent评估榜单，Agent Leaderboard v2，涵盖银行、医疗、投资、电信、保险五大关键领域，模拟5-8个多轮交互、多目标复杂对话。评测指标上， Action Completion（动作完成率）衡量代理是否完整、准确地完成所有用户请求，反映实际问题解决能力；Tool Selection Quality（工具选择质量）考察是否正确且精确调用合适工具，避免冗余或错误调用。结论方面，没有哪个模型能全面用于所有应用领域，选择需根据场景精准匹配，也就是不通用问题，https://galileo.ai/blog/agent-leaderboard-v2，https://galileo.ai/agent-leaderboard
，https://github.com/galileo-ai/agent-leaderboard

6、多智能体大模型的中文金融交易决策框架：TradingAgents-CN，通过分析师、研究员、交易员等多个智能体角色，结合基本面、情绪面、新闻面信息，模拟真实交易公司的决策流程：https://github.com/hsliuping/TradingAgents-CN

7、Agent协议UTCP。MCP之后的新概念UTCP通用工具调用协议。官方说这样的优点是消除了“包装税”，降低了延迟，并允许您保留现有的认证、计费和安全设置，UTCP和MCP的区别是，MCP如果连接数据库，会代理数据库连接，而UTCP则是把数据库连接整理为固定的形式，然后统一抽象，经服务发现后让Agent自己去连接：https://github.com/universal-tool-calling-protocol

8、Claude Code的原理民间推断。

对ClaudeCodev1.0.33进行逆向工程的完整研究和分析资料，包括对混淆源代码的深度技术分析、系统架构文档，以及重构ClaudeCodeagent系统的实现蓝图，主要发现包括实时Steering机制、多Agent架构、智能上下文管理和工具执行管道，为理解现代AIagent系统设计和实现提供技术参考：https://github.com/shareAI-lab/analysis_claude_code

9、搭建智能体6步指南及AI搜索Agent典型实现范式，https://mp.weixin.qq.com/s/5rNqrf3aW7y626lLiW2hWg

二、上下文工程技术总结综述

上下文工程技术总结，学术界文章总是跟的很紧，《A Survey of Context Engineering for LargeLanguage Models》，https://arxiv.org/pdf/2507.13334，https://github.com/Meirtz/Awesome-Context-Engineering，通过对超过1400篇研究论文的分析，论文系统地总结了当前的技术状态，识别了核心机制、优势和改进点。

一个是，可以作为一个技术总结看，时间线：

一个是各个方向的技术点跟代表工作：

一个是上下文工程的基础组件：

参考文献

1、https://github.com/Meirtz/Awesome-Context-Engineering

（文：老刘说NLP）

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

一、近一周的9个值得关注的Agent进展

二、上下文工程技术总结综述

参考文献

发表评论 取消回复

发表评论取消回复