前沿动向:本周9个值得关注的Agent动向及上下文工程技术总结

今天是2025年7月19日,星期六,北京,晴。

我们今天来看两个东西,一个是近一周的9个值得关注的Agent进展,做个整理汇总,有很多东西,工具、协议、评估、实践指南等。

另一个是上下文工程,这个之前也说过,学术界跟的很紧,出了个技术总结综述,对于系统了解有帮助,可以看看。

温故而知新,大家一起加油。

一、近一周的9个值得关注的Agent进展

我们来梳理下近一周十大Agent进展,做个记录。

1、ChatGPT推出Agent,能主动选择合适的工具(如虚拟计算机、网络浏览器、API等),独立完成复杂任务。Pro用户每月无限使用,Plus用户每月50次,目前Pro用户立即可用,Plus用户需要等几天,HLE刷到了41.6%,https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

2、浏览器自动化工具Stagehand,具有数据提取功能,可按结构化格式获取网页内容:https://github.com/browserbase/stagehand,做网页爬虫的可以看下。

3、Agent能力专用训练框架,ART (Agent Reinforcement Trainer):https://github.com/OpenPipe/ART

4、大模型Agent工具调用能力训练中的数据构成、Prompt构造及训练工具。分成两个:一个是数据层,训练数据占啥样,代表的中文数据有哪些;一个是实践层,有了这个数据,是怎么拼接成prompt的,可以使用什么工具进行训练,loss可以怎么变。这都是很具体的实践问题。https://mp.weixin.qq.com/s/Szv25SECTOQvEfxgmA48FA

5、Agent评估榜单,Agent Leaderboard v2,涵盖银行、医疗、投资、电信、保险五大关键领域,模拟5-8个多轮交互、多目标复杂对话。评测指标上, Action Completion(动作完成率)衡量代理是否完整、准确地完成所有用户请求,反映实际问题解决能力;Tool Selection Quality(工具选择质量)考察是否正确且精确调用合适工具,避免冗余或错误调用。结论方面,没有哪个模型能全面用于所有应用领域,选择需根据场景精准匹配,也就是不通用问题,https://galileo.ai/blog/agent-leaderboard-v2,https://galileo.ai/agent-leaderboard
,https://github.com/galileo-ai/agent-leaderboard

6、多智能体大模型的中文金融交易决策框架:TradingAgents-CN,通过分析师、研究员、交易员等多个智能体角色,结合基本面、情绪面、新闻面信息,模拟真实交易公司的决策流程:https://github.com/hsliuping/TradingAgents-CN

7、Agent协议UTCP。MCP之后的新概念UTCP通用工具调用协议 。官方说这样的优点是消除了“包装税”,降低了延迟,并允许您保留现有的认证、计费和安全设置,UTCP和MCP的区别是,MCP如果连接数据库,会代理数据库连接,而UTCP则是把数据库连接整理为固定的形式,然后统一抽象,经服务发现后让Agent自己去连接:https://github.com/universal-tool-calling-protocol

8、Claude Code的原理民间推断

对ClaudeCodev1.0.33进行逆向工程的完整研究和分析资料,包括对混淆源代码的深度技术分析、系统架构文档,以及重构ClaudeCodeagent系统的实现蓝图,主要发现包括实时Steering机制、多Agent架构、智能上下文管理和工具执行管道,为理解现代AIagent系统设计和实现提供技术参考:https://github.com/shareAI-lab/analysis_claude_code

9、搭建智能体6步指南及AI搜索Agent典型实现范式,https://mp.weixin.qq.com/s/5rNqrf3aW7y626lLiW2hWg

二、上下文工程技术总结综述

上下文工程技术总结,学术界文章总是跟的很紧,《A Survey of Context Engineering for LargeLanguage Models》,https://arxiv.org/pdf/2507.13334,https://github.com/Meirtz/Awesome-Context-Engineering,通过对超过1400篇研究论文的分析,论文系统地总结了当前的技术状态,识别了核心机制、优势和改进点。

一个是,可以作为一个技术总结看,时间线:

一个是各个方向的技术点跟代表工作:

一个是上下文工程的基础组件

参考文献

1、https://github.com/Meirtz/Awesome-Context-Engineering

(文:老刘说NLP)

发表评论