支持5000+ Server,ScaleMCP为大模型Agents动态同步MCP工具

模型上下文协议(MCP)极大地提升了LLM Agents与外部工具和API动态交互的能力。现有的工具选择框架并未整合MCP服务器,而是严重依赖容易出错的手动更新,来维护本地的单体工具库,这导致了重复、不一致和低效的问题。此外,当前的方法在调用LLM代理之前就对工具选择进行了抽象化,限制了代理的自主性,并阻碍了在多轮交互过程中动态重新查询的能力。
为了解决这些问题,普华永道提出了ScaleMCP,这是一种新颖的工具选择方法,动态地为LLM代理配备了一个MCP工具检索器,赋予代理自主地将工具添加到其记忆中的能力,同时还通过与MCP服务器(作为唯一真实来源)进行CRUD(创建、读取、更新、删除)操作,实现了一个自动同步的工具存储系统管道。
还提出了一种新的嵌入策略——工具文档加权平均(TDWA),旨在在嵌入过程中选择性地强调工具文档的关键部分(例如工具名称或合成问题)。

数据集构建

  • 工具创建:基于《财富》1000强公司,为每家公司生成了5个确定性的工具,涉及股票价格、分析师目标价、收入和净收入等财务指标。

  • 工具文档合成问题:为每个工具模板生成了0、5或10个合成问题,以丰富工具文档的语义表示。

  • 用户查询实例生成:创建了约140,000个用户查询实例,覆盖了广泛的财务任务和公司。

实验1:MCP向量数据库检索

  • 设置:在5,000个MCP服务器的数据集上评估了5种嵌入模型和5种检索器类型,使用简单拼接策略存储工具表示。

  • 结果:单纯向量检索表现不佳,而使用Cohere的跨编码器重排序器和LLM重排序器(如GPT-4o和Claude Sonnet 3.7)显著提升了性能。在VertexAI嵌入模型和GPT-4o重排序器下,Recall@10达到0.94,MAP@10达到0.59。

实验2:LLM代理评估

  • 设置:使用DeepEval框架评估了10种LLM代理在检索和工具调用任务上的端到端性能。

  • 结果:gpt-o3在使用向量搜索和Cohere重排序器时,Task Completion Score达到94.4%,但Tool Correctness仅为36.1%。gpt-4o-mini在相同配置下平衡了Tool Correctness(54.0%)和Task Completion Score(86.7%)。

实验3:TDWA权重评估

  • 设置:比较了简单拼接(Concat)和两种TDWA变体(var-1和var-2)在不同检索策略下的性能。

  • 结果:在纯向量搜索中,Concat策略表现优于TDWA,但在重排序后,TDWA var-2在某些重排序指标上优于Concat,表明TDWA在语义相关性方面具有优势。

  • ScaleMCP通过自动同步工具存储系统和TDWA嵌入策略,显著提升了LLM代理在工具选择和调用方面的性能。

  • 在复杂多跳查询中,LLM代理需要更灵活的检索和推理能力,ScaleMCP框架通过引入动态检索工具,为代理提供了更好的工具管理能力。

  • TDWA策略在重排序阶段表现出色,尤其是在与LLM重排序器结合时,能够更好地捕捉工具文档的语义信息。

更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
https://arxiv.org/pdf/2505.06416SCALEMCP: DYNAMIC AND AUTO-SYNCHRONIZING MODEL CONTEXT PROTOCOL TOOLS FOR LLM AGENTS

(文:PaperAgent)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往