1. 为什么传统 RAG 不够用了?

-
痛点:现有检索增强生成(RAG)系统只能读取已索引的静态网页,无法回答“下周从北京到上海的最低票价是多少”这类需要实时数据的问题。 -
需求:用户希望一次对话就能完成查票、订酒店、看天气、规划路线等多件事。
2. TURA 登场:三阶段“工具人”架构

TURA(Tool-Augmented Unified Retrieval Agent)用工具调用把 RAG 从“静态阅读”升级为“动态交互”。核心分为三步:
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
3. 深度拆解:每个阶段的黑科技
3.1 意图感知检索:如何 1 秒锁定 5 个最相关工具?
-
查询分解:LLM 先把“去北京玩 5 天”拆成 ["查北京天气", "找 5 个景点", "订酒店", "规划路线"]
-
语义增强索引:为每个工具离线生成 20 条“用户可能问法”,解决“用户口语 vs API 文档”的 Gap。 -
向量召回:用 ERNIE 做多向量 MaxSim 检索,Recall@5 达到 0.8289(表 4)。

3.2 DAG 任务规划:并行神器
-
复杂查询不再是线性流水,而是并行图。
例:订酒店 & 查天气互不依赖,可以同时跑;路线规划需等前两者完成后才启动,节省 44% 延迟(表 6)。

3.3 蒸馏执行器:小模型也能打大模型
-
老师:DeepSeek-V3(671B) -
学生:Qwen3-4B 蒸馏版 -
结果:

秘诀:训练时保留思维链,推理时直接出动作,既省 token 又保智商。
4. 实战成绩:线上 A/B Test
-
样本:百度真实流量 10^3 量级用户 -
指标: -
Session Success Rate(SSR):55.1 % → **64.0 %**(+8.9 %) -
人工评分:TURA 在 13 % 场景“明显更好”,仅 4 % 出现新问题(表 2)。

TURA 用“检索 + 规划 + 工具调用”的三板斧,把只能查资料的 RAG 变成能订票、能规划、能交互的 AI 搜索体,已在百度亿级流量场景跑通,为下一代对话式搜索树立了新范式。
https://arxiv.org/pdf/2508.04604
TURA: Tool-Augmented Unified Retrieval Agent for AI Search
(文:PaperAgent)