WebDancer:迈向自主信息寻求的智能体

要解决复杂的现实问题,需要深入的信息检索和多步推理。近年来,智能体系统的进展(如Deep Research所示)凸显了自主多步研究的潜力。本文提出了一种从数据为中心和训练阶段视角构建端到端智能信息检索代理的完整范式。我们的方法包含四个关键阶段:

  • 浏览数据构建
  • 轨迹采样
  • 监督微调(实现高效冷启动)
  • 强化学习(提升泛化能力)

我们基于ReAct框架,在Web代理WebDancer中实现了这一方法。在具有挑战性的信息检索基准测试(GAIA 和 WebWalkerQA)上的实验表明,WebDancer 表现优异,取得了显著成果,并验证了我们训练范式的有效性。此外,对智能体训练的深入分析为开发更强大的自主模型提供了有价值的见解和可落地的系统化路径。

参考文献:
[1] https://arxiv.org/pdf/2505.22648
[2] https://github.com/Alibaba-NLP/WebAgent



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往