RAG碰上RL,超越RAG?推理与搜索结合,用强化学习打破LLMs推理知识局限!

【编者按】近日,中国人民大学 STILL 项目团队联合九章云极 DataCanvas 发布突破性论文《R1-Searcher: 通过强化学习激励大模型的检索能力》。该论文提出了一种全新框架 R1-Searcher,旨在通过强化学习(RL)显著增强大型语言模型(LLMs)的推理与搜索能力,解决了现有模型处理知识密集型问题时的不足,在多跳问答、实时信息处理等场景展现出颠覆性潜力。据论文公布,九章云极DataCanvas AIaya NeW智算操作系统支撑该R1-Searcher工程部署。

为保持原文的完整性,本文将以原文第一人称的形式进行发布!

原文链接:https://mp.weixin.qq.com/s/Cb_cfRwEsM1bOG8QwnQOcg

作者|宋华彤

机构|中国人民大学

研究方向|自然语言处理

现有的大型推理模型(LRMs)已经展示了强化学习(RL)在增强大型语言模型(LLMs)复杂推理能力方面的潜力。虽然它们在数学和编程等具有挑战性的任务上表现出色,但它们通常依赖于内部知识来解决问题,这在处理时效性强或知识密集型问题时可能显得不足,从而导致不准确性和幻觉现象。为了解决这一问题,我们提出了R1-Searcher,这是一种新颖的基于结果的两阶段强化学习方法,旨在增强LLMs的搜索能力。该方法允许LLMs在推理过程中自主调用外部搜索系统以获取额外知识。我们的框架完全依赖于强化学习,无需过程奖励或冷启动时的蒸馏。

论文题目:R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
论文链接:https://arxiv.org/pdf/2503.05592
开源链接:
  • 代码仓库:https://github.com/SsmallSong/R1-Searcher
  • 模型:
    • Qwen-2.5-7B-Base-RAG-RL: https://huggingface.co/XXsongLALA/Qwen-2.5-7B-base-RAG-RL
    • Llama-3.1-8B-Instruct-RAG-RL: https://huggingface.co/XXsongLALA/Llama-3.1-8B-instruct-RAG-RL
  • 训练数据:https://huggingface.co/datasets/XXsongLALA/RAG-RL-Hotpotqa-with-2wiki

简介
大型推理模型(LRMs),例如 OpenAI-o1、DeepSeek-R1 和 Kimi-k1.5,已经展示了强化学习(RL)在增强大型语言模型(LLMs)推理能力方面的显著影响。然而,由于这些模型主要依赖内部知识,它们在处理开放式任务时可能会遇到困难,尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。这种依赖可能导致不准确性和幻觉现象。因此,使 LLMs 在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。
在本文中,我们介绍了 R1-Searcher,这是一种新颖的框架,旨在通过强化学习(RL)增强 LLMs 的 RAG 能力。我们的核心动机是通过模型探索外部检索环境,激励 LLMs 的检索能力。为此,我们设计了一种基于结果奖励的两阶段 RL 方法,使模型能够通过定制的奖励设计,在推理过程中自由探索如何调用外部检索系统以获取相关知识。我们的方法完全依赖于基于结果奖励的 RL,允许模型通过探索和学习自主学习,无需任何蒸馏或通过 SFT 进行冷启动。为了支持 LLMs 与外部检索环境在训练过程中的探索,我们进一步提出了一种基于Reinforce++ 的改进 RL 训练方法,该方法结合了 RAG-based Rollout 和  Retrieval Mask-Based Loss Calculation 两种改进以适应检索增强生成的场景。

研究方法
我们使用两阶段结果监督强化学习,整体基于 Reinforce++算法。在第一阶段,模型被训练以有效利用外部检索系统,在第二阶段,模型被训练在推理过程中整合检索,以准确解答问题。我们通过奖励设计实现两阶段训练:
  • 第一阶段,reward由retrieval-reward和format-reward组成,如果模型在推理过程中进行了检索,就会得到retrieval-reward,旨在让模型学会调用工具的格式;
  • 第二阶段,retrieval-reward被替换为answer-reward,让模型更自由地进行探索,answer-reward是标准答案和预测答案的F1-Score,旨在让模型学会正确调用工具解决问题。
另外,我们对Reinforce++算法进行了修改以适应检索增强生成场景。我们的目标是让模型在面对不确定性时能够自主获取外部知识,从而有效整合推理和检索。为了无缝整合检索到的文档并确保模型优化的合理性,我们对原始算法进行了两项改进:RAG-based Rollout和Retrieval Mask-based Loss Calculation:
  • RAG-based Rollout:我们使用标签<begin_of_query>…<end_of_query>来引导模型在生成过程中调用外部检索系统。捕捉到模型需要进行检索时,推理暂停并进行检索。检索到的文档被封装在<begin_of_documents>…<end_of_documents>标签中,并整合到模型的推理过程中。这种方法确保检索无缝融入推理过程,使模型能够基于检索到的文档继续推理,而不被打断。
  • Retrieval Mask-based Loss Calculation:当模型执行检索时,检索到的文档作为环境观察的一部分被整合到推理过程中。然而,模型并不需要自主生成这些文档。为了减少环境的影响,我们将<begin_of_documents>…<end_of_documents>指定为特殊标记,并在训练中对其进行掩码处理。这可以防止这些外部标记影响损失计算,确保检索到的文档不会干扰模型的内在推理和生成过程。

实验结果
如下表所示,我们的方法R1-Searcher:
  • 在多跳问答任务上实现显著的性能提升:相比于最好的基线ReARTeR,R1-Searcher,使用相同的LLaMA-3.1-8B-Instruct作为backbone,实现了显著的性能提升:在HotpotQA上提升了**48.2%,在2WikiMultiHopQA上提升了21.7%,在Bamboogle上提升了4.0%**(LLM-as-Judge)。这表明我们的方法可以有效地促进模型在推理过程中进行准确的检索调用。
  • 从基础LLM开始进行RL学习,无需冷启动:我们从头开始使用强大的基础模型(如Qwen-2.5-7B-Base)进行RL学习。令人惊讶的是,我们能够取得更好的结果,并在大多数领域内和领域外的数据集上获得最佳性能,甚至超过了闭源的LLM,如GPT-4o-mini。这些结果展示了我们的两阶段RL方法在指导LLMs学习过程中的有效性。
  • 保持泛化能力:我们仅使用HotpotQA和2WikiMultiHopQA训练集中的8148个样本进行RL训练。该模型不仅在这些领域内数据集上表现出色,还在领域外数据集(如Musique和Bamboogle)上展示了强大的泛化能力。这表明模型通过在RL训练期间的探索,有效地学习了检索并将其与推理相结合,从而在需要检索的新测试数据集上实现稳健的性能。
另外,为了评估模型对于联网搜索泛化能力,我们在最新提出的Bamboogle任务上进行联网搜索的测试,这种设定在RL训练期间并未遇到。如下图所示,我们的模型相较于使用相同Qwen-2.5-7B-Base作为backbone的本地检索系统,性能提升了18.2%。此外,与使用相同在线搜索但骨干模型更大的32B的Search-o1相比,我们的模型性能提升了11.4%。这表明我们的模型能够适应在线搜索场景,并且R1-Searcher使模型能够在推理过程中检索信息,而不仅仅是记忆响应格式。

更多讨论
我们针对以下问题进行了更详细的实验和分析,完整的分析请看原论文:
  1. GRPO和Reinforce++算法的比较
  • 结论:GRPO的生成solution更长和检索频率更高。GRPO在领域外测试数据集(如Bamboogle)上也展现出更好的性能;而Reinforce++在领域内测试集(如HotpotQA和2Wiki)上表现更优。
  1. RL和SFT的比较
  • 结论:RL在领域内和领域外的测试集上均优于SFT。SFT能够帮助模型生成检索查询,但这些查询的时机和相关性不如通过RL训练生成的查询。
  1. Reward的设计对训练的影响
  • 结论:基于F1的答案奖励能够产生更长的回答长度和更优的最终结果;基于EM的奖励在训练过程中导致回答长度较短,并且在测试时表现不如基于CEM或F1的奖励;基于CEM的奖励会生成带有不必要信息的偏长的answer。
  1. 数据难度分布和数据多样性对训练的影响
  • 结论:使用混合数据集训练的模型在检索次数和生成回答长度上都有所增加,并且在测试集上取得了更高的分数;训练数据中混入较高难度的数据可以在领域内和领域外的测试集上均取得更好的效果。

案例展示

完成团队

  • Huatong Song*, Jinhao Jiang*, Yingqian Min, Jie Chen, Zhipeng Chen, Lei Fang, Wayne Xin Zhao, Ji-Rong Wen
  • DataCanvas Alaya NeW

由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将于 4 月 18-19 日在上海隆重举行。大会云集院士、10 所高校科研工作者、近 30 家一线科技企业技术实战专家组成的超 50 位重磅嘉宾。他们将以独特的视角,解读智能体、联邦学习、多模态大模型、强化学习等前沿议题。无论你是科研学者、技术专家,还是行业从业者,都将在这里收获前沿洞见和实践经验,共同推动 AI 时代的技术变革与应用落地。

(文:AI科技大本营)

发表评论