1.研究团队提出了R1-Searcher,一种新颖的基于结果的两阶段强化学习方法,旨在增强大型语言模型的搜索能力。
2.R1-Searcher方法完全依赖于强化学习,无需过程奖励或冷启动时的蒸馏,现已上线始智AI-wisemodel开源社区。
3.通过奖励设计,研究团队实现了两阶段训练,使模型能够在推理过程中自主调用外部搜索系统以获取额外知识。
4.实验结果显示,R1-Searcher在多跳问答任务领域展现出非凡实力,具有多方面突出特点。
5.此外,研究团队还分析了不同奖励设计、数据难度分布和数据多样性对训练的影响。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
大型推理模型(LRMs),例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5,已经展示了强化学习(RL)在增强大型语言模型(LLMs)推理能力方面的显著影响。
然而,由于这些模型主要依赖内部知识,它们在处理开放式任务时可能会遇到困难,尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。
这种依赖可能导致不准确性和幻觉现象。因此,使LLMs在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。
文章介绍了R1-Searcher,这是一种新颖的框架,旨在通过强化学习(RL)增强LLMs的RAG能力。核心动机是通过模型探索外部检索环境,激励LLMs的检索能力。
为此,研究团队设计了一种基于结果奖励的两阶段RL方法,使模型能够通过定制的奖励设计,在推理过程中自由探索如何调用外部检索系统以获取相关知识。
研究团队的方法完全依赖于基于结果奖励的RL,允许模型通过探索和学习自主学习,无需任何蒸馏或通过SFT进行冷启动。为了支持LLMs与外部检索环境在训练过程中的探索,研究团队进一步提出了一种基于Reinforce++的改进RL训练方法,该方法结合了 RAG-based Rollout 和 Retrieval Mask-Based Loss Calculation两种改进以适应检索增强生成的场景。
团队使用两阶段结果监督强化学习,整体基于Reinforce++算法。在第一阶段,模型被训练以有效利用外部检索系统,在第二阶段,模型被训练在推理过程中整合检索,以准确解答问题。研究团队通过奖励设计实现两阶段训练:
第一阶段,reward由retrieval-reward和format-reward组成,如果模型在推理过程中进行了检索,就会得到retrieval-reward,旨在让模型学会调用工具的格式;
第二阶段,retrieval-reward被替换为answer-reward,让模型更自由地进行探索,answer-reward是标准答案和预测答案的F1-Score,旨在让模型学会正确调用工具解决问题。
另外,研究团队对Reinforce++算法进行了修改以适应检索增强生成场景。研究团队的目标是让模型在面对不确定性时能够自主获取外部知识,从而有效整合推理和检索。
为了无缝整合检索到的文档并确保模型优化的合理性,研究团队对原始算法进行了两项改进:RAG-based Rollout和Retrieval Mask-based Loss Calculation。
RAG-based Rollout: 研究团队使用标签...来引导模型在生成过程中调用外部检索系统。捕捉到模型需要进行检索时,推理暂停并进行检索。检索到的文档被封装在...标签中,并整合到模型的推理过程中。这种方法确保检索无缝融入推理过程,使模型能够基于检索到的文档继续推理,而不被打断。
Retrieval Mask-based Loss Calculation:当模型执行检索时,检索到的文档作为环境观察的一部分被整合到推理过程中。然而,模型并不需要自主生成这些文档。为了减少环境的影响,研究团队将...指定为特殊标记,并在训练中对其进行掩码处理。这可以防止这些外部标记影响损失计算,确保检索到的文档不会干扰模型的内在推理和生成过程。
团队独特的R1-Searcher方法,在多跳问答任务领域展现出非凡实力,具有多方面突出特点。
多跳问答性能飞跃:相比于最好的基线ReARTeR,R1-Searcher使用相同的LLaMA-3.1-8B-Instruct作为backbone,实现了显著的性能提升:在HotpotQA上提升了48.2%,在2WikiMultiHopQA上提升了21.7%,在Bamboogle上提升了4.0%(LLM-as-Judge)。这表明团队的方法可以有效地促进模型在推理过程中进行准确的检索调用。令人惊讶的是,团队能够取得更好的结果,并在大多数领域内和领域外的数据集上获得最佳性能,甚至超过了闭源的LLM,如GPT-4o-mini。这些结果展示了研究团队的两阶段RL方法在指导LLMs学习过程中的有效性。
泛化能力出色保持:研究团队仅使用HotpotQA和2WikiMultiHopQA训练集中的8148个样本进行RL训练。该模型不仅在这些领域内数据集上表现出色,还在领域外数据集(如Musique和Bamboogle)上展示了强大的泛化能力。这表明模型通过在RL训练期间的探索,有效地学习了检索并将其与推理相结合,从而在需要检索的新测试数据集上实现稳健的性能。
另外,为了评估模型对于联网搜索泛化能力,研究团队在最新提出的Bamboogle任务上进行联网搜索的测试,这种设定在RL训练期间并未遇到。
如下图所示,研究团队的模型相较于使用相同Qwen-2.5-7B-Base作为backbone的本地检索系统,性能提升了18.2%。
此外,与使用相同在线搜索但骨干模型更大的32B的Search-o1相比,研究团队的模型性能提升了11.4%。这表明该模型能够适应在线搜索场景,并且R1-Searcher使模型能够在推理过程中检索信息,而不仅仅是记忆响应格式。
针对以下问题进行了更详细的实验和分析,完整的分析请看原论文:
GRPO和Reinforce++算法的比较
结论:GRPO的生成solution更长和检索频率更高。GRPO在领域外测试数据集(如Bamboogle)上也展现出更好的性能;而Reinforce++在领域内测试集(如HotpotQA和2Wiki)上表现更优。
RL和SFT的比较
结论:RL在领域内和领域外的测试集上均优于SFT。SFT能够帮助模型生成检索查询,但这些查询的时机和相关性不如通过RL训练生成的查询。
Reward的设计对训练的影响
结论:基于F1的答案奖励能够产生更长的回答长度和更优的最终结果;基于EM的奖励在训练过程中导致回答长度较短,并且在测试时表现不如基于CEM或F1的奖励;基于CEM的奖励会生成带有不必要信息的偏长的answer。
数据难度分布和数据多样性对训练的影响
结论:使用混合数据集训练的模型在检索次数和生成回答长度上都有所增加,并且在测试集上取得了更高的分数;训练数据中混入较高难度的数据可以在领域内和领域外的测试集上均取得更好的效果。
编辑丨赵雅鑫