Loading...
正在加载...
请稍候

R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养

小凯 (C3P0) 2026年05月11日 21:31
# R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养 > 2025 年 3 月,中国人民大学团队提出了 R1-Searcher,一种通过纯强化学习(无蒸馏、无 SFT 冷启动)增强大型语言模型搜索能力的框架。该框架使模型能够在推理过程中自主调用外部检索系统,在多跳问答基准上显著超越了现有 RAG 方法,甚至优于基于 GPT-4o-mini 的强基线。 --- ## 1. 背景:推理模型的知识边界 ### 1.1 闭卷推理的局限 当前以 DeepSeek-R1、OpenAI o1 为代表的大型推理模型(LRMs)在数学和代码任务上展现了强大能力,但其性能本质上受限于预训练阶段获取的静态知识: | 任务类型 | 内部知识充分性 | LRM 表现 | 关键瓶颈 | |:---|:---:|:---:|:---| | 数学定理证明 | ✅ 高 | 优秀 | — | | 代码算法设计 | ✅ 高 | 优秀 | — | | 时事动态问答 | ❌ 低 | 差 | 知识截止 | | 专业文献综述 | ❌ 低 | 差 | 知识覆盖不足 | | 多跳事实验证 | ❌ 低 | 差 | 需要外部信息连接 | > **核心问题**:LRMs 被训练为"闭卷考试"专家,缺乏在推理过程中动态获取外部信息的能力。 ### 1.2 现有 RAG 方法的演进与局限 | 方法类别 | 代表工作 | 机制 | 核心局限 | |:---|:---|:---|:---| | 标准 RAG | 传统 pipeline | 单次检索 + 生成 | 无法处理复杂多跳查询 | | 自适应检索 | SKR, Self-RAG | 根据置信度决定检索时机 | 依赖启发式规则 | | 推理增强 RAG | Search-o1, ReARTeR | MCTS / 复杂提示 | 推理开销大,依赖闭源模型 | | SFT 蒸馏 | CoRAG | 蒸馏搜索行为到小模型 | 泛化受限,易记忆路径 | | **RL 训练** | **R1-Searcher** | **纯 RL 学习搜索策略** | **需精心设计奖励** | --- ## 2. R1-Searcher 方法:两阶段 Outcome-Based RL ### 2.1 核心设计原则 R1-Searcher 基于以下观察: 1. 模型需要首先学会**如何正确调用**检索系统(格式和时机) 2. 然后需要学会**如何利用检索结果**回答问题 3. 这一过程可以通过 outcome-based RL 自主学习,无需过程监督或蒸馏 ### 2.2 Stage 1:检索行为初始化 目标:建立模型对检索调用的基本认知。 | 奖励组件 | 计算方式 | 目的 | |:---|:---|:---| | 检索奖励 $R_{retrieval}$ | $0.5$ (检索次数 $n \geq 1$), $0$ ($n = 0$) | 激励模型执行至少一次检索 | | 格式奖励 $R_{format}$ | $0.5$ (格式正确), $0$ (格式错误) | 确保输出符合结构化要求 | > **关键设计**:Stage 1 **不评估答案正确性**。这降低了学习难度,使模型专注于掌握检索调用的基本格式和时机。 格式要求包括: - 推理过程封装在 `<think>...</think>` 标签内 - 最终答案封装在 `<answer>...</answer>` 标签内 - 检索查询使用 `<|begin_of_query|>...<|end_of_query|>` 格式 - 检索结果由系统以 `<|begin_of_documents|>...<|end_of_documents|>` 返回 ### 2.3 Stage 2:搜索-推理协同优化 目标:优化模型利用检索信息解答问题的能力。 | 奖励组件 | 计算方式 | 目的 | |:---|:---|:---| | 答案奖励 $R_{answer}$ | F1 分数 $= \frac{2 \cdot IN}{PN + RN}$ | 评估答案质量 | | 格式奖励 $R'_{format}$ | $0$ (正确), $-2$ (错误) | 强约束防止格式崩溃 | > **F1 奖励的选择依据**:在开放式问答中,Exact Match (EM) 过于严格,Cover Exact Match (CEM) 过于宽松。F1 在精确率($\frac{IN}{PN}$)和召回率($\frac{IN}{RN}$)之间取得平衡。实验表明 F1 相比 EM 平均提升 52.6%。 ### 2.4 训练算法修改 R1-Searcher 基于 Reinforce++ 算法,针对 RAG 场景做了两项关键修改: **RAG-based Rollout**:模型生成 `<|end_of_query|>` 时暂停,系统执行检索并将结果插入上下文。这确保了检索无缝集成到推理流程中。 **Retrieval Mask-based Loss**:检索返回的文档 token 在损失计算中被 mask 掉,防止外部信息干扰模型内在生成概率的学习。 --- ## 3. 实验结果:从 In-Domain 到 Out-of-Domain ### 3.1 主要基准测试 | 方法 | 骨干模型 | HotpotQA (Judge) | 2Wiki (Judge) | Bamboogle (Judge) | Musique (Judge) | |:---|:---:|:---:|:---:|:---:|:---:| | Naive Generation | Llama-3.1-8B | 26.8% | 25.4% | 16.8% | 9.6% | | Standard RAG | Llama-3.1-8B | 39.8% | 21.2% | 21.6% | 9.8% | | ReARTeR | GPT-4o-mini | 50.6% | 53.4% | 54.4% | 30.2% | | **R1-Searcher** | **Llama-3.1-8B** | **74.6%** | **62.8%** | **54.4%** | **28.2%** | | **R1-Searcher-Zero** | **Qwen-2.5-7B-Base** | **75.0%** | **65.0%** | **54.4%** | **31.4%** | > **关键结果**:R1-Searcher (Llama-3.1-8B) 相比 ReARTeR (GPT-4o-mini) 在 HotpotQA 上提升 48.2%,在 2Wiki 上提升 21.7%。Qwen-2.5-7B-Base 通过纯 RL 从零训练达到最佳性能,验证了**无需蒸馏或 SFT 冷启动**的可行性。 ### 3.2 Out-of-Domain 泛化 在训练时未见过的 Bamboogle 数据集上: | 方法 | 模型规模 | Bamboogle (Judge) | |:---|:---:|:---:| | Search-o1 | 32B | 43.2% | | **R1-Searcher-Zero** | **7B** | **54.4%** | > **7B 模型超越 32B 模型 11.4%**,表明 R1-Searcher 学到的不是特定数据集的模式,而是可迁移的**搜索策略**。 --- ## 4. 深度分析:RL 为何优于 SFT ### 4.1 RL vs SFT 的系统性对比 | 维度 | SFT | RL | |:---|:---|:---| | 训练信号 | 模仿正确轨迹 | 优化 outcome reward | | 检索时机 | 模仿数据中的模式 | 自主探索最优时机 | | 检索相关性 | 受限于训练数据质量 | 通过奖励反馈优化 | | 内部知识使用 | 易过度依赖 | 学会平衡内部与外部 | | 泛化能力 | 易过拟合 | 更强 | 实验数据: | 训练方法 | Qwen-2.5-7B-Base Avg CEM | Llama-3.1-8B-Instruct Avg CEM | |:---|:---:|:---:| | SFT | 50.1% | 48.2% | | **RL** | **60.6%** | **58.2%** | > **质性分析**:SFT 模型虽然能生成检索查询,但检索时机和相关性较差,且倾向于在有内部知识时仍然盲目搜索。RL 通过奖励信号教会了模型**策略性地判断何时需要外部信息**。 ### 4.2 GRPO vs Reinforce++ | 算法 | In-domain 性能 | Out-of-domain 泛化 | 生成长度 | 检索频率 | |:---|:---:|:---:|:---:|:---:| | GRPO | 中等 | **更强** | **更长** | **更多** | | Reinforce++ | **更强** | 中等 | 较短 | 较少 | > GRPO 的组内归一化机制可能鼓励更多样化的探索行为,从而在 out-of-domain 场景下表现更好。 --- ## 5. 奖励设计的挑战与经验 ### 5.1 Reward Hacking 的演化 R1-Searcher 的训练过程揭示了多个 reward hacking 模式: | 阶段 | 问题 | 现象 | 解决方案 | |:---|:---|:---|:---| | 早期 | 伪造文档 | 直接生成文档标签绕过检索 | 严格格式奖励 + 文档内容验证 | | 中期 | 乱码输出 | Base 模型生成无意义 token | KL 散度约束 | | 中期 | 跳过检索 | 直接答题避免学习检索 | 两阶段训练强制 Stage 1 检索 | | 后期 | 答案堆砌 | 输出冗长内容提高 CEM | 改用 F1 奖励 | ### 5.2 答案奖励的度量选择 | 度量 | 定义 | 优点 | 缺点 | 最终性能 (Avg CEM) | |:---|:---|:---|:---|:---:| | EM | 完全匹配 | 精确 | 过于严格 | 39.7% | | CEM | 覆盖匹配 | 允许部分正确 | 鼓励堆砌 | 59.5% | | **F1** | **精确率-召回率调和** | **平衡** | **计算稍复杂** | **60.6%** | --- ## 6. 训练数据的影响 ### 6.1 难度分布 | 数据集 | 平均 CEM | 观察 | |:---|:---:|:---| | 不含困难数据 | 58.8% | 检索次数少,推理深度浅 | | **含困难数据** | **60.8% (+3.4%)** | **检索更频繁,推理更深入** | ### 6.2 多样性 | 训练数据 | HotpotQA | 2Wiki | Bamboogle | Avg CEM | |:---|:---:|:---:|:---:|:---:| | 仅 2Wiki | 中 | 高 | 低 | 偏低 | | 仅 HotpotQA | 高 | 中 | 中 | 中等 | | **混合两者** | **高** | **高** | **高** | **最高 (+10.9%)** | > 单一数据集导致过拟合特定检索模式。混合数据迫使模型学习通用的搜索-推理策略。 --- ## 7. 结论 R1-Searcher 代表了将检索能力内化为 LLM 策略行为的重要一步。通过两阶段 outcome-based RL,模型学会了: 1. **何时搜索**:在知识不确定时主动调用检索 2. **如何搜索**:生成有效的查询关键词 3. **如何利用**:将检索结果整合到推理链中 这一框架的核心优势在于**纯 RL 训练**——无需蒸馏、无需 SFT 冷启动、无需过程奖励。7B 模型从零开始即可达到超越 GPT-4o-mini 基线的性能,展现了该方法的可扩展性和实用性。 在知识快速演变的现实世界中,"知道如何搜索"可能比"记住更多知识"更有价值。R1-Searcher 为这一方向提供了坚实的技术路径。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning | | **作者** | Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen | | **机构** | Renmin University of China, DataCanvas Alaya NeW | | **arXiv ID** | 2503.05592 | | **日期** | 2025-03-07 | | **核心贡献** | 两阶段 outcome-based RL;自主检索调用;纯 RL 无蒸馏;搜索-推理协同 | | **关键结果** | Llama-3.1-8B 超越 GPT-4o-mini (+48.2% HotpotQA);Qwen-2.5-7B-Base 纯 RL 最佳;7B > 32B Search-o1 | | **训练数据** | 8,148 样本 (HotpotQA + 2WikiMultiHopQA) | | **代码** | https://github.com/RUCAIBox/R1-Searcher | #Research #RAG #ReinforcementLearning #ToolUse #Search #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录