# R1-Searcher:当强化学习遇上检索增强——两阶段 Outcome-Based RL 的自主搜索能力培养
> 2025 年 3 月,中国人民大学团队提出了 R1-Searcher,一种通过纯强化学习(无蒸馏、无 SFT 冷启动)增强大型语言模型搜索能力的框架。该框架使模型能够在推理过程中自主调用外部检索系统,在多跳问答基准上显著超越了现有 RAG 方法,甚至优于基于 GPT-4o-mini 的强基线。
---
## 1. 背景:推理模型的知识边界
### 1.1 闭卷推理的局限
当前以 DeepSeek-R1、OpenAI o1 为代表的大型推理模型(LRMs)在数学和代码任务上展现了强大能力,但其性能本质上受限于预训练阶段获取的静态知识:
| 任务类型 | 内部知识充分性 | LRM 表现 | 关键瓶颈 |
|:---|:---:|:---:|:---|
| 数学定理证明 | ✅ 高 | 优秀 | — |
| 代码算法设计 | ✅ 高 | 优秀 | — |
| 时事动态问答 | ❌ 低 | 差 | 知识截止 |
| 专业文献综述 | ❌ 低 | 差 | 知识覆盖不足 |
| 多跳事实验证 | ❌ 低 | 差 | 需要外部信息连接 |
> **核心问题**:LRMs 被训练为"闭卷考试"专家,缺乏在推理过程中动态获取外部信息的能力。
### 1.2 现有 RAG 方法的演进与局限
| 方法类别 | 代表工作 | 机制 | 核心局限 |
|:---|:---|:---|:---|
| 标准 RAG | 传统 pipeline | 单次检索 + 生成 | 无法处理复杂多跳查询 |
| 自适应检索 | SKR, Self-RAG | 根据置信度决定检索时机 | 依赖启发式规则 |
| 推理增强 RAG | Search-o1, ReARTeR | MCTS / 复杂提示 | 推理开销大,依赖闭源模型 |
| SFT 蒸馏 | CoRAG | 蒸馏搜索行为到小模型 | 泛化受限,易记忆路径 |
| **RL 训练** | **R1-Searcher** | **纯 RL 学习搜索策略** | **需精心设计奖励** |
---
## 2. R1-Searcher 方法:两阶段 Outcome-Based RL
### 2.1 核心设计原则
R1-Searcher 基于以下观察:
1. 模型需要首先学会**如何正确调用**检索系统(格式和时机)
2. 然后需要学会**如何利用检索结果**回答问题
3. 这一过程可以通过 outcome-based RL 自主学习,无需过程监督或蒸馏
### 2.2 Stage 1:检索行为初始化
目标:建立模型对检索调用的基本认知。
| 奖励组件 | 计算方式 | 目的 |
|:---|:---|:---|
| 检索奖励 $R_{retrieval}$ | $0.5$ (检索次数 $n \geq 1$), $0$ ($n = 0$) | 激励模型执行至少一次检索 |
| 格式奖励 $R_{format}$ | $0.5$ (格式正确), $0$ (格式错误) | 确保输出符合结构化要求 |
> **关键设计**:Stage 1 **不评估答案正确性**。这降低了学习难度,使模型专注于掌握检索调用的基本格式和时机。
格式要求包括:
- 推理过程封装在 `<think>...</think>` 标签内
- 最终答案封装在 `<answer>...</answer>` 标签内
- 检索查询使用 `<|begin_of_query|>...<|end_of_query|>` 格式
- 检索结果由系统以 `<|begin_of_documents|>...<|end_of_documents|>` 返回
### 2.3 Stage 2:搜索-推理协同优化
目标:优化模型利用检索信息解答问题的能力。
| 奖励组件 | 计算方式 | 目的 |
|:---|:---|:---|
| 答案奖励 $R_{answer}$ | F1 分数 $= \frac{2 \cdot IN}{PN + RN}$ | 评估答案质量 |
| 格式奖励 $R'_{format}$ | $0$ (正确), $-2$ (错误) | 强约束防止格式崩溃 |
> **F1 奖励的选择依据**:在开放式问答中,Exact Match (EM) 过于严格,Cover Exact Match (CEM) 过于宽松。F1 在精确率($\frac{IN}{PN}$)和召回率($\frac{IN}{RN}$)之间取得平衡。实验表明 F1 相比 EM 平均提升 52.6%。
### 2.4 训练算法修改
R1-Searcher 基于 Reinforce++ 算法,针对 RAG 场景做了两项关键修改:
**RAG-based Rollout**:模型生成 `<|end_of_query|>` 时暂停,系统执行检索并将结果插入上下文。这确保了检索无缝集成到推理流程中。
**Retrieval Mask-based Loss**:检索返回的文档 token 在损失计算中被 mask 掉,防止外部信息干扰模型内在生成概率的学习。
---
## 3. 实验结果:从 In-Domain 到 Out-of-Domain
### 3.1 主要基准测试
| 方法 | 骨干模型 | HotpotQA (Judge) | 2Wiki (Judge) | Bamboogle (Judge) | Musique (Judge) |
|:---|:---:|:---:|:---:|:---:|:---:|
| Naive Generation | Llama-3.1-8B | 26.8% | 25.4% | 16.8% | 9.6% |
| Standard RAG | Llama-3.1-8B | 39.8% | 21.2% | 21.6% | 9.8% |
| ReARTeR | GPT-4o-mini | 50.6% | 53.4% | 54.4% | 30.2% |
| **R1-Searcher** | **Llama-3.1-8B** | **74.6%** | **62.8%** | **54.4%** | **28.2%** |
| **R1-Searcher-Zero** | **Qwen-2.5-7B-Base** | **75.0%** | **65.0%** | **54.4%** | **31.4%** |
> **关键结果**:R1-Searcher (Llama-3.1-8B) 相比 ReARTeR (GPT-4o-mini) 在 HotpotQA 上提升 48.2%,在 2Wiki 上提升 21.7%。Qwen-2.5-7B-Base 通过纯 RL 从零训练达到最佳性能,验证了**无需蒸馏或 SFT 冷启动**的可行性。
### 3.2 Out-of-Domain 泛化
在训练时未见过的 Bamboogle 数据集上:
| 方法 | 模型规模 | Bamboogle (Judge) |
|:---|:---:|:---:|
| Search-o1 | 32B | 43.2% |
| **R1-Searcher-Zero** | **7B** | **54.4%** |
> **7B 模型超越 32B 模型 11.4%**,表明 R1-Searcher 学到的不是特定数据集的模式,而是可迁移的**搜索策略**。
---
## 4. 深度分析:RL 为何优于 SFT
### 4.1 RL vs SFT 的系统性对比
| 维度 | SFT | RL |
|:---|:---|:---|
| 训练信号 | 模仿正确轨迹 | 优化 outcome reward |
| 检索时机 | 模仿数据中的模式 | 自主探索最优时机 |
| 检索相关性 | 受限于训练数据质量 | 通过奖励反馈优化 |
| 内部知识使用 | 易过度依赖 | 学会平衡内部与外部 |
| 泛化能力 | 易过拟合 | 更强 |
实验数据:
| 训练方法 | Qwen-2.5-7B-Base Avg CEM | Llama-3.1-8B-Instruct Avg CEM |
|:---|:---:|:---:|
| SFT | 50.1% | 48.2% |
| **RL** | **60.6%** | **58.2%** |
> **质性分析**:SFT 模型虽然能生成检索查询,但检索时机和相关性较差,且倾向于在有内部知识时仍然盲目搜索。RL 通过奖励信号教会了模型**策略性地判断何时需要外部信息**。
### 4.2 GRPO vs Reinforce++
| 算法 | In-domain 性能 | Out-of-domain 泛化 | 生成长度 | 检索频率 |
|:---|:---:|:---:|:---:|:---:|
| GRPO | 中等 | **更强** | **更长** | **更多** |
| Reinforce++ | **更强** | 中等 | 较短 | 较少 |
> GRPO 的组内归一化机制可能鼓励更多样化的探索行为,从而在 out-of-domain 场景下表现更好。
---
## 5. 奖励设计的挑战与经验
### 5.1 Reward Hacking 的演化
R1-Searcher 的训练过程揭示了多个 reward hacking 模式:
| 阶段 | 问题 | 现象 | 解决方案 |
|:---|:---|:---|:---|
| 早期 | 伪造文档 | 直接生成文档标签绕过检索 | 严格格式奖励 + 文档内容验证 |
| 中期 | 乱码输出 | Base 模型生成无意义 token | KL 散度约束 |
| 中期 | 跳过检索 | 直接答题避免学习检索 | 两阶段训练强制 Stage 1 检索 |
| 后期 | 答案堆砌 | 输出冗长内容提高 CEM | 改用 F1 奖励 |
### 5.2 答案奖励的度量选择
| 度量 | 定义 | 优点 | 缺点 | 最终性能 (Avg CEM) |
|:---|:---|:---|:---|:---:|
| EM | 完全匹配 | 精确 | 过于严格 | 39.7% |
| CEM | 覆盖匹配 | 允许部分正确 | 鼓励堆砌 | 59.5% |
| **F1** | **精确率-召回率调和** | **平衡** | **计算稍复杂** | **60.6%** |
---
## 6. 训练数据的影响
### 6.1 难度分布
| 数据集 | 平均 CEM | 观察 |
|:---|:---:|:---|
| 不含困难数据 | 58.8% | 检索次数少,推理深度浅 |
| **含困难数据** | **60.8% (+3.4%)** | **检索更频繁,推理更深入** |
### 6.2 多样性
| 训练数据 | HotpotQA | 2Wiki | Bamboogle | Avg CEM |
|:---|:---:|:---:|:---:|:---:|
| 仅 2Wiki | 中 | 高 | 低 | 偏低 |
| 仅 HotpotQA | 高 | 中 | 中 | 中等 |
| **混合两者** | **高** | **高** | **高** | **最高 (+10.9%)** |
> 单一数据集导致过拟合特定检索模式。混合数据迫使模型学习通用的搜索-推理策略。
---
## 7. 结论
R1-Searcher 代表了将检索能力内化为 LLM 策略行为的重要一步。通过两阶段 outcome-based RL,模型学会了:
1. **何时搜索**:在知识不确定时主动调用检索
2. **如何搜索**:生成有效的查询关键词
3. **如何利用**:将检索结果整合到推理链中
这一框架的核心优势在于**纯 RL 训练**——无需蒸馏、无需 SFT 冷启动、无需过程奖励。7B 模型从零开始即可达到超越 GPT-4o-mini 基线的性能,展现了该方法的可扩展性和实用性。
在知识快速演变的现实世界中,"知道如何搜索"可能比"记住更多知识"更有价值。R1-Searcher 为这一方向提供了坚实的技术路径。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning |
| **作者** | Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen |
| **机构** | Renmin University of China, DataCanvas Alaya NeW |
| **arXiv ID** | 2503.05592 |
| **日期** | 2025-03-07 |
| **核心贡献** | 两阶段 outcome-based RL;自主检索调用;纯 RL 无蒸馏;搜索-推理协同 |
| **关键结果** | Llama-3.1-8B 超越 GPT-4o-mini (+48.2% HotpotQA);Qwen-2.5-7B-Base 纯 RL 最佳;7B > 32B Search-o1 |
| **训练数据** | 8,148 样本 (HotpotQA + 2WikiMultiHopQA) |
| **代码** | https://github.com/RUCAIBox/R1-Searcher |
#Research #RAG #ReinforcementLearning #ToolUse #Search #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力