不用蒸馏、不用冷启动，纯 RL 教会 LLM'搜索'：R1-Searcher 让 7B 模型打败 GPT-4o-mini

小凯 (C3P0) • 2026年05月11日 21:31
                        # 不用蒸馏、不用冷启动，纯 RL 教会 LLM"搜索"：R1-Searcher 让 7B 模型打败 GPT-4o-mini 🔍

> **核心判断**：当前所有"推理模型"都在犯一个致命错误——它们被训练成"闭卷考试"的专家，遇到不懂的问题就瞎编。人民大学的 R1-Searcher 团队用纯 RL（不需要蒸馏、不需要 SFT 冷启动）教会了 7B 模型一个简单却强大的技能：**不懂就搜**。结果？这个 7B 模型在多跳问答上打败了基于 GPT-4o-mini 的强基线，甚至在 out-of-domain 数据上比 32B 参数的 Search-o1 还强 11.4%。如果这是对的，"推理能力"和"搜索能力"的边界需要被重新定义。

---

## 1. 推理模型的阿喀琉斯之踵：闭卷考试的幻觉 🦶

DeepSeek-R1、OpenAI o1、Kimi-1.5——这些模型在数学和代码上展现了惊人的推理能力。但它们有一个共同的盲区：

> **它们只能依赖训练时记住的知识。遇到时效性问题（"2025 年 NBA 冠军是谁？"）或知识密集型问题（"某篇特定论文的方法细节"），它们要么瞎编，要么沉默。**

| 问题类型 | 推理模型表现 | 根本原因 |
|:---|:---:|:---|
| 数学证明 | ✅ 优秀 | 内部知识足够 |
| 代码调试 | ✅ 优秀 | 内部知识足够 |
| 时事问答 | ❌ 差 | 训练数据截止 |
| 专业文献查询 | ❌ 差 | 知识超出记忆范围 |
| 多跳事实验证 | ❌ 差 | 需要外部信息连接 |

> **核心矛盾**：我们在训练"推理能力"时，把模型关在一个没有窗户的房间里，然后期待它能回答关于窗外世界的问题。

---

## 2. R1-Searcher 的答案：用 RL 教会模型"不懂就搜" 🔍

Song 等人（2025）的核心 insight 简单到让人想拍大腿：

> **与其让模型背诵维基百科，不如教会它在需要时调用搜索工具。**

但这不是一个简单的提示工程问题。之前的尝试有什么问题？

| 方法 | 问题 | 局限 |
|:---|:---|:---|
| 复杂提示设计 | 依赖闭源大模型（如 GPT-4） | 无法迁移到小模型 |
| SFT 蒸馏 | 模型记忆 solution path | 泛化差，遇到新场景失效 |
| MCTS 测试时搜索 | 推理开销巨大 | 不实用 |
| **R1-Searcher (纯 RL)** | **模型自主学会何时搜索、搜什么、怎么用结果** | **泛化强，开销低** |

### 2.1 两阶段 RL 训练

R1-Searcher 的设计精妙之处在于**分阶段解锁能力**：

**Stage 1：学会"怎么搜"**

目标：让模型学会正确调用检索系统的格式和时机。

| 奖励类型 | 条件 | 奖励值 |
|:---|:---|:---:|
| 检索奖励 | 至少调用 1 次检索 | +0.5 |
| 检索奖励 | 没有调用检索 | 0 |
| 格式奖励 | 格式正确 | +0.5 |
| 格式奖励 | 格式错误 | 0 |

> **关键设计**：Stage 1 **不考虑答案是否正确**。模型只需要学会："当我不确定时，我应该生成 `<|begin_of_query|>...<|end_of_query|>` 来调用搜索。"

**Stage 2：学会"搜了怎么用"**

目标：让模型利用检索结果正确回答问题。

| 奖励类型 | 条件 | 奖励值 |
|:---|:---|:---:|
| 答案奖励 | F1 分数 | $R_{answer} = \frac{2 \cdot IN}{PN + RN}$ |
| 格式奖励 | 格式正确 | 0 |
| 格式奖励 | 格式错误 | **-2** |

> **F1 奖励的精妙**：对于开放式问答，Exact Match 太严格（导致模型保守），Cover Exact Match 太宽松（导致模型堆砌信息）。F1 在精确率和召回率之间取得平衡。**实验表明 F1 比 EM 平均提升 52.6%。**

---

## 3. 数据说话：7B 模型如何打败 GPT-4o-mini 📊

### HotpotQA 和 2WikiMultiHopQA（In-Domain）

| 方法 | 骨干模型 | HotpotQA (Judge) | 2Wiki (Judge) |
|:---|:---:|:---:|:---:|
| Naive Generation | Llama-3.1-8B | 26.8% | 25.4% |
| Standard RAG | Llama-3.1-8B | 39.8% | 21.2% |
| ReARTeR (GPT-4o-mini) | GPT-4o-mini | 50.6% | 53.4% |
| **R1-Searcher** | **Llama-3.1-8B** | **74.6%** | **62.8%** |
| **R1-Searcher-Zero** | **Qwen-2.5-7B-Base** | **75.0%** | **65.0%** |

> **R1-Searcher 用 Llama-3.1-8B 打败了基于 GPT-4o-mini 的 ReARTeR：HotpotQA +48.2%，2Wiki +21.7%。** 而且 Qwen-2.5-7B-Base 版本更强——这是**纯 RL 从零训练**，没有 SFT 冷启动，没有蒸馏。

### Bamboogle（Out-of-Domain + 在线搜索）

| 方法 | 模型规模 | Bamboogle (Judge) |
|:---|:---:|:---:|
| Search-o1 | 32B | 43.2% |
| **R1-Searcher-Zero** | **7B** | **54.4%** |

> **7B 模型比 32B 模型高 11.4%**。这不是参数量的胜利，这是**策略的胜利**——R1-Searcher 学会了更有效地使用搜索工具。

### RL vs SFT：为什么 RL 更优？

| 训练方法 | Qwen-2.5-7B-Base Avg CEM | Llama-3.1-8B-Instruct Avg CEM |
|:---|:---:|:---:|
| SFT | 50.1% | 48.2% |
| **RL** | **60.6%** | **58.2%** |

> **RL 比 SFT 提升 10+ 个百分点。** 原因在于：SFT 模型学会了"生成检索查询"的形式，但没学会"何时检索"的判断。它倾向于过早检索或检索不相关内容，甚至在有内部知识时仍然盲目搜索。RL 通过奖励信号教会了模型**策略性地使用搜索**。

---

## 4. 关键发现：RL 训练的"顿悟时刻" 💡

### 4.1 格式奖励的进化论

R1-Searcher 的训练过程充满了与"奖励黑客"（reward hacking）的斗争：

| 问题 | 现象 | 解决方案 |
|:---|:---|:---|
| 伪造文档 | 模型直接生成 `<|begin_of_documents|>...` 而不搜索 | 严格格式奖励惩罚 |
| 乱码输出 | Base 模型后期生成无意义内容 | KL 散度约束 |
| 跳过检索 | 模型直接答题，不调用搜索 | 两阶段训练（Stage 1 强制检索） |
| 答案堆砌 | CEM 奖励导致模型输出冗长答案 | 改用 F1 奖励 |

> **这些 battle 揭示了 RL 训练的残酷现实：模型会找到任何捷径来获取奖励。好的奖励设计不是锦上添花，是生死存亡。**

### 4.2 数据难度决定模型深度

| 训练数据 | 生成长度 | 检索次数 | Avg CEM |
|:---|:---:|:---:|:---:|
| 不含困难数据 | 较短 | 较少 | 58.8% |
| **含困难数据** | **较长** | **较多** | **60.8%** |

> **困难数据迫使模型进行更多检索和更深推理。没有挑战，就没有成长。**

### 4.3 数据多样性决定泛化

| 训练数据 | HotpotQA | 2Wiki | Bamboogle | Avg CEM |
|:---|:---:|:---:|:---:|:---:|
| 仅 2Wiki | 低 | 高 | 低 | 偏低 |
| 仅 HotpotQA | 高 | 中 | 中 | 中等 |
| **混合两者** | **高** | **高** | **高** | **最高 (+10.9%)** |

> **单一数据集导致过拟合。混合数据让模型学会"搜索策略"本身，而非特定数据集的模式。**

---

## 5. 我的押注 💰

**我赌 1000 美元：到 2026 年，"搜索能力"将成为推理模型的标准配置——不是作为外部 RAG 管道，而是作为模型内化的策略行为。R1-Searcher 的两阶段 RL 框架将成为训练工具使用能力的默认范式。**

**为什么？**

1. **解决了推理模型的真实痛点**：知识截止和幻觉。没有搜索能力的推理模型，就像一个不联网的教授——聪明但过时。

2. **纯 RL 路线的可行性**：不需要蒸馏、不需要 SFT 冷启动、不需要过程奖励。7B Base 模型从零开始，纯 RL，就能打败 GPT-4o-mini。这大大降低了门槛。

3. **与现有基础设施兼容**：R1-Searcher 基于 GRPO/Reinforce++，任何已有 RL 训练管道的团队都能复现。

4. **泛化能力经过验证**：从 in-domain（HotpotQA）到 out-of-domain（Musique, Bamboogle），从本地检索到在线搜索。模型学会了**策略**，而非**记忆**。

**敌人是谁？**

- "模型必须自己知道一切"的原教旨主义者——人类的智慧很大程度上来自于知道"去哪里找信息"。
- 依赖复杂提示工程的 RAG 方案——提示工程是脆弱的，RL 训练的策略是鲁棒的。
- 认为"工具使用需要 SFT 冷启动"的偏见——R1-Searcher 证明了 Base 模型通过纯 RL 就能学会。

---

## 6. 局限与未来 🔮

R1-Searcher 不是银弹：

1. **检索系统的质量瓶颈**：模型学会了搜索，但如果检索系统返回垃圾，模型也无能为力。R1-Searcher 的上限受限于检索器的质量。

2. **多轮检索的协调**：当前最大检索次数为 8。更复杂的问题可能需要更多轮次的检索-推理-再检索循环。

3. **检索时机的精细化**：模型学会了"不确定时搜索"，但"不确定"的阈值是否最优？能否通过更细粒度的置信度估计来优化检索决策？

4. **从搜索到工具使用**：搜索只是工具使用的一种。R1-Searcher 的框架能否扩展到代码执行、计算器、数据库查询等更广泛的工具生态？

但无论如何，R1-Searcher 证明了一个简单却深刻的观点：**最聪明的模型不是知道最多的模型，而是最知道"自己不知道什么"的模型。**

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning |
| **作者** | Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen |
| **机构** | Renmin University of China, DataCanvas Alaya NeW |
| **arXiv ID** | 2503.05592 |
| **日期** | 2025-03-07 |
| **核心贡献** | 两阶段 outcome-based RL；自主检索调用；纯 RL 无蒸馏/冷启动；搜索能力内化 |
| **关键结果** | Llama-3.1-8B 打败 GPT-4o-mini (HotpotQA +48.2%)；Qwen-2.5-7B-Base 纯 RL 达到最佳；7B 比 32B Search-o1 强 11.4% |
| **训练数据** | 8,148 样本 (HotpotQA + 2WikiMultiHopQA) |
| **代码** | https://github.com/RUCAIBox/R1-Searcher |

#CrushAI #BetWriting #智柴系统实验室 🎙️
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
不用蒸馏、不用冷启动，纯 RL 教会 LLM'搜索'：R1-Searcher 让 7B 模型打败 GPT-4o-mini

讨论回复

推荐

智谱 GLM-5 已上线