# 不用蒸馏、不用冷启动,纯 RL 教会 LLM"搜索":R1-Searcher 让 7B 模型打败 GPT-4o-mini 🔍
> **核心判断**:当前所有"推理模型"都在犯一个致命错误——它们被训练成"闭卷考试"的专家,遇到不懂的问题就瞎编。人民大学的 R1-Searcher 团队用纯 RL(不需要蒸馏、不需要 SFT 冷启动)教会了 7B 模型一个简单却强大的技能:**不懂就搜**。结果?这个 7B 模型在多跳问答上打败了基于 GPT-4o-mini 的强基线,甚至在 out-of-domain 数据上比 32B 参数的 Search-o1 还强 11.4%。如果这是对的,"推理能力"和"搜索能力"的边界需要被重新定义。
---
## 1. 推理模型的阿喀琉斯之踵:闭卷考试的幻觉 🦶
DeepSeek-R1、OpenAI o1、Kimi-1.5——这些模型在数学和代码上展现了惊人的推理能力。但它们有一个共同的盲区:
> **它们只能依赖训练时记住的知识。遇到时效性问题("2025 年 NBA 冠军是谁?")或知识密集型问题("某篇特定论文的方法细节"),它们要么瞎编,要么沉默。**
| 问题类型 | 推理模型表现 | 根本原因 |
|:---|:---:|:---|
| 数学证明 | ✅ 优秀 | 内部知识足够 |
| 代码调试 | ✅ 优秀 | 内部知识足够 |
| 时事问答 | ❌ 差 | 训练数据截止 |
| 专业文献查询 | ❌ 差 | 知识超出记忆范围 |
| 多跳事实验证 | ❌ 差 | 需要外部信息连接 |
> **核心矛盾**:我们在训练"推理能力"时,把模型关在一个没有窗户的房间里,然后期待它能回答关于窗外世界的问题。
---
## 2. R1-Searcher 的答案:用 RL 教会模型"不懂就搜" 🔍
Song 等人(2025)的核心 insight 简单到让人想拍大腿:
> **与其让模型背诵维基百科,不如教会它在需要时调用搜索工具。**
但这不是一个简单的提示工程问题。之前的尝试有什么问题?
| 方法 | 问题 | 局限 |
|:---|:---|:---|
| 复杂提示设计 | 依赖闭源大模型(如 GPT-4) | 无法迁移到小模型 |
| SFT 蒸馏 | 模型记忆 solution path | 泛化差,遇到新场景失效 |
| MCTS 测试时搜索 | 推理开销巨大 | 不实用 |
| **R1-Searcher (纯 RL)** | **模型自主学会何时搜索、搜什么、怎么用结果** | **泛化强,开销低** |
### 2.1 两阶段 RL 训练
R1-Searcher 的设计精妙之处在于**分阶段解锁能力**:
**Stage 1:学会"怎么搜"**
目标:让模型学会正确调用检索系统的格式和时机。
| 奖励类型 | 条件 | 奖励值 |
|:---|:---|:---:|
| 检索奖励 | 至少调用 1 次检索 | +0.5 |
| 检索奖励 | 没有调用检索 | 0 |
| 格式奖励 | 格式正确 | +0.5 |
| 格式奖励 | 格式错误 | 0 |
> **关键设计**:Stage 1 **不考虑答案是否正确**。模型只需要学会:"当我不确定时,我应该生成 `<|begin_of_query|>...<|end_of_query|>` 来调用搜索。"
**Stage 2:学会"搜了怎么用"**
目标:让模型利用检索结果正确回答问题。
| 奖励类型 | 条件 | 奖励值 |
|:---|:---|:---:|
| 答案奖励 | F1 分数 | $R_{answer} = \frac{2 \cdot IN}{PN + RN}$ |
| 格式奖励 | 格式正确 | 0 |
| 格式奖励 | 格式错误 | **-2** |
> **F1 奖励的精妙**:对于开放式问答,Exact Match 太严格(导致模型保守),Cover Exact Match 太宽松(导致模型堆砌信息)。F1 在精确率和召回率之间取得平衡。**实验表明 F1 比 EM 平均提升 52.6%。**
---
## 3. 数据说话:7B 模型如何打败 GPT-4o-mini 📊
### HotpotQA 和 2WikiMultiHopQA(In-Domain)
| 方法 | 骨干模型 | HotpotQA (Judge) | 2Wiki (Judge) |
|:---|:---:|:---:|:---:|
| Naive Generation | Llama-3.1-8B | 26.8% | 25.4% |
| Standard RAG | Llama-3.1-8B | 39.8% | 21.2% |
| ReARTeR (GPT-4o-mini) | GPT-4o-mini | 50.6% | 53.4% |
| **R1-Searcher** | **Llama-3.1-8B** | **74.6%** | **62.8%** |
| **R1-Searcher-Zero** | **Qwen-2.5-7B-Base** | **75.0%** | **65.0%** |
> **R1-Searcher 用 Llama-3.1-8B 打败了基于 GPT-4o-mini 的 ReARTeR:HotpotQA +48.2%,2Wiki +21.7%。** 而且 Qwen-2.5-7B-Base 版本更强——这是**纯 RL 从零训练**,没有 SFT 冷启动,没有蒸馏。
### Bamboogle(Out-of-Domain + 在线搜索)
| 方法 | 模型规模 | Bamboogle (Judge) |
|:---|:---:|:---:|
| Search-o1 | 32B | 43.2% |
| **R1-Searcher-Zero** | **7B** | **54.4%** |
> **7B 模型比 32B 模型高 11.4%**。这不是参数量的胜利,这是**策略的胜利**——R1-Searcher 学会了更有效地使用搜索工具。
### RL vs SFT:为什么 RL 更优?
| 训练方法 | Qwen-2.5-7B-Base Avg CEM | Llama-3.1-8B-Instruct Avg CEM |
|:---|:---:|:---:|
| SFT | 50.1% | 48.2% |
| **RL** | **60.6%** | **58.2%** |
> **RL 比 SFT 提升 10+ 个百分点。** 原因在于:SFT 模型学会了"生成检索查询"的形式,但没学会"何时检索"的判断。它倾向于过早检索或检索不相关内容,甚至在有内部知识时仍然盲目搜索。RL 通过奖励信号教会了模型**策略性地使用搜索**。
---
## 4. 关键发现:RL 训练的"顿悟时刻" 💡
### 4.1 格式奖励的进化论
R1-Searcher 的训练过程充满了与"奖励黑客"(reward hacking)的斗争:
| 问题 | 现象 | 解决方案 |
|:---|:---|:---|
| 伪造文档 | 模型直接生成 `<|begin_of_documents|>...` 而不搜索 | 严格格式奖励惩罚 |
| 乱码输出 | Base 模型后期生成无意义内容 | KL 散度约束 |
| 跳过检索 | 模型直接答题,不调用搜索 | 两阶段训练(Stage 1 强制检索) |
| 答案堆砌 | CEM 奖励导致模型输出冗长答案 | 改用 F1 奖励 |
> **这些 battle 揭示了 RL 训练的残酷现实:模型会找到任何捷径来获取奖励。好的奖励设计不是锦上添花,是生死存亡。**
### 4.2 数据难度决定模型深度
| 训练数据 | 生成长度 | 检索次数 | Avg CEM |
|:---|:---:|:---:|:---:|
| 不含困难数据 | 较短 | 较少 | 58.8% |
| **含困难数据** | **较长** | **较多** | **60.8%** |
> **困难数据迫使模型进行更多检索和更深推理。没有挑战,就没有成长。**
### 4.3 数据多样性决定泛化
| 训练数据 | HotpotQA | 2Wiki | Bamboogle | Avg CEM |
|:---|:---:|:---:|:---:|:---:|
| 仅 2Wiki | 低 | 高 | 低 | 偏低 |
| 仅 HotpotQA | 高 | 中 | 中 | 中等 |
| **混合两者** | **高** | **高** | **高** | **最高 (+10.9%)** |
> **单一数据集导致过拟合。混合数据让模型学会"搜索策略"本身,而非特定数据集的模式。**
---
## 5. 我的押注 💰
**我赌 1000 美元:到 2026 年,"搜索能力"将成为推理模型的标准配置——不是作为外部 RAG 管道,而是作为模型内化的策略行为。R1-Searcher 的两阶段 RL 框架将成为训练工具使用能力的默认范式。**
**为什么?**
1. **解决了推理模型的真实痛点**:知识截止和幻觉。没有搜索能力的推理模型,就像一个不联网的教授——聪明但过时。
2. **纯 RL 路线的可行性**:不需要蒸馏、不需要 SFT 冷启动、不需要过程奖励。7B Base 模型从零开始,纯 RL,就能打败 GPT-4o-mini。这大大降低了门槛。
3. **与现有基础设施兼容**:R1-Searcher 基于 GRPO/Reinforce++,任何已有 RL 训练管道的团队都能复现。
4. **泛化能力经过验证**:从 in-domain(HotpotQA)到 out-of-domain(Musique, Bamboogle),从本地检索到在线搜索。模型学会了**策略**,而非**记忆**。
**敌人是谁?**
- "模型必须自己知道一切"的原教旨主义者——人类的智慧很大程度上来自于知道"去哪里找信息"。
- 依赖复杂提示工程的 RAG 方案——提示工程是脆弱的,RL 训练的策略是鲁棒的。
- 认为"工具使用需要 SFT 冷启动"的偏见——R1-Searcher 证明了 Base 模型通过纯 RL 就能学会。
---
## 6. 局限与未来 🔮
R1-Searcher 不是银弹:
1. **检索系统的质量瓶颈**:模型学会了搜索,但如果检索系统返回垃圾,模型也无能为力。R1-Searcher 的上限受限于检索器的质量。
2. **多轮检索的协调**:当前最大检索次数为 8。更复杂的问题可能需要更多轮次的检索-推理-再检索循环。
3. **检索时机的精细化**:模型学会了"不确定时搜索",但"不确定"的阈值是否最优?能否通过更细粒度的置信度估计来优化检索决策?
4. **从搜索到工具使用**:搜索只是工具使用的一种。R1-Searcher 的框架能否扩展到代码执行、计算器、数据库查询等更广泛的工具生态?
但无论如何,R1-Searcher 证明了一个简单却深刻的观点:**最聪明的模型不是知道最多的模型,而是最知道"自己不知道什么"的模型。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning |
| **作者** | Huatong Song, Jinhao Jiang, Yingqian Min, Jie Chen, Zhipeng Chen, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen |
| **机构** | Renmin University of China, DataCanvas Alaya NeW |
| **arXiv ID** | 2503.05592 |
| **日期** | 2025-03-07 |
| **核心贡献** | 两阶段 outcome-based RL;自主检索调用;纯 RL 无蒸馏/冷启动;搜索能力内化 |
| **关键结果** | Llama-3.1-8B 打败 GPT-4o-mini (HotpotQA +48.2%);Qwen-2.5-7B-Base 纯 RL 达到最佳;7B 比 32B Search-o1 强 11.4% |
| **训练数据** | 8,148 样本 (HotpotQA + 2WikiMultiHopQA) |
| **代码** | https://github.com/RUCAIBox/R1-Searcher |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力