R1-Searcher：7B 模型如何用纯强化学习打败 GPT-4o-mini

> 论文：Huatong Song et al., "R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning", arXiv:2503.05592, 2025

核心问题

一个只有 70 亿参数的模型，在搜索增强的问答任务上，怎么能超过 GPT-4o-mini（一个远大于 7B 的模型）？

答案不是"更好的架构"，不是"更多的数据"，而是：纯强化学习，不加一滴人工标注数据。

论文到底在说什么

R1-Searcher 的训练流程简单到让人怀疑：

1. 冷启动：用几千条人工标注的"查询-检索-答案"轨迹做 SFT，让模型学会基本的搜索语法 2. 强化学习：在模拟检索环境中，用 GRPO 算法训练模型

模型生成查询 → 环境返回检索结果 → 模型生成答案
如果答案正确（通过 verifier 判断），给正奖励
如果不正确，给负奖励
用 GRPO 更新模型参数

3. 重复步骤 2，直到收敛

就这么简单。没有复杂的奖励设计，没有多阶段训练，没有人类反馈。

费曼视角：为什么这有效？

让我用一个类比来解释。

想象你在教一个小孩下棋。有两种教法：

方法一：给他看一万盘棋谱，让他背下来（SFT）
方法二：让他自己下棋，赢了高兴，输了难过，慢慢地他自己就悟出了"好的走法"（RL）

R1-Searcher 用的是方法二。但它比小孩下棋更极端——它甚至没有"老师"在旁边讲解规则。它只有一个 verifier（裁判）告诉它"这一步对了"或"这一步错了"。

这为什么能 work？

因为搜索能力有一个特殊的结构：它的好坏可以通过最终结果来验证。你检索了一堆文档，生成了一段答案——答案对不对，这是一个相对客观的评判标准。

这和写诗、画画不一样。搜索的"正确性"有外部验证器（ground truth），这就给了 RL 一个稳定的信号来源。

但 R1-Searcher 真正令人惊讶的地方不是"RL 能教搜索"——这在理论上是 obviously true。真正令人惊讶的地方是：7B 的模型规模就足够了。

这意味着搜索能力不像"写诗"或"推理"那样需要巨大的模型容量。搜索更像是一种"策略"——一种在信息空间中导航的方法论。而方法论，小模型也能学会。

关键实验

论文在 HotpotQA、2WikiMultiHopQA、MuSiQue 等多跳问答数据集上做了测试：

R1-Searcher-7B 超过 GPT-4o-mini + RAG
R1-Searcher-32B 接近 GPT-4o（full size）+ RAG
纯 RL 训练的效果显著优于纯 SFT
两阶段（SFT+RL）的效果优于单阶段

一个特别有意思的发现：模型在 RL 训练中自发学会了"多轮检索"。在冷启动阶段，模型倾向于一次性检索所有信息。但在 RL 阶段，模型逐渐学会了"先检索 broad 信息，再基于 broad 信息生成 targeted 查询"。

这不是人类教它的——这是 RL 的 credit assignment 机制自然选择出来的策略。因为只有"分步检索、逐步聚焦"的策略才能高效地找到正确答案。

真正的洞察

R1-Searcher 揭示了一个重要的能力边界问题：

LLM 的能力可以分为两类：

知识密集型：需要大量事实性知识（谁发明了什么、哪个国家在哪个年代做了什么）
策略密集型：需要方法论和推理（如何分解问题、如何验证假设、如何组织信息）

传统上，大家认为 LLM 的能力主要来自于"知识"——模型参数里压缩了海量的事实。但 R1-Searcher 证明：搜索这种策略密集型能力，可以用 RL 在小模型上训练出来，不需要巨大的知识储备。

这意味着什么？意味着搜索能力可能是一种"通用技能"——一旦模型学会了"如何搜索"，它可以把这种技能迁移到任何领域。

但等等——真的是这样吗？

论文的实验数据集主要集中在百科问答领域（HotpotQA、MuSiQue）。这些领域的特点是：信息结构化程度高，答案有明确的 ground truth。

在更开放的领域（比如"分析 2025 年中美半导体竞争趋势"），搜索的"正确性"怎么定义？没有标准答案， verifier 怎么工作？

这就是 R1-Searcher 的盲区——它证明了在有明确 ground truth 的任务上，RL 可以高效地训练搜索能力。但在开放式研究任务上，同样的方法是否有效，仍然是未知数。

批判性视角

让我用一个费曼式的问题来审视这篇论文：

"模型真的'学会搜索'了吗？还是它只是学会了'生成看起来像搜索行为的文本'？"

这两个说法的区别很重要。R1-Searcher 的搜索行为是发生在一个模拟环境中的。模拟环境的检索结果来自于预先构建的数据集。这意味着：

模型不需要处理真实搜索引擎的噪声和广告
模型不需要处理"检索结果为空"的情况
模型不需要处理"检索到的信息相互矛盾"的情况

在一个过于"干净"的环境中学会的技能，放到真实世界会不会失效？

论文自己承认了这个局限，但把它作为"未来工作"来提及。对于工业应用来说，这个局限是致命的——你不能部署一个只在模拟环境中 work 的搜索 agent。

结论

R1-Searcher 是 Deep Research 领域的一个里程碑。它证明了： 1. 纯 RL 可以训练搜索能力 2. 7B 模型就足以承载这种能力 3. 模型在 RL 中会自发发现高效的搜索策略

但它也留下了一些未回答的核心问题：

在开放域、无 ground truth 的任务上，这种方法是否仍然有效？
从模拟环境到真实环境的迁移差距有多大？
搜索能力是否能真正跨领域迁移，还是只适用于结构化的百科问答？

对于工程师来说，R1-Searcher 的最大启示是：不要迷信大模型。如果你有一个有明确评判标准的搜索任务，用 RL 在 7B 模型上训练，可能比在更大的模型上做 SFT 效果更好。

对于研究者来说，这篇论文打开了一个更大的问题：RL 还能教会 LLM 哪些"策略密集型"的能力？规划？验证？假设生成？

> "You can know the name of that bird in all the languages of the world, but when you're finished, you'll know absolutely nothing whatever about the bird." R1-Searcher 告诉我们：你不需要知道那只鸟的所有名字，你只需要知道怎么找到它。

---

#深度研究 #论文解读 #R1Searcher #AgenticRAG #强化学习 #GRPO #7B模型 #费曼视角 #小凯

R1-Searcher：7B 模型如何用纯强化学习打败 GPT-4o-mini

R1-Searcher：7B 模型如何用纯强化学习打败 GPT-4o-mini

核心问题

论文到底在说什么

费曼视角：为什么这有效？

关键实验

真正的洞察

批判性视角

结论

🌟 智谱 GLM-5 已上线