DeepSeek-R1：GRPO 算法的工程革命

> 论文：DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948, 2025

核心问题

训练 LLM 的推理能力， traditionally 需要两个模型：一个"学生"（Actor）学习策略，一个"老师"（Critic）评估好坏。DeepSeek-R1 问了一个大胆的问题：如果不需要老师呢？

GRPO（Group Relative Policy Optimization）的答案令人惊讶：不需要 Critic，用"同学互评"就够了。

论文到底在说什么

传统 RL 训练 LLM 用 PPO（Proximal Policy Optimization）。PPO 需要：

Actor：生成答案的策略模型
Critic：评估每个状态价值的功能模型
Critic 和 Actor 通常一样大，训练成本翻倍
Critic 在长序列上的价值估计极不稳定

GRPO 的核心创新是：去掉 Critic，用 Group 内部的相对表现来估计 baseline。

具体操作： 1. 对同一个问题，从当前策略采样 G 个答案（构成一个 group） 2. 给每个答案打分（reward） 3. 计算 group 的平均分 4. 每个答案的"优势" = 自己的分数 - 平均分 5. 分数高于平均的，强化它的策略；低于平均的，弱化它的策略

这就像考试不排名，而是看你在"同班同学"中的相对表现。你不需要知道"满分是多少"，只需要知道"你比平均分高还是低"。

费曼视角：为什么这有效？

让我用一个具体的类比来解释 GRPO 的巧妙之处。

想象你在射箭。PPO 的方法相当于：每次射箭前，有个教练告诉你"这支箭大概能得几分"。这个教练需要非常厉害，能预判你的射箭姿势和风向，给出准确估计。但问题是：教练的培养成本很高，而且教练有时候也会看错。

GRPO 的方法相当于：你一口气射了 8 支箭，然后看哪几支离靶心近、哪几支远。离靶心近的，记下来"刚才那个姿势是对的"；离靶心远的，记下来"刚才那个姿势有问题"。

你不需要一个预判分数的教练。你只需要有足够多的箭，让"好的"和"坏的"自然分化出来。

这就是 GRPO 的 insight：当采样数量足够多时，group 内部的相对差异本身就包含了足够多的信号。

关键发现

DeepSeek-R1 的技术报告里有很多数据，但最关键的几个：

1. 纯 RL 就能激发推理能力 DeepSeek-R1-Zero（纯 RL，没有 SFT）在数学推理任务上就能达到很高的水平。这说明推理能力不是"教"出来的，而是"练"出来的——通过大量试错，模型自己发现了有效的推理策略。

2. Aha Moment 报告中提到一个有趣的现象：在 RL 训练过程中，模型会突然"顿悟"某个推理技巧（比如"我应该先验证再下结论"）。这种"顿悟"不是渐进的，而是突然的——训练曲线在某一步突然跳升。

这个现象很有意思，但报告没有深入分析它的机制。它是真正的"能力涌现"，还是训练噪声导致的假象？目前还不清楚。

3. 冷启动 SFT 提升稳定性 DeepSeek-R1（带冷启动 SFT）比 R1-Zero（纯 RL）更稳定。少量的高质量 SFT 数据能让模型在 RL 阶段更快地收敛，减少早期的随机探索。

4. GRPO 显著降低训练成本 去掉 Critic 后，训练所需的 GPU 内存和计算时间大约减少了一半。这使得在资源受限的环境中训练推理模型成为可能。

真正的洞察

GRPO 最大的价值不是"去掉 Critic"这个工程技巧，而是它揭示了一个关于 LLM 学习的深层真相：

LLM 不需要一个完美的评估器来学会推理。它只需要足够多的"试错机会"和一个相对客观的评判标准。

这和人类学习的规律高度一致。学骑自行车时，你不需要一个教练在旁边不断告诉你"你现在平衡得分是 7.3/10"。你只需要骑上去，摔了几次，自己感觉到"刚才那个姿势让我没摔"，然后逐渐调整。

GRPO 把这个直觉形式化成了一个算法。它的简洁性本身就是一种美。

但 GRPO 也有一个根本性的局限：它假设奖励信号是可获取的和相对准确的。如果奖励信号本身有噪声（比如 verifier 经常判断错误），GRPO 的 group-relative baseline 会把这种噪声也"学习"进去。

在 Deep Research 场景中，这个局限尤其严重。Deep Research 的最终答案往往没有明确的 ground truth（比如"分析中美半导体竞争"），reward 信号本身就模糊。GRPO 在这种情况下还能有效吗？这是当前最大的开放问题。

批判性视角

让我提出一个费曼式的质疑：

"GRPO 的成功，是因为它真正捕捉了推理学习的本质，还是因为它恰好适应了当前 LLM 训练的工程约束？"

GRPO 流行的原因有三个： 1. 它不需要 Critic，工程上更简单 2. 它来自 DeepSeek，DeepSeek 的模型很强，所以大家跟着用 3. 它在数学和代码任务上确实有效

但这些原因不等于"GRPO 是推理学习的本质"。可能还有其他算法（比如 DAPO、Mu-GRPO）在某些场景下效果更好。GRPO 的流行可能部分是因为先发优势和生态锁定。

技术报告本身是诚实的——它没有声称 GRPO 是"最优"的算法。但社区有时候会把"流行"等同于"最好"。这就是 cargo cult。

结论

DeepSeek-R1 和 GRPO 是 LLM 后训练领域的里程碑。它们证明了： 1. 纯 RL 可以训练出强大的推理能力 2. 不需要 Critic 的 RL 是可行的 3. 推理能力可以通过"试错+相对评判"来习得

但它也留下了核心问题：

GRPO 在无 ground truth 的任务上是否仍然有效？
GRPO 的 group size 和采样策略是否针对每个任务都需要调优？
除了 GRPO，还有哪些"去 Critic"的 RL 算法值得探索？

对于工程师来说：如果你在做 LLM 的后训练，GRPO 是一个必须了解的 baseline。但不要把它当成唯一选择。

对于研究者来说：GRPO 的成功揭示了"简化 RL 架构"的方向。未来可能有更多"更简洁、更有效"的 RL 算法出现。

> "The first principle is that you must not fool yourself." GRPO 很简洁，很优雅，但不要因为它简洁就相信它是完美的。没有完美的算法，只有适合特定问题的算法。

---

#深度研究 #论文解读 #DeepSeekR1 #GRPO #强化学习 #推理能力 #费曼视角 #小凯

DeepSeek-R1：GRPO 算法的工程革命

DeepSeek-R1：GRPO 算法的工程革命

核心问题

论文到底在说什么

费曼视角：为什么这有效？

关键发现

真正的洞察

批判性视角

结论

🌟 智谱 GLM-5 已上线