DeepSeek-R1:GRPO 算法的工程革命
论文:DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948, 2025
核心问题
训练 LLM 的推理能力, traditionally 需要两个模型:一个"学生"(Actor)学习策略,一个"老师"(Critic)评估好坏。DeepSeek-R1 问了一个大胆的问题:如果不需要老师呢?
GRPO(Group Relative Policy Optimization)的答案令人惊讶:不需要 Critic,用"同学互评"就够了。
论文到底在说什么
传统 RL 训练 LLM 用 PPO(Proximal Policy Optimization)。PPO 需要:
- Actor:生成答案的策略模型
- Critic:评估每个状态价值的功能模型
- Critic 和 Actor 通常一样大,训练成本翻倍
- Critic 在长序列上的价值估计极不稳定
GRPO 的核心创新是:去掉 Critic,用 Group 内部的相对表现来估计 baseline。
具体操作:
- 对同一个问题,从当前策略采样 G 个答案(构成一个 group)
- 给每个答案打分(reward)
- 计算 group 的平均分
- 每个答案的"优势" = 自己的分数 - 平均分
- 分数高于平均的,强化它的策略;低于平均的,弱化它的策略
这就像考试不排名,而是看你在"同班同学"中的相对表现。你不需要知道"满分是多少",只需要知道"你比平均分高还是低"。
费曼视角:为什么这有效?
让我用一个具体的类比来解释 GRPO 的巧妙之处。
想象你在射箭。PPO 的方法相当于:每次射箭前,有个教练告诉你"这支箭大概能得几分"。这个教练需要非常厉害,能预判你的射箭姿势和风向,给出准确估计。但问题是:教练的培养成本很高,而且教练有时候也会看错。
GRPO 的方法相当于:你一口气射了 8 支箭,然后看哪几支离靶心近、哪几支远。离靶心近的,记下来"刚才那个姿势是对的";离靶心远的,记下来"刚才那个姿势有问题"。
你不需要一个预判分数的教练。你只需要有足够多的箭,让"好的"和"坏的"自然分化出来。
这就是 GRPO 的 insight:当采样数量足够多时,group 内部的相对差异本身就包含了足够多的信号。
关键发现
DeepSeek-R1 的技术报告里有很多数据,但最关键的几个:
1. 纯 RL 就能激发推理能力 DeepSeek-R1-Zero(纯 RL,没有 SFT)在数学推理任务上就能达到很高的水平。这说明推理能力不是"教"出来的,而是"练"出来的——通过大量试错,模型自己发现了有效的推理策略。
2. Aha Moment 报告中提到一个有趣的现象:在 RL 训练过程中,模型会突然"顿悟"某个推理技巧(比如"我应该先验证再下结论")。这种"顿悟"不是渐进的,而是突然的——训练曲线在某一步突然跳升。
这个现象很有意思,但报告没有深入分析它的机制。它是真正的"能力涌现",还是训练噪声导致的假象?目前还不清楚。
3. 冷启动 SFT 提升稳定性 DeepSeek-R1(带冷启动 SFT)比 R1-Zero(纯 RL)更稳定。少量的高质量 SFT 数据能让模型在 RL 阶段更快地收敛,减少早期的随机探索。
4. GRPO 显著降低训练成本 去掉 Critic 后,训练所需的 GPU 内存和计算时间大约减少了一半。这使得在资源受限的环境中训练推理模型成为可能。
真正的洞察
GRPO 最大的价值不是"去掉 Critic"这个工程技巧,而是它揭示了一个关于 LLM 学习的深层真相:
LLM 不需要一个完美的评估器来学会推理。它只需要足够多的"试错机会"和一个相对客观的评判标准。
这和人类学习的规律高度一致。学骑自行车时,你不需要一个教练在旁边不断告诉你"你现在平衡得分是 7.3/10"。你只需要骑上去,摔了几次,自己感觉到"刚才那个姿势让我没摔",然后逐渐调整。
GRPO 把这个直觉形式化成了一个算法。它的简洁性本身就是一种美。
但 GRPO 也有一个根本性的局限:它假设奖励信号是可获取的和相对准确的。如果奖励信号本身有噪声(比如 verifier 经常判断错误),GRPO 的 group-relative baseline 会把这种噪声也"学习"进去。
在 Deep Research 场景中,这个局限尤其严重。Deep Research 的最终答案往往没有明确的 ground truth(比如"分析中美半导体竞争"),reward 信号本身就模糊。GRPO 在这种情况下还能有效吗?这是当前最大的开放问题。
批判性视角
让我提出一个费曼式的质疑:
"GRPO 的成功,是因为它真正捕捉了推理学习的本质,还是因为它恰好适应了当前 LLM 训练的工程约束?"
GRPO 流行的原因有三个:
- 它不需要 Critic,工程上更简单
- 它来自 DeepSeek,DeepSeek 的模型很强,所以大家跟着用
- 它在数学和代码任务上确实有效
但这些原因不等于"GRPO 是推理学习的本质"。可能还有其他算法(比如 DAPO、Mu-GRPO)在某些场景下效果更好。GRPO 的流行可能部分是因为先发优势和生态锁定。
技术报告本身是诚实的——它没有声称 GRPO 是"最优"的算法。但社区有时候会把"流行"等同于"最好"。这就是 cargo cult。
结论
DeepSeek-R1 和 GRPO 是 LLM 后训练领域的里程碑。它们证明了:
- 纯 RL 可以训练出强大的推理能力
- 不需要 Critic 的 RL 是可行的
- 推理能力可以通过"试错+相对评判"来习得
但它也留下了核心问题:
- GRPO 在无 ground truth 的任务上是否仍然有效?
- GRPO 的 group size 和采样策略是否针对每个任务都需要调优?
- 除了 GRPO,还有哪些"去 Critic"的 RL 算法值得探索?
对于工程师来说:如果你在做 LLM 的后训练,GRPO 是一个必须了解的 baseline。但不要把它当成唯一选择。
对于研究者来说:GRPO 的成功揭示了"简化 RL 架构"的方向。未来可能有更多"更简洁、更有效"的 RL 算法出现。
"The first principle is that you must not fool yourself." GRPO 很简洁,很优雅,但不要因为它简洁就相信它是完美的。没有完美的算法,只有适合特定问题的算法。
#深度研究 #论文解读 #DeepSeekR1 #GRPO #强化学习 #推理能力 #费曼视角 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。