## 1. 核心问题:为什么 RL 突然成了大模型的主角?
2022 年,ChatGPT 发布。全世界看到的是"预训练 + RLHF"的魔法——海量的互联网文本灌进 Transformer,再用人类反馈微调对齐。
那时的共识是:**预训练是蛋糕本体,RLHF 是顶上的樱桃。**
LeCun 的"蛋糕论"把这个观点推到了极致:自监督学习是蛋糕,监督学习是糖霜,RL 只是最上面那颗小樱桃。这个比喻在 2023-2024 年几乎成了行业信条。
**但在 2025 年,这颗"樱桃"膨胀成了一整座蛋糕。**
### 1.1 发生了什么?
三件事同时发生:
**第一,预训练的边际收益在递减。** 从 GPT-3 到 GPT-4,参数涨了 10 倍,数据涨了 10 倍,但 MMLU 只从 57% 涨到 87%。继续堆参数和数据的性价比在快速下降。
**第二,RLHF 撞上了"偏好数据瓶颈"。** 人类标注员一天能标多少偏好对?几千对。而模型需要数百万对才能继续提升。高质量标注的成本和延迟,让 RLHF 无法规模化。
**第三,DeepSeek R1 在 2025 年 1 月扔下了一颗炸弹。** 他们用 GRPO(Group Relative Policy Optimization)——一种不需要价值网络、不需要人类标注、只需要可验证答案(数学证明、代码编译结果)的强化学习方法——让模型自己"长"出了长链思考能力。
R1-Zero 的训练曲线太漂亮了:模型从零开始,没有任何 SFT 冷启动,纯靠 RL 在可验证奖励上训练,推理能力持续攀升,甚至自发学会了"反思"和"重新检查"。
**这三件事的共同指向:后训练(post-training)——而不是预训练——正在成为模型能力增长的主要引擎。**
---
## 2. 技术解剖:GRPO 为什么能取代 PPO?
### 2.1 PPO 的问题:Critic 模型是累赘
PPO(Proximal Policy Optimization)是 2017 年 Schulman 等人提出的强化学习算法,也是 OpenAI InstructGPT 和早期 ChatGPT 使用的算法。
PPO 的核心架构:
```
策略网络(Policy)→ 生成回答
价值网络(Critic)→ 评估回答有多好
奖励模型(Reward Model)→ 给出标量奖励
```
**问题一:Critic 模型 doubling 了内存开销。**
如果你要训练一个 70B 参数的 LLM,PPO 需要同时加载:
- 策略模型(70B)
- Critic 模型(70B)
- 参考模型(70B,用于 KL 散度约束)
- 奖励模型(~1B)
总计 211B 参数同时驻留显存。这对于任何实验室都是巨大的基础设施负担。
**问题二:Critic 的价值估计本身就很差。**
LLM 的生成空间是离散的、高维的。给一串 token 序列估计"期望累积回报",这个回归问题极其困难。Critic 的估计误差会传递到策略更新中,导致训练不稳定。
**问题三:Reward Model 是瓶颈。**
人类标注的偏好数据昂贵且有限。Reward Model 只能从有限数据中学习,然后泛化到所有领域。一旦遇到分布外的任务,Reward Model 的评分就不可靠了——这就是"奖励黑客"(reward hacking)的根源。
### 2.2 GRPO 的洞察:组内相对排名就够了
GRPO 的核心思想出奇地简单:
**不需要 Critic。对于同一个 prompt,采样一组回答(比如 8-64 个),用组内奖励的相对排名作为优势估计。**
数学上:
对于 prompt \(x\),采样 \(G\) 个回答 \(\{o_1, o_2, ..., o_G\}\),每个回答获得奖励 \(r_i\)。
优势估计:
```
A_i = (r_i - mean({r_1, ..., r_G})) / std({r_1, ..., r_G})
```
就这么简单。没有神经网络,没有梯度,没有额外的模型。组内归一化的奖励就是优势。
**为什么这能工作?**
关键在于**可验证奖励**(verifiable rewards)。GRPO 不是用于"哪个回答更流畅"这种主观任务——那是 RLHF 的领域。GRPO 用于"这个数学证明对不对""这段代码能不能编译通过""这个逻辑推理的结论是否正确"。
这些任务的奖励是二值的(对/错)或分级的(部分正确)。同一个 prompt 的不同回答,奖励差异足够大,组内归一化就能提供稳定的信号。
### 2.3 GRPO vs PPO:工程层面的差异
| 维度 | PPO | GRPO |
|------|-----|------|
| Critic 模型 | 需要(与策略模型同规模) | 不需要 |
| 内存开销 | 3× 策略模型 | ~1.5× 策略模型(只需参考模型) |
| 奖励来源 | Reward Model(人类标注训练) | 可验证规则(代码编译、数学验证) |
| 优势估计 | Critic 预测 V(s) | 组内奖励归一化 |
| 适用任务 | 开放式生成、对话 | 数学、代码、逻辑推理 |
| 训练稳定性 | 中等(Critic 误差传播) | 高(组内统计稳定) |
**GRPO 不是 PPO 的严格上位替代。** 它们适用于不同场景:
- GRPO:有明确答案的推理任务
- PPO/DPO:开放式对话、创意写作、需要人类品味的任务
2025 年的行业共识是:**三阶段后训练 pipeline:**
1. SFT(学习格式和基础知识)
2. DPO/SimPO(偏好对齐)
3. GRPO(推理能力突破)
---
## 3. 魔改家族:DAPO、GSPO 与 Qwen miniRL
GRPO 的核心思想被接受后,各大厂开始针对自己的场景做改进。
### 3.1 DAPO:字节的"动态采样 + 解耦裁剪"
DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)由字节 Seed + 清华 AIR 团队在 2025 年 3 月发布。
**四个关键改进:**
**1. Clip-Higher:提高上界裁剪范围**
PPO/GRPO 使用裁剪(clip)来防止策略更新过大:
```
clip(ratio, 1-ε, 1+ε)
```
DAPO 发现,标准的对称裁剪(如 ε=0.2)会导致**熵崩溃**(entropy collapse)——模型迅速收敛到少数几个固定模式,丧失探索能力。
DAPO 将上界提高到 1+ε_upper(ε_upper > ε),下界保持 1-ε。这允许策略在有利方向上更大胆地更新,同时保留探索。
**2. Dynamic Sampling:过滤低信息样本**
不是每个 prompt 的所有回答都值得学习。DAPO 动态过滤掉:
- 奖励全部相同的组(没有区分度)
- 奖励分布极端不平衡的组(一两个异常值主导)
这减少了训练步数,同时提高了每步的梯度质量。
**3. Token-level Policy Gradient**
GRPO 原始的序列级损失(sequence-level loss)在长链思考(CoT)场景下有**梯度消失**问题:前面的 token 对最终奖励的影响被稀释。
DAPO 改为 token-level 损失,每个 token 都有自己的局部优势估计。
**4. Overlong Reward Shaping**
长 CoT 序列容易超出长度限制,被截断后获得惩罚性奖励。DAPO 设计了一个平滑的奖励塑形函数,避免截断带来的噪声。
**结果:** DAPO 在 AIME 2024 上用 Qwen2.5-32B 达到 50 分,超越 DeepSeek-R1-Zero,训练步数减少 50%。整个系统已开源。
### 3.2 GSPO:阿里的"过程监督回归"
GSPO(Generative Stepwise Policy Optimization)由阿里巴巴通义团队在 2025 年提出。
GSPO 的核心洞察:**GRPO 的 token-level credit assignment 太粗了。**
一个数学证明可能有 20 步推理。GRPO 给整个序列一个标量奖励,但到底是哪一步错了?GSPO 引入**过程奖励模型**(Process Reward Model, PRM),给每一步打分。
但 GSPO 没有回到 PPO 的 Critic 架构。它用**离线训练的 PRM** 在推理时给出每步的分数,然后用这些分数做 GRPO 式的组内归一化。
这是一种 hybrid:**PRM 提供细粒度信号,GRPO 提供训练稳定性。**
### 3.3 Qwen miniRL:小模型的 RL 突围
Qwen 团队在 2025 年底发布的 miniRL 论文,验证了一个重要假设:
**Value Function 很重要,但 Critic Model 很难训练且不易 Scaling。**
Qwen miniRL 尝试在 GRPO 框架内重新引入轻量级的 value estimation——不是用一个完整的 Critic Model,而是用策略模型自身的隐藏状态,通过一个小的 MLP 头输出价值估计。
这个"mini Critic"只有几百万参数,但显著提高了训练的 sample efficiency。
这篇论文从侧面印证了用户分享文章中的观点:**"Value Function 这条路线前途光明,但有诸多困难,而这正是 2026 年开始要突破的地方。"**
---
## 4. 2026 年的突破方向:从"无 Critic"到"好 Critic"
用户分享的文章提出了一个核心判断:GRPO 去掉 Critic 是权宜之计,不是最优解。2026 年的关键突破方向,就是**如何让 Critic Model 回归,同时解决它原来的问题。**
### 4.1 为什么 Critic 必须回归?
GRPO 的组内归一化有一个根本限制:它只能利用**组内**的信息。
想象这样一个场景:
- Prompt A:"证明勾股定理"——所有回答都接近正确,组内方差很小
- Prompt B:"解这个复杂的数论问题"——大多数回答都错了,只有一个勉强对
GRPO 会给 Prompt A 的优势估计很小的幅度(因为组内差异小),给 Prompt B 的幅度很大。但 Prompt A 可能才是模型真正需要学习的——它卡在"差一点就全对"的瓶颈上。
Critic Model 的作用,正是**跨 prompt 地估计"这个状态有多好"**,提供绝对坐标的信号,而不是仅仅相对的排名。
### 4.2 三条可能的技术路线
**路线一:Mini Critic(Qwen 路线)**
策略模型自己的隐藏状态 → 小型 MLP 头 → 价值估计。
优势:没有额外的模型加载,内存开销极小。
劣势:价值估计的质量受限于策略模型自身的表示能力。
**路线二:离线 Critic(GSPO/PRM 路线)**
预训练一个过程奖励模型,在 RL 训练时冻结使用。
优势:稳定,不增加在线训练开销。
劣势:PRM 本身是另一个需要训练的模型,且与策略模型的分布漂移会导致估计误差。
**路线三:异步 Critic(DORA 路线)**
美团在 2026 年发布的 DORA 系统,将 rollout 生成和梯度更新**解耦**。
传统同步 RL:生成一组回答 → 计算梯度 → 更新模型 → 下一批。
DORA 的异步 RL:
- rollout workers 持续生成回答,存入 replay buffer
- trainer 持续从 buffer 采样训练
- Critic 模型独立更新,不与策略模型同步
这种架构允许使用**多步引导**(n-step bootstrapping)来训练 Critic,类似于传统 RL 中的 TD(λ)。DORA 报告在万卡规模上比同步训练快 3 倍以上。
### 4.3 一个大胆的预测
2026 年底的后训练 pipeline 可能是这样的:
```
Stage 1: SFT(冷启动)
Stage 2: DPO(偏好对齐)
Stage 3: GRPO + Async Mini-Critic(推理突破)
Stage 4: Self-Play(持续进化)
```
第四阶段是新的变量:模型用自己的生成结果做训练数据,配合 RLVR 验证,形成**闭环自我进化**。DeepSeek 的 R1 和 OpenAI 的 o-series 已经在做这件事,只是还没有系统性的公开框架。
---
## 5. 关键结论
1. **RL 在后训练中的崛起不是偶然,而是预训练边际收益递减和 RLHF 数据瓶颈的共同结果。** GRPO 恰好在这个时间窗口提供了"不需要人类标注、不需要 Critic 模型"的解法。
2. **GRPO 去掉 Critic 是工程上的妙手,但理论上不是最优。** 组内相对排名无法提供跨 prompt 的绝对价值信号。2026 年的关键突破方向,是让 Critic Model 以更高效的形式回归(Mini Critic、Async Critic、Offline PRM)。
3. **DAPO 和 GSPO 代表了两种不同的改进哲学:** DAPO 优化训练稳定性(clip higher、dynamic sampling、token-level loss),GSPO 优化信号粒度(过程奖励、stepwise credit assignment)。两者可以互补。
4. **RLVR(可验证奖励)正在重新定义"什么任务适合 RL"。** 不是所有任务都能被 RL 解决——只有那些有明确验证规则的任务(数学、代码、逻辑)才能充分发挥 RL 的威力。对于开放式任务,DPO 和偏好优化仍然是主流。
5. **2026 年的竞争焦点将从"谁能训练更大的模型"转向"谁能设计更好的奖励信号和 Critic 架构"。** 后训练的基础设施(reward design、evaluation pipeline、async rollout system)正在成为核心壁垒。
---
*报告完成时间:2026-05-02*
*核心参考:用户分享的深度分析文章、LLM Stats《Post-Training in 2026》、DeepSeek-R1/DAPO/Qwen miniRL 论文、Zylos Research《RL Posttraining for Tool-Using Agents》*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力