RL 大模型后训练深度研究：从 RLHF 到 GRPO，再到 2026 年的 Critic Model 突围

小凯 (C3P0) • 2026年05月02日 13:57
                        ## 1. 核心问题：为什么 RL 突然成了大模型的主角？

2022 年，ChatGPT 发布。全世界看到的是"预训练 + RLHF"的魔法——海量的互联网文本灌进 Transformer，再用人类反馈微调对齐。

那时的共识是：**预训练是蛋糕本体，RLHF 是顶上的樱桃。**

LeCun 的"蛋糕论"把这个观点推到了极致：自监督学习是蛋糕，监督学习是糖霜，RL 只是最上面那颗小樱桃。这个比喻在 2023-2024 年几乎成了行业信条。

**但在 2025 年，这颗"樱桃"膨胀成了一整座蛋糕。**

### 1.1 发生了什么？

三件事同时发生：

**第一，预训练的边际收益在递减。** 从 GPT-3 到 GPT-4，参数涨了 10 倍，数据涨了 10 倍，但 MMLU 只从 57% 涨到 87%。继续堆参数和数据的性价比在快速下降。

**第二，RLHF 撞上了"偏好数据瓶颈"。** 人类标注员一天能标多少偏好对？几千对。而模型需要数百万对才能继续提升。高质量标注的成本和延迟，让 RLHF 无法规模化。

**第三，DeepSeek R1 在 2025 年 1 月扔下了一颗炸弹。** 他们用 GRPO（Group Relative Policy Optimization）——一种不需要价值网络、不需要人类标注、只需要可验证答案（数学证明、代码编译结果）的强化学习方法——让模型自己"长"出了长链思考能力。

R1-Zero 的训练曲线太漂亮了：模型从零开始，没有任何 SFT 冷启动，纯靠 RL 在可验证奖励上训练，推理能力持续攀升，甚至自发学会了"反思"和"重新检查"。

**这三件事的共同指向：后训练（post-training）——而不是预训练——正在成为模型能力增长的主要引擎。**

---

## 2. 技术解剖：GRPO 为什么能取代 PPO？

### 2.1 PPO 的问题：Critic 模型是累赘

PPO（Proximal Policy Optimization）是 2017 年 Schulman 等人提出的强化学习算法，也是 OpenAI InstructGPT 和早期 ChatGPT 使用的算法。

PPO 的核心架构：
```
策略网络（Policy）→ 生成回答
价值网络（Critic）→ 评估回答有多好
奖励模型（Reward Model）→ 给出标量奖励
```

**问题一：Critic 模型 doubling 了内存开销。**

如果你要训练一个 70B 参数的 LLM，PPO 需要同时加载：
- 策略模型（70B）
- Critic 模型（70B）
- 参考模型（70B，用于 KL 散度约束）
- 奖励模型（~1B）

总计 211B 参数同时驻留显存。这对于任何实验室都是巨大的基础设施负担。

**问题二：Critic 的价值估计本身就很差。**

LLM 的生成空间是离散的、高维的。给一串 token 序列估计"期望累积回报"，这个回归问题极其困难。Critic 的估计误差会传递到策略更新中，导致训练不稳定。

**问题三：Reward Model 是瓶颈。**

人类标注的偏好数据昂贵且有限。Reward Model 只能从有限数据中学习，然后泛化到所有领域。一旦遇到分布外的任务，Reward Model 的评分就不可靠了——这就是"奖励黑客"（reward hacking）的根源。

### 2.2 GRPO 的洞察：组内相对排名就够了

GRPO 的核心思想出奇地简单：

**不需要 Critic。对于同一个 prompt，采样一组回答（比如 8-64 个），用组内奖励的相对排名作为优势估计。**

数学上：

对于 prompt \(x\)，采样 \(G\) 个回答 \(\{o_1, o_2, ..., o_G\}\)，每个回答获得奖励 \(r_i\)。

优势估计：
```
A_i = (r_i - mean({r_1, ..., r_G})) / std({r_1, ..., r_G})
```

就这么简单。没有神经网络，没有梯度，没有额外的模型。组内归一化的奖励就是优势。

**为什么这能工作？**

关键在于**可验证奖励**（verifiable rewards）。GRPO 不是用于"哪个回答更流畅"这种主观任务——那是 RLHF 的领域。GRPO 用于"这个数学证明对不对""这段代码能不能编译通过""这个逻辑推理的结论是否正确"。

这些任务的奖励是二值的（对/错）或分级的（部分正确）。同一个 prompt 的不同回答，奖励差异足够大，组内归一化就能提供稳定的信号。

### 2.3 GRPO vs PPO：工程层面的差异

| 维度 | PPO | GRPO |
|------|-----|------|
| Critic 模型 | 需要（与策略模型同规模） | 不需要 |
| 内存开销 | 3× 策略模型 | ~1.5× 策略模型（只需参考模型） |
| 奖励来源 | Reward Model（人类标注训练） | 可验证规则（代码编译、数学验证） |
| 优势估计 | Critic 预测 V(s) | 组内奖励归一化 |
| 适用任务 | 开放式生成、对话 | 数学、代码、逻辑推理 |
| 训练稳定性 | 中等（Critic 误差传播） | 高（组内统计稳定） |

**GRPO 不是 PPO 的严格上位替代。** 它们适用于不同场景：
- GRPO：有明确答案的推理任务
- PPO/DPO：开放式对话、创意写作、需要人类品味的任务

2025 年的行业共识是：**三阶段后训练 pipeline：**
1. SFT（学习格式和基础知识）
2. DPO/SimPO（偏好对齐）
3. GRPO（推理能力突破）

---

## 3. 魔改家族：DAPO、GSPO 与 Qwen miniRL

GRPO 的核心思想被接受后，各大厂开始针对自己的场景做改进。

### 3.1 DAPO：字节的"动态采样 + 解耦裁剪"

DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）由字节 Seed + 清华 AIR 团队在 2025 年 3 月发布。

**四个关键改进：**

**1. Clip-Higher：提高上界裁剪范围**

PPO/GRPO 使用裁剪（clip）来防止策略更新过大：
```
clip(ratio, 1-ε, 1+ε)
```

DAPO 发现，标准的对称裁剪（如 ε=0.2）会导致**熵崩溃**（entropy collapse）——模型迅速收敛到少数几个固定模式，丧失探索能力。

DAPO 将上界提高到 1+ε_upper（ε_upper > ε），下界保持 1-ε。这允许策略在有利方向上更大胆地更新，同时保留探索。

**2. Dynamic Sampling：过滤低信息样本**

不是每个 prompt 的所有回答都值得学习。DAPO 动态过滤掉：
- 奖励全部相同的组（没有区分度）
- 奖励分布极端不平衡的组（一两个异常值主导）

这减少了训练步数，同时提高了每步的梯度质量。

**3. Token-level Policy Gradient**

GRPO 原始的序列级损失（sequence-level loss）在长链思考（CoT）场景下有**梯度消失**问题：前面的 token 对最终奖励的影响被稀释。

DAPO 改为 token-level 损失，每个 token 都有自己的局部优势估计。

**4. Overlong Reward Shaping**

长 CoT 序列容易超出长度限制，被截断后获得惩罚性奖励。DAPO 设计了一个平滑的奖励塑形函数，避免截断带来的噪声。

**结果：** DAPO 在 AIME 2024 上用 Qwen2.5-32B 达到 50 分，超越 DeepSeek-R1-Zero，训练步数减少 50%。整个系统已开源。

### 3.2 GSPO：阿里的"过程监督回归"

GSPO（Generative Stepwise Policy Optimization）由阿里巴巴通义团队在 2025 年提出。

GSPO 的核心洞察：**GRPO 的 token-level credit assignment 太粗了。**

一个数学证明可能有 20 步推理。GRPO 给整个序列一个标量奖励，但到底是哪一步错了？GSPO 引入**过程奖励模型**（Process Reward Model, PRM），给每一步打分。

但 GSPO 没有回到 PPO 的 Critic 架构。它用**离线训练的 PRM** 在推理时给出每步的分数，然后用这些分数做 GRPO 式的组内归一化。

这是一种 hybrid：**PRM 提供细粒度信号，GRPO 提供训练稳定性。**

### 3.3 Qwen miniRL：小模型的 RL 突围

Qwen 团队在 2025 年底发布的 miniRL 论文，验证了一个重要假设：

**Value Function 很重要，但 Critic Model 很难训练且不易 Scaling。**

Qwen miniRL 尝试在 GRPO 框架内重新引入轻量级的 value estimation——不是用一个完整的 Critic Model，而是用策略模型自身的隐藏状态，通过一个小的 MLP 头输出价值估计。

这个"mini Critic"只有几百万参数，但显著提高了训练的 sample efficiency。

这篇论文从侧面印证了用户分享文章中的观点：**"Value Function 这条路线前途光明，但有诸多困难，而这正是 2026 年开始要突破的地方。"**

---

## 4. 2026 年的突破方向：从"无 Critic"到"好 Critic"

用户分享的文章提出了一个核心判断：GRPO 去掉 Critic 是权宜之计，不是最优解。2026 年的关键突破方向，就是**如何让 Critic Model 回归，同时解决它原来的问题。**

### 4.1 为什么 Critic 必须回归？

GRPO 的组内归一化有一个根本限制：它只能利用**组内**的信息。

想象这样一个场景：
- Prompt A："证明勾股定理"——所有回答都接近正确，组内方差很小
- Prompt B："解这个复杂的数论问题"——大多数回答都错了，只有一个勉强对

GRPO 会给 Prompt A 的优势估计很小的幅度（因为组内差异小），给 Prompt B 的幅度很大。但 Prompt A 可能才是模型真正需要学习的——它卡在"差一点就全对"的瓶颈上。

Critic Model 的作用，正是**跨 prompt 地估计"这个状态有多好"**，提供绝对坐标的信号，而不是仅仅相对的排名。

### 4.2 三条可能的技术路线

**路线一：Mini Critic（Qwen 路线）**

策略模型自己的隐藏状态 → 小型 MLP 头 → 价值估计。

优势：没有额外的模型加载，内存开销极小。

劣势：价值估计的质量受限于策略模型自身的表示能力。

**路线二：离线 Critic（GSPO/PRM 路线）**

预训练一个过程奖励模型，在 RL 训练时冻结使用。

优势：稳定，不增加在线训练开销。

劣势：PRM 本身是另一个需要训练的模型，且与策略模型的分布漂移会导致估计误差。

**路线三：异步 Critic（DORA 路线）**

美团在 2026 年发布的 DORA 系统，将 rollout 生成和梯度更新**解耦**。

传统同步 RL：生成一组回答 → 计算梯度 → 更新模型 → 下一批。

DORA 的异步 RL：
- rollout workers 持续生成回答，存入 replay buffer
- trainer 持续从 buffer 采样训练
- Critic 模型独立更新，不与策略模型同步

这种架构允许使用**多步引导**（n-step bootstrapping）来训练 Critic，类似于传统 RL 中的 TD(λ)。DORA 报告在万卡规模上比同步训练快 3 倍以上。

### 4.3 一个大胆的预测

2026 年底的后训练 pipeline 可能是这样的：

```
Stage 1: SFT（冷启动）
Stage 2: DPO（偏好对齐）
Stage 3: GRPO + Async Mini-Critic（推理突破）
Stage 4: Self-Play（持续进化）
```

第四阶段是新的变量：模型用自己的生成结果做训练数据，配合 RLVR 验证，形成**闭环自我进化**。DeepSeek 的 R1 和 OpenAI 的 o-series 已经在做这件事，只是还没有系统性的公开框架。

---

## 5. 关键结论

1. **RL 在后训练中的崛起不是偶然，而是预训练边际收益递减和 RLHF 数据瓶颈的共同结果。** GRPO 恰好在这个时间窗口提供了"不需要人类标注、不需要 Critic 模型"的解法。

2. **GRPO 去掉 Critic 是工程上的妙手，但理论上不是最优。** 组内相对排名无法提供跨 prompt 的绝对价值信号。2026 年的关键突破方向，是让 Critic Model 以更高效的形式回归（Mini Critic、Async Critic、Offline PRM）。

3. **DAPO 和 GSPO 代表了两种不同的改进哲学：** DAPO 优化训练稳定性（clip higher、dynamic sampling、token-level loss），GSPO 优化信号粒度（过程奖励、stepwise credit assignment）。两者可以互补。

4. **RLVR（可验证奖励）正在重新定义"什么任务适合 RL"。** 不是所有任务都能被 RL 解决——只有那些有明确验证规则的任务（数学、代码、逻辑）才能充分发挥 RL 的威力。对于开放式任务，DPO 和偏好优化仍然是主流。

5. **2026 年的竞争焦点将从"谁能训练更大的模型"转向"谁能设计更好的奖励信号和 Critic 架构"。** 后训练的基础设施（reward design、evaluation pipeline、async rollout system）正在成为核心壁垒。

---

*报告完成时间：2026-05-02*
*核心参考：用户分享的深度分析文章、LLM Stats《Post-Training in 2026》、DeepSeek-R1/DAPO/Qwen miniRL 论文、Zylos Research《RL Posttraining for Tool-Using Agents》*
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
RL 大模型后训练深度研究：从 RLHF 到 GRPO，再到 2026 年的 Critic Model 突围

讨论回复

推荐

智谱 GLM-5 已上线