1. 核心问题:为什么纯 RL 不够用了?
2025 年初,DeepSeek R1 用 GRPO 证明了 RL 可以让模型自己"长"出推理能力。这是一个震撼性的结果——不需要人类标注,不需要 SFT 冷启动,只需要可验证的奖励(数学答案对不对、代码能不能编译)。
但 R1 之后,行业很快遇到了一个天花板。
纯 RL 有一个根本性的效率问题:信号密度太低。一条思考链可能有 500 个 token,但模型只能得到一个 reward——答案对或不对。这意味着平均每 token 的更新信号是 1/500。
相比之下,监督学习(SFT)每 token 都有监督信号。蒸馏(Distillation)每 token 都有教师 logit。RL 的效率瓶颈在这里暴露无遗。
OPD(On-Policy Distillation)正是在这个背景下崛起的。它不是取代 RL,而是在 RL 之后接管——用教师模型的密集信号来整合和巩固 RL 学到的能力。
---
2. OPD 的本质:Reverse KL + On-Policy 采样
2.1 三个后训练路线的对比
要理解 OPD 为什么有效,先看三条路线的根本差异:
路线一:纯 RL(GRPO/PPO)
- 学生自己生成回答
- 每回答一个标量 reward
- 信号密度:~1/序列长度
- 优势:可以探索预训练分布之外的新能力
- 劣势:训练不稳定、信号稀疏、灾难性遗忘
- 教师生成回答,学生照着学
- 每 token 都有教师信号
- 信号密度:1(每 token 一个 logit 对比)
- 优势:信号密集、训练稳定
- 劣势:分布错位(exposure bias)——学生在测试时生成的 token 与训练时教师轨迹不同,后续 token 的监督信号就失真了
- 学生自己生成回答(on-policy)
- 教师对学生的每个 token 打分(per-token dense signal)
- 信号密度:1
- 优势:既避免了分布错位,又有密集信号
- 劣势:需要强大的教师模型
2.2 Reverse KL 的 Mode-Seeking
OPD 的数学形式是:
L_OPD = -E_{y ~ π_θ} [ log(π_teacher(y|x) / π_θ(y|x)) ]
= D_KL(π_θ || π_teacher)
注意这里是 Reverse KL(学生在前,教师在后),不是 Forward KL。
关键区别:Reverse KL 是 mode-seeking(寻找模式),Forward KL 是 mean-seeking(寻找平均)。
想象教师模型对一个数学问题有 10 种可能的解法,其中 2 种是高概率的,其余 8 种概率很低。
- Forward KL(mean-seeking):学生会试图覆盖教师的所有输出,包括那些低概率的解法。结果学生什么都学一点,什么都不精。
- Reverse KL(mode-seeking):学生会集中学习教师最认可的解法。如果学生已经偏离了教师的高概率区域,梯度会把它拉回来;如果学生在教师概率为零的地方,KL 项本身就是零,没有梯度——学生不会被强迫去覆盖那些教师不认可的区域。
2.3 工程实现:一行代码的改动
在已有 GRPO 框架上接入 OPD,改动出奇地小。GRPO 原来的优势估计:
A_i = (r_i - mean_group) / std_group
OPD 的优势估计:
A_t = stop_grad[ log(π_teacher(y_t|x,y_<t) / π_θ(y_t|x,y_<t)) ]
把组内归一化的奖励替换为教师-学生的 log ratio。这就是 thinkingmachines.ai 所说的 "a one-line change"。
---
3. 四家的技术分歧:同一个公式,四种解法
2025 年 5 月到 2026 年 4 月,Qwen3、GLM-5、MiMo-V2、DeepSeek V4 相继在技术报告中阐述 OPD。但四家的实现有显著分歧,形成了事实上的"OPD 变种谱系"。
3.1 分歧一:KL 计算粒度——Token-Level vs Full-Vocabulary
Token-Level(Qwen3、GLM-5、MiMo):只计算教师在实际被采样的那个 token 上的概率。这是完整 KL 的蒙特卡洛近似,计算量极小。
Full-Vocabulary(DeepSeek V4):计算教师在整个词表上的完整分布与学生分布的 KL。这需要词表维度 × 序列长度的显存。
DeepSeek V4 的原文批评 token-level 近似:"高方差梯度估计、训练不稳定"。
为了支撑 Full-Vocabulary KL,DeepSeek V4 开发了三层工程基础设施: 1. 教师权重调度:ZeRO-like 参数共享,按需加载,不长驻显存 2. Hidden State 缓存:只缓存教师最后一层 hidden state,需要 logit 时临时过 prediction head 重建 3. TileLang 专用 kernel:加速精确 KL 计算
判断: Token-level 是"够用且便宜"的方案,Full-Vocabulary 是"更好但更贵"的方案。随着工程基础设施的开源(DeepSeek 已开源 TileLang),行业可能会向 Full-Vocabulary 收敛。
3.2 分歧二:额外奖励——纯蒸馏 vs OPD + ORM
纯蒸馏(GLM-5、DeepSeek V4):OPD 阶段只用 KL 散度,不叠加 outcome reward。
GLM-5 的逻辑:OPD 是收尾阶段,目标纯粹是"恢复能力",不需要探索新行为。
DeepSeek V4 的逻辑:用 OPD 完全替代 mixed RL,整个统一化过程只有 KL 信号驱动。
混合信号(MiMo MOPD):KL 项 + α × ORM 项。
MiMo 的 ablation 证明了一个层级关系:纯 ORM RL < MOPD w/o ORM < MOPD(ORM + KL)。
KL 加速收敛,ORM 保持与可验证结果的对齐,缺一不可。
判断: 如果 OPD 的目标是"恢复和整合"(GLM-5、DeepSeek V4),纯蒸馏足够。如果目标是"继续提升"(MiMo),需要保留 RL 的全局信号。
3.3 分歧三:教师选取——同架构 vs 异构多专家
同架构前序 checkpoint(GLM-5):教师是同一个模型在 Reasoning RL 和 General RL 两个阶段的 checkpoint。架构和词表完全对齐,实现最简单。
多领域专家路由(MiMo):教师集合包括各领域 RL 专家(代码、数学、搜索、通用)+ SFT 模型 + 学生自身(self-distillation)。任务域标签决定路由到哪个教师。
10+ 万亿参数异构专家(DeepSeek V4):独立训练 10 个以上专家模型,每个覆盖一个领域,还有三种推理强度变体。per-expert 权重加权贡献。
大→小跨尺度(Qwen3):教师固定为旗舰模型(235B-A22B 或 32B),学生是 0.6B 到 30B 的轻量模型。四家中尺度跨度最大。
判断: 教师数量越多、异构程度越高,OPD 的信号越丰富,但工程复杂度也越高。Qwen3 的跨尺度蒸馏和 DeepSeek V4 的多专家整合代表了 OPD 的两个极端应用场景。
3.4 分歧四:Pipeline 位置
| 模型 | OPD 位置 | 功能定位 |
|---|---|---|
| Qwen3 | 轻量模型独立子流水线 | 替代完整 RL,效率优先 |
| GLM-5 | 最终收尾阶段 | 防灾难性遗忘,能力恢复 |
| MiMo | 主体第三阶段 | 多专家能力整合 |
| DeepSeek V4 | 统一化阶段(替代 mixed RL) | 10+ 专家知识压缩入单模型 |
4. 效果验证:数据说话
4.1 thinkingmachines.ai 的基准对比
从同一个 off-policy 蒸馏 checkpoint 出发,AIME'24 数学推理:
| 方法 | 得分 | 相对计算量 |
|---|---|---|
| Off-policy 蒸馏(基线) | 60% | 1× |
| 纯 RL | 67.6% | 10× |
| On-Policy 蒸馏 | 74.4% | 1× |
4.2 Qwen3 的量产效率
Qwen3-30B-A3B(总参数 30B,激活 3B)通过 OPD 获得的推理能力,与 QwQ-32B(32B 全激活)相当。
整个轻量模型系列(6 个规模)的 OPD 训练,只需要旗舰四阶段 RL 的 1/10 GPU 时间。
4.3 GLM-5 的多能力并线
OPD 作为收尾阶段,让 GLM-5 在 LMArena 中文本和代码双榜登顶,Humanity's Last Exam 50.4,SWE-bench Verified 77.8,Terminal-Bench 2.0 56.2——均优于或持平 Claude Opus 4.5。
4.4 MiMo 的超越教师
MOPD 让学生模型在多个指标上超越最强教师:AIME 2025 +0.2,HMMT Feb 2025 +1.8,LiveCodeBench +0.6,HLE +0.9。
这是 OPD 的一个反直觉结果:学生不仅可以复制教师,还可以通过多教师信号的组合产生"涌现"能力。
---
5. 深层洞察:为什么 OPD 有效?
5.1 Logit 空间优于参数空间
传统知识整合(weight merge、adapter 叠加、mixed RL)都在参数空间操作。问题是:不同专家的能力在参数空间里会互相干扰。
OPD 的洞察是:把整合操作搬到 logit 空间。
每个专家模型独立存在,它们的知识以 logit 分布的形式流入学生。学生的参数在自己的轨迹上学习,两个空间互不干扰。
这个洞察被四家团队从不同角度独立发现,说明它触及了某种结构性真理:语言模型的能力,在 logit 空间比在参数空间更容易合并、迁移和保留。
5.2 Reverse KL = On-Policy = 不易遗忘
Forward KL(mean-seeking)+ Off-Policy 的组合,会让学生覆盖教师的所有输出分布。这包括教师在其他领域的输出——当学生试图"平均"多个教师时,它会遗忘自己已经掌握的能力。
Reverse KL(mode-seeking)+ On-Policy 的组合则不同:学生只在自己已经生成的轨迹上向教师靠拢。如果学生在某个领域已经表现不错,它生成的轨迹就不会偏离教师的模式,KL 项自然很小,不会干扰已有能力。
这就是为什么 GLM-5 用 OPD 解决灾难性遗忘——不是通过某种特殊的"防遗忘机制",而是通过 OPD 的数学结构本身。
5.3 信号密度的数量级差异
ThinkingMachines 的估计:OPD 的信号密度约为纯 RL 的 50-100 倍。
这个数字的含义:如果 RL 需要 10,000 步才能收敛,OPD 可能只需要 100-200 步。这不是因为 OPD 的每步信息量大,而是因为每 token 都有信号,而不是每序列只有一个信号。
---
6. 2026 年的演化方向
6.1 Full-Vocabulary KL 成为标配
DeepSeek V4 已经证明了全词表 KL 的理论和工程可行性。随着 TileLang 等基础设施的开源,主要实验室的 OPD 实现会向 Full-Vocabulary 收敛。
6.2 OPD + PRM:从结果监督到过程监督
MiMo 的 MOPD 证明 KL + ORM 的组合优于单独任一。下一步是将 ORM 替换为 PRM(Process Reward Model),给每个推理步骤打分。
PRM + OPD 的组合,可能是目前最密集的训练信号配置:教师 logit(全局方向)+ PRM(步骤正确性)+ ORM(最终结果)。
6.3 Iterative Co-Evolution:师生螺旋
MiMo 论文提出了一个前瞻性路线:蒸馏产生的学生模型可以重新进入专家 RL 训练,成为更强的下一代教师,再反哺下一代学生。
这与 AlphaZero 的 self-play 范式在结构上高度相似,区别在于 OPD 让"教师-学生"角色的切换更可控。
6.4 Inference-Time Distillation:推理时的动态教师
目前的 OPD 全部发生在训练阶段。更激进的方向是推理时蒸馏:在关键"forking token"(决定推理路径走向的节点)上,实时查询教师模型的分布,在 beam search 或 sampling 中加入教师引导。
ThinkingMachines 的博客在实验中自然发现了 forking token 的存在——这些 token 上 OPD 的惩罚信号特别大,说明它们正是学生偏离教师正确路径的关键节点。
---
7. 关键结论
1. OPD 不是蒸馏的升级版,而是 RL 的补充品。 它的核心作用不是"教新知识",而是"稳定地整合和巩固 RL 学到的能力"。
2. Reverse KL 的 mode-seeking 性质是 OPD 不易遗忘的根本原因。 学生只在自己的轨迹上向教师靠拢,不会被迫覆盖教师在其他领域的输出分布。
3. 四家团队的分歧不是"谁对谁错",而是"场景不同"。 Qwen3 要效率(量产小模型),GLM-5 要恢复(防遗忘),MiMo 要整合(多专家),DeepSeek V4 要压缩(10+ 专家入单模型)。
4. OPD 的最大工程挑战不是算法,而是基础设施。 DeepSeek V4 的三层方案(权重调度、hidden state 缓存、专用 kernel)说明,Full-Vocabulary OPD 的门槛在于系统能力,而非数学复杂度。
5. 从参数空间到 logit 空间的转移,可能是后训练领域最重要的范式转变。 当模型规模持续扩大、专家数量持续增加,参数空间的整合会变得越来越困难。OPD 提供了一条绕过这个瓶颈的路径。
---
*报告完成时间:2026-05-02* *核心参考:用户分享深度分析文章、Qwen3 Technical Report (2505.09388)、GLM-5 (2602.15763)、MiMo-V2-Flash (2601.02780)、DeepSeek-V4 Technical Report、arXiv 2604.13016 "Rethinking OPD"、arXiv 2603.25562 "Empirical Failure Modes"、ThinkingMachines.ai OPD 博客*