On-Policy Distillation 深度研究：后训练的新范式，以及四家大厂的工程博弈

1. 核心问题：为什么纯 RL 不够用了？

2025 年初，DeepSeek R1 用 GRPO 证明了 RL 可以让模型自己"长"出推理能力。这是一个震撼性的结果——不需要人类标注，不需要 SFT 冷启动，只需要可验证的奖励（数学答案对不对、代码能不能编译）。

但 R1 之后，行业很快遇到了一个天花板。

纯 RL 有一个根本性的效率问题：信号密度太低。一条思考链可能有 500 个 token，但模型只能得到一个 reward——答案对或不对。这意味着平均每 token 的更新信号是 1/500。

相比之下，监督学习（SFT）每 token 都有监督信号。蒸馏（Distillation）每 token 都有教师 logit。RL 的效率瓶颈在这里暴露无遗。

OPD（On-Policy Distillation）正是在这个背景下崛起的。它不是取代 RL，而是在 RL 之后接管——用教师模型的密集信号来整合和巩固 RL 学到的能力。

---

2. OPD 的本质：Reverse KL + On-Policy 采样

2.1 三个后训练路线的对比

要理解 OPD 为什么有效，先看三条路线的根本差异：

路线一：纯 RL（GRPO/PPO）

学生自己生成回答
每回答一个标量 reward
信号密度：~1/序列长度
优势：可以探索预训练分布之外的新能力
劣势：训练不稳定、信号稀疏、灾难性遗忘

路线二：Off-Policy 蒸馏（SFT / Logit 对齐）

教师生成回答，学生照着学
每 token 都有教师信号
信号密度：1（每 token 一个 logit 对比）
优势：信号密集、训练稳定
劣势：分布错位（exposure bias）——学生在测试时生成的 token 与训练时教师轨迹不同，后续 token 的监督信号就失真了

路线三：On-Policy Distillation

学生自己生成回答（on-policy）
教师对学生的每个 token 打分（per-token dense signal）
信号密度：1
优势：既避免了分布错位，又有密集信号
劣势：需要强大的教师模型

2.2 Reverse KL 的 Mode-Seeking

OPD 的数学形式是：

L_OPD = -E_{y ~ π_θ} [ log(π_teacher(y|x) / π_θ(y|x)) ]
      = D_KL(π_θ || π_teacher)

注意这里是 Reverse KL（学生在前，教师在后），不是 Forward KL。

关键区别：Reverse KL 是 mode-seeking（寻找模式），Forward KL 是 mean-seeking（寻找平均）。

想象教师模型对一个数学问题有 10 种可能的解法，其中 2 种是高概率的，其余 8 种概率很低。

Forward KL（mean-seeking）：学生会试图覆盖教师的所有输出，包括那些低概率的解法。结果学生什么都学一点，什么都不精。
Reverse KL（mode-seeking）：学生会集中学习教师最认可的解法。如果学生已经偏离了教师的高概率区域，梯度会把它拉回来；如果学生在教师概率为零的地方，KL 项本身就是零，没有梯度——学生不会被强迫去覆盖那些教师不认可的区域。

这对推理任务恰恰合适：数学题有正确答案，不需要模型均匀地模仿所有可能的推导风格。

2.3 工程实现：一行代码的改动

在已有 GRPO 框架上接入 OPD，改动出奇地小。GRPO 原来的优势估计：

A_i = (r_i - mean_group) / std_group

OPD 的优势估计：

A_t = stop_grad[ log(π_teacher(y_t|x,y_&lt;t) / π_θ(y_t|x,y_&lt;t)) ]

把组内归一化的奖励替换为教师-学生的 log ratio。这就是 thinkingmachines.ai 所说的 "a one-line change"。

---

3. 四家的技术分歧：同一个公式，四种解法

2025 年 5 月到 2026 年 4 月，Qwen3、GLM-5、MiMo-V2、DeepSeek V4 相继在技术报告中阐述 OPD。但四家的实现有显著分歧，形成了事实上的"OPD 变种谱系"。

3.1 分歧一：KL 计算粒度——Token-Level vs Full-Vocabulary

Token-Level（Qwen3、GLM-5、MiMo）：只计算教师在实际被采样的那个 token 上的概率。这是完整 KL 的蒙特卡洛近似，计算量极小。

Full-Vocabulary（DeepSeek V4）：计算教师在整个词表上的完整分布与学生分布的 KL。这需要词表维度 × 序列长度的显存。

DeepSeek V4 的原文批评 token-level 近似："高方差梯度估计、训练不稳定"。

为了支撑 Full-Vocabulary KL，DeepSeek V4 开发了三层工程基础设施： 1. 教师权重调度：ZeRO-like 参数共享，按需加载，不长驻显存 2. Hidden State 缓存：只缓存教师最后一层 hidden state，需要 logit 时临时过 prediction head 重建 3. TileLang 专用 kernel：加速精确 KL 计算

判断： Token-level 是"够用且便宜"的方案，Full-Vocabulary 是"更好但更贵"的方案。随着工程基础设施的开源（DeepSeek 已开源 TileLang），行业可能会向 Full-Vocabulary 收敛。

3.2 分歧二：额外奖励——纯蒸馏 vs OPD + ORM

纯蒸馏（GLM-5、DeepSeek V4）：OPD 阶段只用 KL 散度，不叠加 outcome reward。

GLM-5 的逻辑：OPD 是收尾阶段，目标纯粹是"恢复能力"，不需要探索新行为。

DeepSeek V4 的逻辑：用 OPD 完全替代 mixed RL，整个统一化过程只有 KL 信号驱动。

混合信号（MiMo MOPD）：KL 项 + α × ORM 项。

MiMo 的 ablation 证明了一个层级关系：纯 ORM RL < MOPD w/o ORM < MOPD（ORM + KL）。

KL 加速收敛，ORM 保持与可验证结果的对齐，缺一不可。

判断： 如果 OPD 的目标是"恢复和整合"（GLM-5、DeepSeek V4），纯蒸馏足够。如果目标是"继续提升"（MiMo），需要保留 RL 的全局信号。

3.3 分歧三：教师选取——同架构 vs 异构多专家

同架构前序 checkpoint（GLM-5）：教师是同一个模型在 Reasoning RL 和 General RL 两个阶段的 checkpoint。架构和词表完全对齐，实现最简单。

多领域专家路由（MiMo）：教师集合包括各领域 RL 专家（代码、数学、搜索、通用）+ SFT 模型 + 学生自身（self-distillation）。任务域标签决定路由到哪个教师。

10+ 万亿参数异构专家（DeepSeek V4）：独立训练 10 个以上专家模型，每个覆盖一个领域，还有三种推理强度变体。per-expert 权重加权贡献。

大→小跨尺度（Qwen3）：教师固定为旗舰模型（235B-A22B 或 32B），学生是 0.6B 到 30B 的轻量模型。四家中尺度跨度最大。

判断： 教师数量越多、异构程度越高，OPD 的信号越丰富，但工程复杂度也越高。Qwen3 的跨尺度蒸馏和 DeepSeek V4 的多专家整合代表了 OPD 的两个极端应用场景。

3.4 分歧四：Pipeline 位置

模型	OPD 位置	功能定位
Qwen3	轻量模型独立子流水线	替代完整 RL，效率优先
GLM-5	最终收尾阶段	防灾难性遗忘，能力恢复
MiMo	主体第三阶段	多专家能力整合
DeepSeek V4	统一化阶段（替代 mixed RL）	10+ 专家知识压缩入单模型

---

4. 效果验证：数据说话

4.1 thinkingmachines.ai 的基准对比

从同一个 off-policy 蒸馏 checkpoint 出发，AIME'24 数学推理：

方法	得分	相对计算量
Off-policy 蒸馏（基线）	60%	1×
纯 RL	67.6%	10×
On-Policy 蒸馏	74.4%	1×

OPD 以 1/10 的 RL 计算量，超越了 RL 本身。

4.2 Qwen3 的量产效率

Qwen3-30B-A3B（总参数 30B，激活 3B）通过 OPD 获得的推理能力，与 QwQ-32B（32B 全激活）相当。

整个轻量模型系列（6 个规模）的 OPD 训练，只需要旗舰四阶段 RL 的 1/10 GPU 时间。

4.3 GLM-5 的多能力并线

OPD 作为收尾阶段，让 GLM-5 在 LMArena 中文本和代码双榜登顶，Humanity's Last Exam 50.4，SWE-bench Verified 77.8，Terminal-Bench 2.0 56.2——均优于或持平 Claude Opus 4.5。

4.4 MiMo 的超越教师

MOPD 让学生模型在多个指标上超越最强教师：AIME 2025 +0.2，HMMT Feb 2025 +1.8，LiveCodeBench +0.6，HLE +0.9。

这是 OPD 的一个反直觉结果：学生不仅可以复制教师，还可以通过多教师信号的组合产生"涌现"能力。

---

5. 深层洞察：为什么 OPD 有效？

5.1 Logit 空间优于参数空间

传统知识整合（weight merge、adapter 叠加、mixed RL）都在参数空间操作。问题是：不同专家的能力在参数空间里会互相干扰。

OPD 的洞察是：把整合操作搬到 logit 空间。

每个专家模型独立存在，它们的知识以 logit 分布的形式流入学生。学生的参数在自己的轨迹上学习，两个空间互不干扰。

这个洞察被四家团队从不同角度独立发现，说明它触及了某种结构性真理：语言模型的能力，在 logit 空间比在参数空间更容易合并、迁移和保留。

5.2 Reverse KL = On-Policy = 不易遗忘

Forward KL（mean-seeking）+ Off-Policy 的组合，会让学生覆盖教师的所有输出分布。这包括教师在其他领域的输出——当学生试图"平均"多个教师时，它会遗忘自己已经掌握的能力。

Reverse KL（mode-seeking）+ On-Policy 的组合则不同：学生只在自己已经生成的轨迹上向教师靠拢。如果学生在某个领域已经表现不错，它生成的轨迹就不会偏离教师的模式，KL 项自然很小，不会干扰已有能力。

这就是为什么 GLM-5 用 OPD 解决灾难性遗忘——不是通过某种特殊的"防遗忘机制"，而是通过 OPD 的数学结构本身。

5.3 信号密度的数量级差异

ThinkingMachines 的估计：OPD 的信号密度约为纯 RL 的 50-100 倍。

这个数字的含义：如果 RL 需要 10,000 步才能收敛，OPD 可能只需要 100-200 步。这不是因为 OPD 的每步信息量大，而是因为每 token 都有信号，而不是每序列只有一个信号。

---

6. 2026 年的演化方向

6.1 Full-Vocabulary KL 成为标配

DeepSeek V4 已经证明了全词表 KL 的理论和工程可行性。随着 TileLang 等基础设施的开源，主要实验室的 OPD 实现会向 Full-Vocabulary 收敛。

6.2 OPD + PRM：从结果监督到过程监督

MiMo 的 MOPD 证明 KL + ORM 的组合优于单独任一。下一步是将 ORM 替换为 PRM（Process Reward Model），给每个推理步骤打分。

PRM + OPD 的组合，可能是目前最密集的训练信号配置：教师 logit（全局方向）+ PRM（步骤正确性）+ ORM（最终结果）。

6.3 Iterative Co-Evolution：师生螺旋

MiMo 论文提出了一个前瞻性路线：蒸馏产生的学生模型可以重新进入专家 RL 训练，成为更强的下一代教师，再反哺下一代学生。

这与 AlphaZero 的 self-play 范式在结构上高度相似，区别在于 OPD 让"教师-学生"角色的切换更可控。

6.4 Inference-Time Distillation：推理时的动态教师

目前的 OPD 全部发生在训练阶段。更激进的方向是推理时蒸馏：在关键"forking token"（决定推理路径走向的节点）上，实时查询教师模型的分布，在 beam search 或 sampling 中加入教师引导。

ThinkingMachines 的博客在实验中自然发现了 forking token 的存在——这些 token 上 OPD 的惩罚信号特别大，说明它们正是学生偏离教师正确路径的关键节点。

---

7. 关键结论

1. OPD 不是蒸馏的升级版，而是 RL 的补充品。 它的核心作用不是"教新知识"，而是"稳定地整合和巩固 RL 学到的能力"。

2. Reverse KL 的 mode-seeking 性质是 OPD 不易遗忘的根本原因。 学生只在自己的轨迹上向教师靠拢，不会被迫覆盖教师在其他领域的输出分布。

3. 四家团队的分歧不是"谁对谁错"，而是"场景不同"。 Qwen3 要效率（量产小模型），GLM-5 要恢复（防遗忘），MiMo 要整合（多专家），DeepSeek V4 要压缩（10+ 专家入单模型）。

4. OPD 的最大工程挑战不是算法，而是基础设施。 DeepSeek V4 的三层方案（权重调度、hidden state 缓存、专用 kernel）说明，Full-Vocabulary OPD 的门槛在于系统能力，而非数学复杂度。

5. 从参数空间到 logit 空间的转移，可能是后训练领域最重要的范式转变。 当模型规模持续扩大、专家数量持续增加，参数空间的整合会变得越来越困难。OPD 提供了一条绕过这个瓶颈的路径。

---

*报告完成时间：2026-05-02* *核心参考：用户分享深度分析文章、Qwen3 Technical Report (2505.09388)、GLM-5 (2602.15763)、MiMo-V2-Flash (2601.02780)、DeepSeek-V4 Technical Report、arXiv 2604.13016 "Rethinking OPD"、arXiv 2603.25562 "Empirical Failure Modes"、ThinkingMachines.ai OPD 博客*