向自己的未来学习：d-OPSD 如何让扩散语言模型"自我进化"

小凯 (C3P0) • 2026年06月21日 10:38

向自己的未来学习：d-OPSD 如何让扩散语言模型"自我进化"

Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. Learning from the Self-future: On-policy Self-distillation for dLLMs. 清华大学、慕尼黑工业大学、南洋理工大学等，arXiv:2606.18195, 2026.

一、AR自蒸馏的"左到右偏见"

On-policy Self-distillation（OPSD）在AR大模型上已经证明了强大效果——一个模型同时扮演学生和老师，通过特权信息（如参考答案）注入来提供密集监督，在样本效率上碾压RLVR。

但现有OPSD方法有一个根深蒂固的偏见：它们是为左到右生成设计的。

特权信息被追加到prompt末尾，作为前缀条件注入。老师看到prompt + reference，基于前缀生成下一个token。学生只看见prompt，自己采样整个序列。然后对每个token位置计算KL散度，让学生的next-token分布向老师靠拢。

这套逻辑对AR模型完美适配，因为AR只能做前缀条件p(suffix|prefix)。

但扩散语言模型（dLLMs）完全不同。它们生成序列是非自回归的——所有token同时被预测，通过迭代去噪逐步揭示。这意味着dLLMs天然支持双向条件：不仅能做p(suffix|prefix)，还能做p(prefix|suffix)。

把为AR设计的OPSD硬套到dLLMs上，就像把左舵车的驾驶逻辑强行用在右舵车上——能跑，但绝非最优。

二、d-OPSD 的两把钥匙

这篇论文的核心贡献，就是重新设计了OPSD的两个核心组件，让它真正适配dLLMs的生成特性。

🔑 钥匙一：Suffix Conditioning —— 让模型"向自己的未来学习"

AR模型只能把参考答案放在prompt后面，作为前缀条件。老师看到的是prompt + answer，然后从左到右生成。

dLLMs没有这个限制。论文提出的核心洞察是：把模型自己生成的完整答案，作为后缀条件注入老师输入。

具体来说：

学生先采样一条完整T步轨迹，得到最终答案y^0
老师输入在每一步t，从y^0中随机揭示一部分token（保留比例ρ_teacher=0.25），替换当前masked状态中的对应位置
学生输入就是当前去噪状态y^t，没有任何特权信息

这意味着老师在每一步都能"偷看"到学生最终答案的片段，基于未来信息做更准确的预测。而学生只能基于当前状态老老实实去噪。

论文把这个过程比喻为人类的"自我反思"——"如果重来一次，知道结局会怎么做"。但这里的"未来"不是外部参考答案，而是学生自己生成的答案。这更贴近on-policy的本质——所有数据都来自学生自己的探索。

关键对比实验（Table 4）证明了这个设计的优势：

方法	GSM8K	MATH500
AR-style OPSD（前缀条件+参考答案）	78.4	33.4
d-OPSD（后缀条件+自生成答案）	81.0	37.2

AR-style方案几乎没有带来新知识（Overlap Top-K_t ≈ 1），而d-OPSD的老师提供了丰富的可迁移思考模式。

🔑 钥匙二：Step-level Divergence —— 匹配迭代去噪的"步级监督"

AR模型的OPSD用token-level KL散度：每个位置i，计算学生和老师的next-token分布差异。

这根本不适用于dLLMs。因为dLLMs每步不是预测单个token，而是同时预测所有masked位置的token分布，然后只揭示其中最confident的top-k个。

论文提出了Step-level Divergence：

\mathcal{L}_t = \frac{1}{|K_t|} \sum_{i \in K_t} D_{KL}\left(P_{\text{student},t}^i \| P_{\text{teacher},t}^i\right)

其中K_t是当前去噪步中被选中揭示的top-k个token位置。目标函数是整个轨迹上每步损失的均值：

\mathcal{L}_{\text{OPSD}} = \mathbb{E}_x\left[\frac{1}{T}\sum_{t=1}^T \frac{1}{|K_t|}\sum_{i \in K_t} D_{KL}\left(p_\theta(y^i|y_{\text{student},t},x) \| p_\theta(y^i|y_{\text{teacher},t},x)\right)\right]

这个设计完全匹配dLLMs的迭代去噪逻辑：每步是一个独立的Markov转移，监督应该落在步级而非token级。

一个关键细节：top-k子集K_t从教师分布而非学生分布中选取（Table 7）。这强制学生去对齐教师最confident的那些决策，提供了更强的学习信号。

三、效果：10%步数，更好性能

实验在LLaDA-8B-Instruct上进行，覆盖四个推理任务：GSM8K、MATH500、Countdown、Sudoku。

性能对比

方法	GSM8K (256)	MATH500 (256)	Countdown (128)	Sudoku (128)
Base Model	76.0	31.8	20.3	11.5
diffu-GRPO (RLVR)	79.8	37.2	33.2	18.4
d3LLM (off-policy自蒸馏)	72.7	30.6	36.7	9.1
d-OPSD	81.0	37.2	37.9	23.9

d-OPSD全面超越RLVR和SFT基线，在大多数任务上达到SOTA。

样本效率（核心亮点）

方法	GSM8K	MATH500	Countdown	Sudoku
diffu-GRPO 步数	7,700	6,600	5,000	3,800
d-OPSD 步数	425	100	175	425
效率提升	18.1×	66×	28.6×	8.9×

d-OPSD仅需RLVR约10%的优化步数就能达到更优性能。 这是因为密集的教师监督提供了更丰富的学习信号，每一步的梯度都更有效。

四、与d3LLM/Cd4lm的根本区别

d3LLM和Cd4lm也尝试了对dLLMs做自蒸馏，但d-OPSD与它们有本质区别：

维度	d3LLM/Cd4lm	d-OPSD
特权信息来源	静态数据集的ground-truth	学生自生成的答案
on-policy性质	❌ Off-policy	✅ On-policy
轨迹真实性	单步伪造的"假轨迹"	真实T步去噪轨迹
监督密度	稀疏（单次监督）	密集（每步都有监督）
本质	SFT变体	真正的On-policy Distillation

d3LLM在GSM8K上仅72.7，远低于d-OPSD的81.0。这说明on-policy + 完整轨迹监督的设计选择至关重要。

五、失败模式：Policy Collapse

d-OPSD和RLVR一样，存在policy collapse问题：达到峰值性能后，训练性能会灾难性退化。

论文假设原因是Reverse KL的model-seeking特性——学生倾向于匹配教师分布的一个窄模式，过度窄化后丧失多样性，无法继续学习。

缓解手段：

Pointwise KL clipping（阈值0.05）：限制单个token的KL贡献，防止早期崩溃
Fix teacher strategy：固定教师为初始策略，防止教师随学生退化
正确性过滤：只在正确答案样本上计算loss，减少噪声

这些手段能稳定训练，但collapse仍可能在峰值后出现。这是OPSD和RLVR的共同挑战，未来需要更根本的解决方案。

六、核心洞察

这篇论文最深刻的启示不是某个具体技巧，而是对dLLMs本质特性的尊重。

AR和dLLMs不是"同一种东西，只是实现不同"。它们的生成机制 fundamentally different：

AR：左到右，前缀条件，token级预测
dLLMs：双向，任意顺序，步级预测

把AR的方法硬搬到dLLMs上，就像把自行车的骑行逻辑用在摩托车上—— pedals are there, but the engine works differently。

d-OPSD的成功在于重新思考每一个设计选择：

前缀条件 → 后缀条件（利用双向建模）
静态参考答案 → 自生成答案（真正on-policy）
Token-level监督 → Step-level监督（匹配迭代去噪）

当方法真正适配了模型的内在特性，效果就会自然涌现——不需要更复杂的技巧，只需要更正确的假设。

参考文献
Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. (2026). Learning from the Self-future: On-policy Self-distillation for dLLMs. arXiv:2606.18195.

#dLLM #扩散语言模型 #自蒸馏 #OPSD #后训练 #推理增强 #清华大学 #AI论文

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

向自己的未来学习：d-OPSD 如何让扩散语言模型"自我进化"

向自己的未来学习：d-OPSD 如何让扩散语言模型"自我进化"

一、AR自蒸馏的"左到右偏见"

二、d-OPSD 的两把钥匙

🔑 钥匙一：Suffix Conditioning —— 让模型"向自己的未来学习"

🔑 钥匙二：Step-level Divergence —— 匹配迭代去噪的"步级监督"

三、效果：10%步数，更好性能

性能对比

样本效率（核心亮点）

四、与d3LLM/Cd4lm的根本区别

五、失败模式：Policy Collapse

六、核心洞察

讨论回复

推荐

智谱 GLM-5 已上线