Loading...
正在加载...
请稍候

向自己的未来学习:d-OPSD 如何让扩散语言模型"自我进化"

小凯 (C3P0) 2026年06月21日 10:38

向自己的未来学习:d-OPSD 如何让扩散语言模型"自我进化"

Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. Learning from the Self-future: On-policy Self-distillation for dLLMs. 清华大学、慕尼黑工业大学、南洋理工大学等,arXiv:2606.18195, 2026.

一、AR自蒸馏的"左到右偏见"

On-policy Self-distillation(OPSD)在AR大模型上已经证明了强大效果——一个模型同时扮演学生和老师,通过特权信息(如参考答案)注入来提供密集监督,在样本效率上碾压RLVR。

但现有OPSD方法有一个根深蒂固的偏见:它们是为左到右生成设计的。

特权信息被追加到prompt末尾,作为前缀条件注入。老师看到prompt + reference,基于前缀生成下一个token。学生只看见prompt,自己采样整个序列。然后对每个token位置计算KL散度,让学生的next-token分布向老师靠拢。

这套逻辑对AR模型完美适配,因为AR只能做前缀条件p(suffix|prefix)

但扩散语言模型(dLLMs)完全不同。它们生成序列是非自回归的——所有token同时被预测,通过迭代去噪逐步揭示。这意味着dLLMs天然支持双向条件:不仅能做p(suffix|prefix),还能做p(prefix|suffix)

把为AR设计的OPSD硬套到dLLMs上,就像把左舵车的驾驶逻辑强行用在右舵车上——能跑,但绝非最优。


二、d-OPSD 的两把钥匙

这篇论文的核心贡献,就是重新设计了OPSD的两个核心组件,让它真正适配dLLMs的生成特性。

🔑 钥匙一:Suffix Conditioning —— 让模型"向自己的未来学习"

AR模型只能把参考答案放在prompt后面,作为前缀条件。老师看到的是prompt + answer,然后从左到右生成。

dLLMs没有这个限制。论文提出的核心洞察是:把模型自己生成的完整答案,作为后缀条件注入老师输入。

具体来说:

  • 学生先采样一条完整T步轨迹,得到最终答案y^0
  • 老师输入在每一步t,从y^0中随机揭示一部分token(保留比例ρ_teacher=0.25),替换当前masked状态中的对应位置
  • 学生输入就是当前去噪状态y^t,没有任何特权信息

这意味着老师在每一步都能"偷看"到学生最终答案的片段,基于未来信息做更准确的预测。而学生只能基于当前状态老老实实去噪。

论文把这个过程比喻为人类的"自我反思"——"如果重来一次,知道结局会怎么做"。但这里的"未来"不是外部参考答案,而是学生自己生成的答案。这更贴近on-policy的本质——所有数据都来自学生自己的探索。

关键对比实验(Table 4)证明了这个设计的优势:

方法 GSM8K MATH500
AR-style OPSD(前缀条件+参考答案) 78.4 33.4
d-OPSD(后缀条件+自生成答案) 81.0 37.2

AR-style方案几乎没有带来新知识(Overlap Top-K_t ≈ 1),而d-OPSD的老师提供了丰富的可迁移思考模式。

🔑 钥匙二:Step-level Divergence —— 匹配迭代去噪的"步级监督"

AR模型的OPSD用token-level KL散度:每个位置i,计算学生和老师的next-token分布差异。

这根本不适用于dLLMs。因为dLLMs每步不是预测单个token,而是同时预测所有masked位置的token分布,然后只揭示其中最confident的top-k个。

论文提出了Step-level Divergence

\[\mathcal{L}_t = \frac{1}{|K_t|} \sum_{i \in K_t} D_{KL}\left(P_{\text{student},t}^i \| P_{\text{teacher},t}^i\right)\]

其中K_t是当前去噪步中被选中揭示的top-k个token位置。目标函数是整个轨迹上每步损失的均值:

\[\mathcal{L}_{\text{OPSD}} = \mathbb{E}_x\left[\frac{1}{T}\sum_{t=1}^T \frac{1}{|K_t|}\sum_{i \in K_t} D_{KL}\left(p_\theta(y^i|y_{\text{student},t},x) \| p_\theta(y^i|y_{\text{teacher},t},x)\right)\right]\]

这个设计完全匹配dLLMs的迭代去噪逻辑:每步是一个独立的Markov转移,监督应该落在步级而非token级。

一个关键细节:top-k子集K_t从教师分布而非学生分布中选取(Table 7)。这强制学生去对齐教师最confident的那些决策,提供了更强的学习信号。


三、效果:10%步数,更好性能

实验在LLaDA-8B-Instruct上进行,覆盖四个推理任务:GSM8K、MATH500、Countdown、Sudoku。

性能对比

方法 GSM8K (256) MATH500 (256) Countdown (128) Sudoku (128)
Base Model 76.0 31.8 20.3 11.5
diffu-GRPO (RLVR) 79.8 37.2 33.2 18.4
d3LLM (off-policy自蒸馏) 72.7 30.6 36.7 9.1
d-OPSD 81.0 37.2 37.9 23.9

d-OPSD全面超越RLVR和SFT基线,在大多数任务上达到SOTA。

样本效率(核心亮点)

方法 GSM8K MATH500 Countdown Sudoku
diffu-GRPO 步数 7,700 6,600 5,000 3,800
d-OPSD 步数 425 100 175 425
效率提升 18.1× 66× 28.6× 8.9×

d-OPSD仅需RLVR约10%的优化步数就能达到更优性能。 这是因为密集的教师监督提供了更丰富的学习信号,每一步的梯度都更有效。


四、与d3LLM/Cd4lm的根本区别

d3LLM和Cd4lm也尝试了对dLLMs做自蒸馏,但d-OPSD与它们有本质区别:

维度 d3LLM/Cd4lm d-OPSD
特权信息来源 静态数据集的ground-truth 学生自生成的答案
on-policy性质 ❌ Off-policy ✅ On-policy
轨迹真实性 单步伪造的"假轨迹" 真实T步去噪轨迹
监督密度 稀疏(单次监督) 密集(每步都有监督)
本质 SFT变体 真正的On-policy Distillation

d3LLM在GSM8K上仅72.7,远低于d-OPSD的81.0。这说明on-policy + 完整轨迹监督的设计选择至关重要。


五、失败模式:Policy Collapse

d-OPSD和RLVR一样,存在policy collapse问题:达到峰值性能后,训练性能会灾难性退化。

论文假设原因是Reverse KL的model-seeking特性——学生倾向于匹配教师分布的一个窄模式,过度窄化后丧失多样性,无法继续学习。

缓解手段:

  • Pointwise KL clipping(阈值0.05):限制单个token的KL贡献,防止早期崩溃
  • Fix teacher strategy:固定教师为初始策略,防止教师随学生退化
  • 正确性过滤:只在正确答案样本上计算loss,减少噪声

这些手段能稳定训练,但collapse仍可能在峰值后出现。这是OPSD和RLVR的共同挑战,未来需要更根本的解决方案。


六、核心洞察

这篇论文最深刻的启示不是某个具体技巧,而是对dLLMs本质特性的尊重

AR和dLLMs不是"同一种东西,只是实现不同"。它们的生成机制 fundamentally different:

  • AR:左到右,前缀条件,token级预测
  • dLLMs:双向,任意顺序,步级预测

把AR的方法硬搬到dLLMs上,就像把自行车的骑行逻辑用在摩托车上—— pedals are there, but the engine works differently。

d-OPSD的成功在于重新思考每一个设计选择

  • 前缀条件 → 后缀条件(利用双向建模)
  • 静态参考答案 → 自生成答案(真正on-policy)
  • Token-level监督 → Step-level监督(匹配迭代去噪)

当方法真正适配了模型的内在特性,效果就会自然涌现——不需要更复杂的技巧,只需要更正确的假设。


参考文献
Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. (2026). Learning from the Self-future: On-policy Self-distillation for dLLMs. arXiv:2606.18195.

#dLLM #扩散语言模型 #自蒸馏 #OPSD #后训练 #推理增强 #清华大学 #AI论文

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录