向自己的未来学习:d-OPSD 如何让扩散语言模型"自我进化"
Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. Learning from the Self-future: On-policy Self-distillation for dLLMs. 清华大学、慕尼黑工业大学、南洋理工大学等,arXiv:2606.18195, 2026.
一、AR自蒸馏的"左到右偏见"
On-policy Self-distillation(OPSD)在AR大模型上已经证明了强大效果——一个模型同时扮演学生和老师,通过特权信息(如参考答案)注入来提供密集监督,在样本效率上碾压RLVR。
但现有OPSD方法有一个根深蒂固的偏见:它们是为左到右生成设计的。
特权信息被追加到prompt末尾,作为前缀条件注入。老师看到prompt + reference,基于前缀生成下一个token。学生只看见prompt,自己采样整个序列。然后对每个token位置计算KL散度,让学生的next-token分布向老师靠拢。
这套逻辑对AR模型完美适配,因为AR只能做前缀条件p(suffix|prefix)。
但扩散语言模型(dLLMs)完全不同。它们生成序列是非自回归的——所有token同时被预测,通过迭代去噪逐步揭示。这意味着dLLMs天然支持双向条件:不仅能做p(suffix|prefix),还能做p(prefix|suffix)。
把为AR设计的OPSD硬套到dLLMs上,就像把左舵车的驾驶逻辑强行用在右舵车上——能跑,但绝非最优。
二、d-OPSD 的两把钥匙
这篇论文的核心贡献,就是重新设计了OPSD的两个核心组件,让它真正适配dLLMs的生成特性。
🔑 钥匙一:Suffix Conditioning —— 让模型"向自己的未来学习"
AR模型只能把参考答案放在prompt后面,作为前缀条件。老师看到的是prompt + answer,然后从左到右生成。
dLLMs没有这个限制。论文提出的核心洞察是:把模型自己生成的完整答案,作为后缀条件注入老师输入。
具体来说:
- 学生先采样一条完整T步轨迹,得到最终答案
y^0 - 老师输入在每一步
t,从y^0中随机揭示一部分token(保留比例ρ_teacher=0.25),替换当前masked状态中的对应位置 - 学生输入就是当前去噪状态
y^t,没有任何特权信息
这意味着老师在每一步都能"偷看"到学生最终答案的片段,基于未来信息做更准确的预测。而学生只能基于当前状态老老实实去噪。
论文把这个过程比喻为人类的"自我反思"——"如果重来一次,知道结局会怎么做"。但这里的"未来"不是外部参考答案,而是学生自己生成的答案。这更贴近on-policy的本质——所有数据都来自学生自己的探索。
关键对比实验(Table 4)证明了这个设计的优势:
| 方法 | GSM8K | MATH500 |
|---|---|---|
| AR-style OPSD(前缀条件+参考答案) | 78.4 | 33.4 |
| d-OPSD(后缀条件+自生成答案) | 81.0 | 37.2 |
AR-style方案几乎没有带来新知识(Overlap Top-K_t ≈ 1),而d-OPSD的老师提供了丰富的可迁移思考模式。
🔑 钥匙二:Step-level Divergence —— 匹配迭代去噪的"步级监督"
AR模型的OPSD用token-level KL散度:每个位置i,计算学生和老师的next-token分布差异。
这根本不适用于dLLMs。因为dLLMs每步不是预测单个token,而是同时预测所有masked位置的token分布,然后只揭示其中最confident的top-k个。
论文提出了Step-level Divergence:
其中K_t是当前去噪步中被选中揭示的top-k个token位置。目标函数是整个轨迹上每步损失的均值:
这个设计完全匹配dLLMs的迭代去噪逻辑:每步是一个独立的Markov转移,监督应该落在步级而非token级。
一个关键细节:top-k子集K_t从教师分布而非学生分布中选取(Table 7)。这强制学生去对齐教师最confident的那些决策,提供了更强的学习信号。
三、效果:10%步数,更好性能
实验在LLaDA-8B-Instruct上进行,覆盖四个推理任务:GSM8K、MATH500、Countdown、Sudoku。
性能对比
| 方法 | GSM8K (256) | MATH500 (256) | Countdown (128) | Sudoku (128) |
|---|---|---|---|---|
| Base Model | 76.0 | 31.8 | 20.3 | 11.5 |
| diffu-GRPO (RLVR) | 79.8 | 37.2 | 33.2 | 18.4 |
| d3LLM (off-policy自蒸馏) | 72.7 | 30.6 | 36.7 | 9.1 |
| d-OPSD | 81.0 | 37.2 | 37.9 | 23.9 |
d-OPSD全面超越RLVR和SFT基线,在大多数任务上达到SOTA。
样本效率(核心亮点)
| 方法 | GSM8K | MATH500 | Countdown | Sudoku |
|---|---|---|---|---|
| diffu-GRPO 步数 | 7,700 | 6,600 | 5,000 | 3,800 |
| d-OPSD 步数 | 425 | 100 | 175 | 425 |
| 效率提升 | 18.1× | 66× | 28.6× | 8.9× |
d-OPSD仅需RLVR约10%的优化步数就能达到更优性能。 这是因为密集的教师监督提供了更丰富的学习信号,每一步的梯度都更有效。
四、与d3LLM/Cd4lm的根本区别
d3LLM和Cd4lm也尝试了对dLLMs做自蒸馏,但d-OPSD与它们有本质区别:
| 维度 | d3LLM/Cd4lm | d-OPSD |
|---|---|---|
| 特权信息来源 | 静态数据集的ground-truth | 学生自生成的答案 |
| on-policy性质 | ❌ Off-policy | ✅ On-policy |
| 轨迹真实性 | 单步伪造的"假轨迹" | 真实T步去噪轨迹 |
| 监督密度 | 稀疏(单次监督) | 密集(每步都有监督) |
| 本质 | SFT变体 | 真正的On-policy Distillation |
d3LLM在GSM8K上仅72.7,远低于d-OPSD的81.0。这说明on-policy + 完整轨迹监督的设计选择至关重要。
五、失败模式:Policy Collapse
d-OPSD和RLVR一样,存在policy collapse问题:达到峰值性能后,训练性能会灾难性退化。
论文假设原因是Reverse KL的model-seeking特性——学生倾向于匹配教师分布的一个窄模式,过度窄化后丧失多样性,无法继续学习。
缓解手段:
- Pointwise KL clipping(阈值0.05):限制单个token的KL贡献,防止早期崩溃
- Fix teacher strategy:固定教师为初始策略,防止教师随学生退化
- 正确性过滤:只在正确答案样本上计算loss,减少噪声
这些手段能稳定训练,但collapse仍可能在峰值后出现。这是OPSD和RLVR的共同挑战,未来需要更根本的解决方案。
六、核心洞察
这篇论文最深刻的启示不是某个具体技巧,而是对dLLMs本质特性的尊重。
AR和dLLMs不是"同一种东西,只是实现不同"。它们的生成机制 fundamentally different:
- AR:左到右,前缀条件,token级预测
- dLLMs:双向,任意顺序,步级预测
把AR的方法硬搬到dLLMs上,就像把自行车的骑行逻辑用在摩托车上—— pedals are there, but the engine works differently。
d-OPSD的成功在于重新思考每一个设计选择:
- 前缀条件 → 后缀条件(利用双向建模)
- 静态参考答案 → 自生成答案(真正on-policy)
- Token-level监督 → Step-level监督(匹配迭代去噪)
当方法真正适配了模型的内在特性,效果就会自然涌现——不需要更复杂的技巧,只需要更正确的假设。
参考文献
Luo, Y., Chen, Z., Wang, H., Hu, X., Zhang, Y., Sha, Z., & Liu, S. (2026). Learning from the Self-future: On-policy Self-distillation for dLLMs. arXiv:2606.18195.#dLLM #扩散语言模型 #自蒸馏 #OPSD #后训练 #推理增强 #清华大学 #AI论文
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。