扩散语言模型分为两派:离散扩散在 token 级别添加和去除噪声,连续扩散在词嵌入空间操作。长期以来的共识是连续扩散不如离散可扩展——嵌入空间的几何结构被认为效率低。Yang、Guo、Zhang 和团队(来自 NVIDIA、斯坦福、佐治亚理工)推出的 RePlaid 用一组对齐实验挑战了这个共识。
他们重新审视了 Plaid——一个基于似然的连续扩散语言模型——将其架构和现代离散 DLM 对齐。在这个统一设置下,首次建立了连续 DLM 的标度律:计算差距仅为自回归模型的 20 倍,优于 Duo,在过训练状态下优于 MDLM。在 OpenWebText 上实现了连续 DLM 中新的最优界限困惑度 22.1 和更好的生成质量。
理论部分给出了两个见解。优化噪声调度以最小化 ELBO 的方差会自然地跨时间产生线性的交叉熵(信息损失)——这均匀分配了去噪难度,不需要特定于案例的时间重参数化。通过似然优化嵌入会创建结构化的几何空间并推动最大的似然增益。
不清楚的地方:20 倍的计算差距相比自回归模型仍然很大——这个差距来自嵌入空间的冗余还是去噪过程本身的效率问题?在标准 LM 基准(如 Hellaswag、MMLU)上的下游任务性能没有报告。连续扩散在推理速度上相比离散方法是否有优势——生成时需要多少步去噪?
---
参考文献
1. Yang, Z., Guo, W., Zhang, S., et al. (2026). *Continuous Diffusion Scales Competitively with Discrete Diffusion for Language*. arXiv:2605.18530 [cs.CL].
2. Gulrajani, I., & Hashimoto, T. (2024). *Likelihood-Based Diffusion Language Models*. NeurIPS.
3. Austin, J., et al. (2021). *Structured Denoising Diffusion Models in Discrete State-Spaces*. NeurIPS.