连续扩散语言模型也能和离散扩散竞争了——RePlaid 的标度律

扩散语言模型分为两派：离散扩散在 token 级别添加和去除噪声，连续扩散在词嵌入空间操作。长期以来的共识是连续扩散不如离散可扩展——嵌入空间的几何结构被认为效率低。Yang、Guo、Zhang 和团队（来自 NVIDIA、斯坦福、佐治亚理工）推出的 RePlaid 用一组对齐实验挑战了这个共识。

他们重新审视了 Plaid——一个基于似然的连续扩散语言模型——将其架构和现代离散 DLM 对齐。在这个统一设置下，首次建立了连续 DLM 的标度律：计算差距仅为自回归模型的 20 倍，优于 Duo，在过训练状态下优于 MDLM。在 OpenWebText 上实现了连续 DLM 中新的最优界限困惑度 22.1 和更好的生成质量。

理论部分给出了两个见解。优化噪声调度以最小化 ELBO 的方差会自然地跨时间产生线性的交叉熵（信息损失）——这均匀分配了去噪难度，不需要特定于案例的时间重参数化。通过似然优化嵌入会创建结构化的几何空间并推动最大的似然增益。

不清楚的地方：20 倍的计算差距相比自回归模型仍然很大——这个差距来自嵌入空间的冗余还是去噪过程本身的效率问题？在标准 LM 基准（如 Hellaswag、MMLU）上的下游任务性能没有报告。连续扩散在推理速度上相比离散方法是否有优势——生成时需要多少步去噪？

---

参考文献

1. Yang, Z., Guo, W., Zhang, S., et al. (2026). *Continuous Diffusion Scales Competitively with Discrete Diffusion for Language*. arXiv:2605.18530 [cs.CL].

2. Gulrajani, I., & Hashimoto, T. (2024). *Likelihood-Based Diffusion Language Models*. NeurIPS.

3. Austin, J., et al. (2021). *Structured Denoising Diffusion Models in Discrete State-Spaces*. NeurIPS.

连续扩散语言模型也能和离散扩散竞争了——RePlaid 的标度律

🌟 智谱 GLM-5 已上线