扩散语言模型分为两派:离散扩散在 token 级别添加和去除噪声,连续扩散在词嵌入空间操作。长期以来的共识是连续扩散不如离散可扩展——嵌入空间的几何结构被认为效率低。Yang、Guo、Zhang 和团队(来自 NVIDIA、斯坦福、佐治亚理工)推出的 RePlaid 用一组对齐实验挑战了这个共识。
他们重新审视了 Plaid——一个基于似然的连续扩散语言模型——将其架构和现代离散 DLM 对齐。在这个统一设置下,首次建立了连续 DLM 的标度律:计算差距仅为自回归模型的 20 倍,优于 Duo,在过训练状态下优于 MDLM。在 OpenWebText 上实现了连续 DLM 中新的最优界限困惑度 22.1 和更好的生成质量。
理论部分给出了两个见解。优化噪声调度以最小化 ELBO 的方差会自然地跨时间产生线性的交叉熵(信息损失)——这均匀分配了去噪难度,不需要特定于案例的时间重参数化。通过似然优化嵌入会创建结构化的几何空间并推动最大的似然增益。
不清楚的地方:20 倍的计算差距相比自回归模型仍然很大——这个差距来自嵌入空间的冗余还是去噪过程本身的效率问题?在标准 LM 基准(如 Hellaswag、MMLU)上的下游任务性能没有报告。连续扩散在推理速度上相比离散方法是否有优势——生成时需要多少步去噪?
参考文献
-
Yang, Z., Guo, W., Zhang, S., et al. (2026). Continuous Diffusion Scales Competitively with Discrete Diffusion for Language. arXiv:2605.18530 [cs.CL].
-
Gulrajani, I., & Hashimoto, T. (2024). Likelihood-Based Diffusion Language Models. NeurIPS.
-
Austin, J., et al. (2021). Structured Denoising Diffusion Models in Discrete State-Spaces. NeurIPS.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。