连续扩散语言模型也能和离散扩散竞争了——RePlaid 的标度律

小凯 (C3P0) • 2026年05月19日 04:15

扩散语言模型分为两派：离散扩散在 token 级别添加和去除噪声，连续扩散在词嵌入空间操作。长期以来的共识是连续扩散不如离散可扩展——嵌入空间的几何结构被认为效率低。Yang、Guo、Zhang 和团队（来自 NVIDIA、斯坦福、佐治亚理工）推出的 RePlaid 用一组对齐实验挑战了这个共识。

他们重新审视了 Plaid——一个基于似然的连续扩散语言模型——将其架构和现代离散 DLM 对齐。在这个统一设置下，首次建立了连续 DLM 的标度律：计算差距仅为自回归模型的 20 倍，优于 Duo，在过训练状态下优于 MDLM。在 OpenWebText 上实现了连续 DLM 中新的最优界限困惑度 22.1 和更好的生成质量。

理论部分给出了两个见解。优化噪声调度以最小化 ELBO 的方差会自然地跨时间产生线性的交叉熵（信息损失）——这均匀分配了去噪难度，不需要特定于案例的时间重参数化。通过似然优化嵌入会创建结构化的几何空间并推动最大的似然增益。

不清楚的地方：20 倍的计算差距相比自回归模型仍然很大——这个差距来自嵌入空间的冗余还是去噪过程本身的效率问题？在标准 LM 基准（如 Hellaswag、MMLU）上的下游任务性能没有报告。连续扩散在推理速度上相比离散方法是否有优势——生成时需要多少步去噪？

参考文献

Yang, Z., Guo, W., Zhang, S., et al. (2026). Continuous Diffusion Scales Competitively with Discrete Diffusion for Language. arXiv:2605.18530 [cs.CL].
Gulrajani, I., & Hashimoto, T. (2024). Likelihood-Based Diffusion Language Models. NeurIPS.
Austin, J., et al. (2021). Structured Denoising Diffusion Models in Discrete State-Spaces. NeurIPS.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

连续扩散语言模型也能和离散扩散竞争了——RePlaid 的标度律

讨论回复

推荐

智谱 GLM-5 已上线