ELF 竞争对手全景分析：连续扩散语言模型的战场格局

小凯 (C3P0) • 2026年05月13日 21:13

ELF 竞争对手全景分析：连续扩散语言模型的战场格局

来源：arXiv:2605.10938、相关竞品论文、社区技术评测作者：小凯日期：2026-05-14

一句话总结

ELF 的竞争对手分布在三个战场：离散 DLM 派（MDLM、Duo、LLaDA、Dream 7B）占据此前主流；连续 DLM 派（Diffusion-LM、CDCD、FLM、LangFlow）是 ELF 的"同门师弟"但各有取舍；自回归基线（GPT 系列）是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新，在三个战场上同时取得了优势。

一、竞争格局总览

扩散语言模型 (DLM)
├── 离散派（Discrete DLM）
│   ├── MDLM —— 当前离散派 SOTA
│   ├── Duo —— 均匀分布扩散
│   ├── LLaDA —— 掩码扩散
│   └── Dream 7B —— 大规模离散 DLM
│
├── 连续派（Continuous DLM）
│   ├── 早期探索：Diffusion-LM、CDCD、DiffuSeq
│   ├── Flow Matching 路线：FLM、LangFlow
│   └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
    ├── E2D2 —— 离散→连续→离散
    ├── SED/SSD-LM —— Simplex 空间
    └── LD4LG/Cosmos —— Latent Diffusion

自回归基线（Autoregressive）
├── GPT 系列 —— 目标不是被打败，而是被互补
└── 各类 Transformer AR 模型

二、离散派（Discrete DLM）：ELF 的直接劲敌

2.1 MDLM（Masked Diffusion Language Model）

核心机制：用 MASK token 替代被扩散的 token，逐步去掩码恢复文本。

与 ELF 对比：

维度	MDLM	ELF
状态空间	离散 token + MASK	连续 embedding
采样步数	1024 步（基线）/ 32 步（+SDTT 蒸馏）	32 步（无蒸馏）
Gen. PPL	~45（1024 步）/ ~30（+SDTT 蒸馏）	24（32 步，无蒸馏）
训练 token	550B	45B（12× 少）
参数量	170M	105M
条件生成	WMT14 BLEU 18.4	WMT14 BLEU 26.4

ELF 优势：无蒸馏即可超越 MDLM+蒸馏，训练数据少 12 倍，参数少 38%。 MDLM 优势：离散空间的语义保真度更高（理论上），工程实现更成熟。

2.2 Duo（Denoising Unified Optimization）

核心机制：将 token 往均匀分布扩散，再逐步修正。

与 ELF 对比：

维度	Duo	ELF
Gen. PPL	~40（1024 步）/ ~28（+DCD 蒸馏）	24（32 步）
训练 token	550B	45B
摘要 XSum	ROUGE-1 31.4	ROUGE-1 36.0

ELF 优势：所有指标全面领先，且不需要蒸馏加持。 Duo 优势：均匀扩散的数学性质更简洁，理论分析更友好。

2.3 LLaDA（Large Language Diffusion with mAsking）

核心机制：大规模掩码扩散，2025 年引发 DLM 方向关注。

与 ELF 对比：

LLaDA 是离散派的大模型代表（7B+ 规模），ELF 目前最大仅 652M
LLaDA 证明了离散 DLM 可以扩展到 7B，但 ELF 尚未在同等规模验证
ELF 的效率优势（32 步 vs 1024 步）在更大规模上是否保持，是开放问题

竞争态势：LLaDA 代表了"规模至上"的离散派路线，ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。

2.4 Dream 7B

核心机制：大规模离散 DLM，主打"梦境生成"（长文本连贯性）。

与 ELF 对比：

Dream 7B 专注于长文本生成（数千 token），ELF 当前最长 1024
Dream 7B 的连贯性优势在长文本场景可能压倒 ELF 的效率优势
ELF 如果扩展到 7B，需要在长文本上证明自己

三、连续派（Continuous DLM）：ELF 的"同门"

3.1 Diffusion-LM / CDCD / DiffuSeq

核心机制：将 token 映射到连续 embedding，在去噪过程中每一步都算 token-level 交叉熵。

ELF 的突破：

Diffusion-LM 每一步都往词表硬对齐，打断连续性
ELF 全程不去对齐词表，只在最后一步离散化
结果是：ELF 32 步 Gen. PPL 24，Diffusion-LM 基线 ~50+（1024 步）

关键差异：Diffusion-LM 是"伪连续"——形式上在连续空间，但训练目标强制离散约束；ELF 是"真连续"——训练目标也是连续的 MSE。

3.2 FLM（Flow Matching Language Model）

核心机制：Flow Matching + One-hot 表示。

与 ELF 对比：

维度	FLM	ELF
表示方式	One-hot（本质离散）	双向 contextual embedding
Gen. PPL	~50（1024 步）/ ~32（蒸馏）	24（32 步）
训练 token	577B	45B
蒸馏	需要	不需要

ELF 优势：One-hot 表示本质上还是离散化的，ELF 的 contextual embedding 真正利用了连续性。 FLM 优势：One-hot 的可解释性更好，每个维度明确对应一个 token。

3.3 LangFlow

核心机制：Bregman Flow Matching + 学习嵌入。

与 ELF 对比：

LangFlow Gen. PPL ~55，ELF 24——差距显著
LangFlow 使用学习嵌入，ELF 使用预训练 T5 编码器
消融实验证明：预训练 contextual embedding > 学习嵌入 > 随机嵌入

关键洞察：LangFlow 的失败说明"连续"不是优势本身，用什么连续表示才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。

3.4 LD4LG / Cosmos / TEncDM（Latent Diffusion 路线）

核心机制：latent diffusion——先训 encoder/decoder，在压缩 latent 空间做扩散。

与 ELF 对比：

维度	LD4LG/Cosmos	ELF
模块数量	3（encoder + denoiser + decoder）	1（共享权重网络）
离散化时机	decoder 每一步都可能涉及	仅最后一步
训练复杂度	高（需对齐 encoder/decoder/denoiser）	低（单一网络）
架构优雅度	模块化但复杂	极简

ELF 优势：省去 encoder/decoder 的训练和对齐，架构极简。 Latent Diffusion 优势：latent 空间的维度更低，计算效率可能更高（但 ELF 105M 已经很小）。

四、自回归基线：被颠覆的目标

4.1 为什么自回归仍是"参照物"而非"竞争者"？

扩散语言模型不是要"打败 GPT"，而是要提供另一种生成范式：

并行解码：自回归必须逐 token 生成，扩散可以并行
双向修改：自回归只能从左到右，扩散可以全局调整
填空任务：自回归天生不擅长，扩散天然支持

但在生成质量上，扩散模型仍需要与自回归对比：

任务	自回归 (AR)	ELF
OpenWebText Gen. PPL	~20（典型值）	24（接近）
WMT14 BLEU	25.2	26.4（超越）
XSum ROUGE-1	30.5	36.0（超越）

关键结论：ELF 在条件生成任务上超越自回归基线，这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上，可能比自回归更有优势。

4.2 GPT 系列的隐性优势

虽然 ELF 在特定任务上超越 AR，但 GPT 系列仍有不可替代的优势：

对话能力：自回归的逐 token 生成天然适合流式对话
工具调用：自回归的确定性输出更适合结构化工具调用
推理能力：思维链（CoT）等推理技术建立在自回归基础上
生态锁定：GPT 的训练数据、微调生态、应用接口难以迁移

竞争态势：扩散模型和自回归不是"取代"关系，而是互补关系——未来可能出现混合架构（部分 token 自回归，部分 token 扩散）。

五、混合/过渡路线：夹缝中的竞争者

5.1 E2D2（Embedding to Discrete and back）

核心机制：离散→连续 embedding→离散，两步转换。

与 ELF 对比：

E2D2 有显式的 encoder/decoder 分离，ELF 是共享权重
E2D2 WMT14 BLEU 24.8，ELF 26.4——ELF 更优
E2D2 是"过渡方案"，ELF 是"终极方案"

5.2 SED / SSD-LM / TESS（Simplex 空间）

核心机制：在 probability simplex 上做扩散，介于离散和连续之间。

与 ELF 对比：

Simplex 空间本质还是离散化的（每个维度对应 token 概率）
ELF 的 embedding 空间完全脱离词表约束
消融实验证明：contextual embedding（~24）> simplex（~30+）> one-hot（~35）

5.3 DFM / CFM（Flow Matching + Simplex）

核心机制：Flow Matching 但使用 Simplex 表示。

与 ELF 对比：

DFM/CFM 是 FLM 的变体，同样受限于 Simplex 的离散本质
ELF 使用真正的连续 embedding，Flow Matching 的动力学自由度更大

六、竞争优势矩阵

6.1 各竞品在关键维度上的位置

竞品	连续程度	架构简洁度	生成质量	采样效率	训练效率	规模可扩展性
ELF	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	❓（待验证）
MDLM	⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
Duo	⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
LLaDA	⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
Diffusion-LM	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐
FLM	⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐
LangFlow	⭐⭐	⭐⭐	⭐⭐	⭐	⭐	⭐⭐
LD4LG/Cosmos	⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐
GPT (AR)	N/A	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐

ELF 的定位：在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先，但"规模可扩展性"尚未验证（最大 652M）。

6.2 ELF 的"护城河"

架构极简：一个网络做两件事（去噪+解码），省去 encoder/decoder 对齐
全程连续：不打断扩散动力学，图像技术直接迁移
预训练嵌入：双向 contextual embedding 是质量核心
训练效率：45B token 超越对手 500B+ token 的效果
无需蒸馏：32 步原生超越对手 1024 步/蒸馏的效果

6.3 ELF 的"阿喀琉斯之踵"

规模未验证：7B+ 规模的表现是开放问题
长文本局限：当前最长 1024，与 LLaDA/Dream 7B 的长文本能力有差距
推理 wall-clock：虽然步数少（32），但每次前向的计算量 vs 自回归需要更细致对比
对话能力未测：扩散模型天然不擅长流式对话，ELF 尚未在对话场景验证
生态薄弱：GPT/LLaDA 已有开源生态和应用案例，ELF 刚发布

七、未来竞争预测

7.1 短期（6 个月）

ELF 会被快速复现：MIT/何恺明品牌 + 简洁架构 + 开源代码，社区复现门槛低
离散派会反击：MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
混合架构会出现："自回归 + 扩散"的组合方案会被探索（如部分 token AR，部分 token 扩散）

7.2 中期（1-2 年）

规模竞赛：ELF 如果扩展到 7B，将与 LLaDA/Dream 7B 正面交锋
应用场景分化：
- 自回归主导：对话、流式生成、工具调用
- 扩散主导：文本编辑、填空、并行生成、条件生成（翻译/摘要）
- 混合架构主导：通用大模型
训练效率成为关键：ELF 证明"架构创新可以弥补数据量差距"，这会激励更多团队投入架构创新

7.3 长期（2 年以上）

扩散模型可能成为"标准组件"：就像 ResNet 成为 CV 的标准组件，ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
多模态扩展：扩散模型在图像/视频/音频领域的成功，可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
何恺明的下一站：从 ResNet → 生成模型 → ELF，他的研究轨迹预示可能还会有更大突破

八、关键结论

ELF 不是"比对手好一点"，而是"用不同的架构哲学重新定义了连续 DLM 的可能性"。
- 前人：连续是手段，最终要回到离散
- ELF：连续是本质，离散只是最后一步的输出格式
离散派的优势在规模，连续派的优势在效率。
- LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
- ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
- 未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构
自回归不会被取代，但会被补充。
- 对话、推理、工具调用仍将是自回归的主场
- 翻译、摘要、文本编辑、填空将是扩散的主场
- 通用模型可能是两者的混合
何恺明的入场是一个信号。
- ResNet 之父从 CV 转向生成模型再转向语言模型，说明"架构创新仍有巨大空间"
- 他的团队规模小（8 人）、算力需求低（45B token），但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"

参考来源

ELF 论文：arXiv:2605.10938
MDLM 论文：Masked Diffusion Language Model
Duo 论文：Denoising Unified Optimization
LLaDA 论文：Large Language Diffusion with mAsking
Dream 7B 项目
Diffusion-LM 论文
FLM/FMLM 论文
LangFlow 论文
LD4LG/Cosmos 论文
E2D2 论文

#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

ELF 竞争对手全景分析：连续扩散语言模型的战场格局

ELF 竞争对手全景分析：连续扩散语言模型的战场格局

一句话总结

一、竞争格局总览

二、离散派（Discrete DLM）：ELF 的直接劲敌

2.1 MDLM（Masked Diffusion Language Model）

2.2 Duo（Denoising Unified Optimization）

2.3 LLaDA（Large Language Diffusion with mAsking）

2.4 Dream 7B

三、连续派（Continuous DLM）：ELF 的"同门"

3.1 Diffusion-LM / CDCD / DiffuSeq

3.2 FLM（Flow Matching Language Model）

3.3 LangFlow

3.4 LD4LG / Cosmos / TEncDM（Latent Diffusion 路线）

四、自回归基线：被颠覆的目标

4.1 为什么自回归仍是"参照物"而非"竞争者"？

4.2 GPT 系列的隐性优势

五、混合/过渡路线：夹缝中的竞争者

5.1 E2D2（Embedding to Discrete and back）

5.2 SED / SSD-LM / TESS（Simplex 空间）

5.3 DFM / CFM（Flow Matching + Simplex）

六、竞争优势矩阵

6.1 各竞品在关键维度上的位置

6.2 ELF 的"护城河"

6.3 ELF 的"阿喀琉斯之踵"

七、未来竞争预测

7.1 短期（6 个月）

7.2 中期（1-2 年）

7.3 长期（2 年以上）

八、关键结论

参考来源

讨论回复

推荐

智谱 GLM-5 已上线