ELF 竞争对手全景分析：连续扩散语言模型的战场格局

> 来源：arXiv:2605.10938、相关竞品论文、社区技术评测 > 作者：小凯 > 日期：2026-05-14

---

一句话总结

ELF 的竞争对手分布在三个战场：离散 DLM 派（MDLM、Duo、LLaDA、Dream 7B）占据此前主流；连续 DLM 派（Diffusion-LM、CDCD、FLM、LangFlow）是 ELF 的"同门师弟"但各有取舍；自回归基线（GPT 系列）是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新，在三个战场上同时取得了优势。

---

一、竞争格局总览

扩散语言模型 (DLM)
├── 离散派（Discrete DLM）
│   ├── MDLM —— 当前离散派 SOTA
│   ├── Duo —— 均匀分布扩散
│   ├── LLaDA —— 掩码扩散
│   └── Dream 7B —— 大规模离散 DLM
│
├── 连续派（Continuous DLM）
│   ├── 早期探索：Diffusion-LM、CDCD、DiffuSeq
│   ├── Flow Matching 路线：FLM、LangFlow
│   └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
    ├── E2D2 —— 离散→连续→离散
    ├── SED/SSD-LM —— Simplex 空间
    └── LD4LG/Cosmos —— Latent Diffusion

自回归基线（Autoregressive）
├── GPT 系列 —— 目标不是被打败，而是被互补
└── 各类 Transformer AR 模型

---

二、离散派（Discrete DLM）：ELF 的直接劲敌

2.1 MDLM（Masked Diffusion Language Model）

核心机制：用 MASK token 替代被扩散的 token，逐步去掩码恢复文本。

与 ELF 对比：

维度	MDLM	ELF
状态空间	离散 token + MASK	连续 embedding
采样步数	1024 步（基线）/ 32 步（+SDTT 蒸馏）	32 步（无蒸馏）
Gen. PPL	~45（1024 步）/ ~30（+SDTT 蒸馏）	24（32 步，无蒸馏）
训练 token	550B	45B（12× 少）
参数量	170M	105M
条件生成	WMT14 BLEU 18.4	WMT14 BLEU 26.4

ELF 优势：无蒸馏即可超越 MDLM+蒸馏，训练数据少 12 倍，参数少 38%。 MDLM 优势：离散空间的语义保真度更高（理论上），工程实现更成熟。

2.2 Duo（Denoising Unified Optimization）

核心机制：将 token 往均匀分布扩散，再逐步修正。

与 ELF 对比：

维度	Duo	ELF
Gen. PPL	~40（1024 步）/ ~28（+DCD 蒸馏）	24（32 步）
训练 token	550B	45B
摘要 XSum	ROUGE-1 31.4	ROUGE-1 36.0

ELF 优势：所有指标全面领先，且不需要蒸馏加持。 Duo 优势：均匀扩散的数学性质更简洁，理论分析更友好。

2.3 LLaDA（Large Language Diffusion with mAsking）

核心机制：大规模掩码扩散，2025 年引发 DLM 方向关注。

与 ELF 对比：

LLaDA 是离散派的大模型代表（7B+ 规模），ELF 目前最大仅 652M
LLaDA 证明了离散 DLM 可以扩展到 7B，但 ELF 尚未在同等规模验证
ELF 的效率优势（32 步 vs 1024 步）在更大规模上是否保持，是开放问题

竞争态势：LLaDA 代表了"规模至上"的离散派路线，ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。

2.4 Dream 7B

核心机制：大规模离散 DLM，主打"梦境生成"（长文本连贯性）。

与 ELF 对比：

Dream 7B 专注于长文本生成（数千 token），ELF 当前最长 1024
Dream 7B 的连贯性优势在长文本场景可能压倒 ELF 的效率优势
ELF 如果扩展到 7B，需要在长文本上证明自己

---

三、连续派（Continuous DLM）：ELF 的"同门"

3.1 Diffusion-LM / CDCD / DiffuSeq

核心机制：将 token 映射到连续 embedding，在去噪过程中每一步都算 token-level 交叉熵。

ELF 的突破：

Diffusion-LM 每一步都往词表硬对齐，打断连续性
ELF 全程不去对齐词表，只在最后一步离散化
结果是：ELF 32 步 Gen. PPL 24，Diffusion-LM 基线 ~50+（1024 步）

关键差异：Diffusion-LM 是"伪连续"——形式上在连续空间，但训练目标强制离散约束；ELF 是"真连续"——训练目标也是连续的 MSE。

3.2 FLM（Flow Matching Language Model）

核心机制：Flow Matching + One-hot 表示。

与 ELF 对比：

维度	FLM	ELF
表示方式	One-hot（本质离散）	双向 contextual embedding
Gen. PPL	~50（1024 步）/ ~32（蒸馏）	24（32 步）
训练 token	577B	45B
蒸馏	需要	不需要

ELF 优势：One-hot 表示本质上还是离散化的，ELF 的 contextual embedding 真正利用了连续性。 FLM 优势：One-hot 的可解释性更好，每个维度明确对应一个 token。

3.3 LangFlow

核心机制：Bregman Flow Matching + 学习嵌入。

与 ELF 对比：

LangFlow Gen. PPL ~55，ELF 24——差距显著
LangFlow 使用学习嵌入，ELF 使用预训练 T5 编码器
消融实验证明：预训练 contextual embedding > 学习嵌入 > 随机嵌入

关键洞察：LangFlow 的失败说明"连续"不是优势本身，用什么连续表示才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。

3.4 LD4LG / Cosmos / TEncDM（Latent Diffusion 路线）

核心机制：latent diffusion——先训 encoder/decoder，在压缩 latent 空间做扩散。

与 ELF 对比：

维度	LD4LG/Cosmos	ELF
模块数量	3（encoder + denoiser + decoder）	1（共享权重网络）
离散化时机	decoder 每一步都可能涉及	仅最后一步
训练复杂度	高（需对齐 encoder/decoder/denoiser）	低（单一网络）
架构优雅度	模块化但复杂	极简

ELF 优势：省去 encoder/decoder 的训练和对齐，架构极简。 Latent Diffusion 优势：latent 空间的维度更低，计算效率可能更高（但 ELF 105M 已经很小）。

---

四、自回归基线：被颠覆的目标

4.1 为什么自回归仍是"参照物"而非"竞争者"？

扩散语言模型不是要"打败 GPT"，而是要提供另一种生成范式：

并行解码：自回归必须逐 token 生成，扩散可以并行
双向修改：自回归只能从左到右，扩散可以全局调整
填空任务：自回归天生不擅长，扩散天然支持

但在生成质量上，扩散模型仍需要与自回归对比：

任务	自回归 (AR)	ELF
OpenWebText Gen. PPL	~20（典型值）	24（接近）
WMT14 BLEU	25.2	26.4（超越）
XSum ROUGE-1	30.5	36.0（超越）

关键结论：ELF 在条件生成任务上超越自回归基线，这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上，可能比自回归更有优势。

4.2 GPT 系列的隐性优势

虽然 ELF 在特定任务上超越 AR，但 GPT 系列仍有不可替代的优势： 1. 对话能力：自回归的逐 token 生成天然适合流式对话 2. 工具调用：自回归的确定性输出更适合结构化工具调用 3. 推理能力：思维链（CoT）等推理技术建立在自回归基础上 4. 生态锁定：GPT 的训练数据、微调生态、应用接口难以迁移

竞争态势：扩散模型和自回归不是"取代"关系，而是互补关系——未来可能出现混合架构（部分 token 自回归，部分 token 扩散）。

---

五、混合/过渡路线：夹缝中的竞争者

5.1 E2D2（Embedding to Discrete and back）

核心机制：离散→连续 embedding→离散，两步转换。

与 ELF 对比：

E2D2 有显式的 encoder/decoder 分离，ELF 是共享权重
E2D2 WMT14 BLEU 24.8，ELF 26.4——ELF 更优
E2D2 是"过渡方案"，ELF 是"终极方案"

5.2 SED / SSD-LM / TESS（Simplex 空间）

核心机制：在 probability simplex 上做扩散，介于离散和连续之间。

与 ELF 对比：

Simplex 空间本质还是离散化的（每个维度对应 token 概率）
ELF 的 embedding 空间完全脱离词表约束
消融实验证明：contextual embedding（~24）> simplex（~30+）> one-hot（~35）

5.3 DFM / CFM（Flow Matching + Simplex）

核心机制：Flow Matching 但使用 Simplex 表示。

与 ELF 对比：

DFM/CFM 是 FLM 的变体，同样受限于 Simplex 的离散本质
ELF 使用真正的连续 embedding，Flow Matching 的动力学自由度更大

---

六、竞争优势矩阵

6.1 各竞品在关键维度上的位置

竞品	连续程度	架构简洁度	生成质量	采样效率	训练效率	规模可扩展性
ELF	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	❓（待验证）
MDLM	⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
Duo	⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
LLaDA	⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
Diffusion-LM	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐
FLM	⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐
LangFlow	⭐⭐	⭐⭐	⭐⭐	⭐	⭐	⭐⭐
LD4LG/Cosmos	⭐⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐
GPT (AR)	N/A	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐

ELF 的定位：在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先，但"规模可扩展性"尚未验证（最大 652M）。

6.2 ELF 的"护城河"

1. 架构极简：一个网络做两件事（去噪+解码），省去 encoder/decoder 对齐 2. 全程连续：不打断扩散动力学，图像技术直接迁移 3. 预训练嵌入：双向 contextual embedding 是质量核心 4. 训练效率：45B token 超越对手 500B+ token 的效果 5. 无需蒸馏：32 步原生超越对手 1024 步/蒸馏的效果

6.3 ELF 的"阿喀琉斯之踵"

1. 规模未验证：7B+ 规模的表现是开放问题 2. 长文本局限：当前最长 1024，与 LLaDA/Dream 7B 的长文本能力有差距 3. 推理 wall-clock：虽然步数少（32），但每次前向的计算量 vs 自回归需要更细致对比 4. 对话能力未测：扩散模型天然不擅长流式对话，ELF 尚未在对话场景验证 5. 生态薄弱：GPT/LLaDA 已有开源生态和应用案例，ELF 刚发布

---

七、未来竞争预测

7.1 短期（6 个月）

ELF 会被快速复现：MIT/何恺明品牌 + 简洁架构 + 开源代码，社区复现门槛低
离散派会反击：MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
混合架构会出现："自回归 + 扩散"的组合方案会被探索（如部分 token AR，部分 token 扩散）

7.2 中期（1-2 年）

规模竞赛：ELF 如果扩展到 7B，将与 LLaDA/Dream 7B 正面交锋
应用场景分化：
自回归主导：对话、流式生成、工具调用
扩散主导：文本编辑、填空、并行生成、条件生成（翻译/摘要）
混合架构主导：通用大模型
训练效率成为关键：ELF 证明"架构创新可以弥补数据量差距"，这会激励更多团队投入架构创新

7.3 长期（2 年以上）

扩散模型可能成为"标准组件"：就像 ResNet 成为 CV 的标准组件，ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
多模态扩展：扩散模型在图像/视频/音频领域的成功，可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
何恺明的下一站：从 ResNet → 生成模型 → ELF，他的研究轨迹预示可能还会有更大突破

---

八、关键结论

1. ELF 不是"比对手好一点"，而是"用不同的架构哲学重新定义了连续 DLM 的可能性"。

前人：连续是手段，最终要回到离散
ELF：连续是本质，离散只是最后一步的输出格式

2. 离散派的优势在规模，连续派的优势在效率。

LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构

3. 自回归不会被取代，但会被补充。

对话、推理、工具调用仍将是自回归的主场
翻译、摘要、文本编辑、填空将是扩散的主场
通用模型可能是两者的混合

4. 何恺明的入场是一个信号。

ResNet 之父从 CV 转向生成模型再转向语言模型，说明"架构创新仍有巨大空间"
他的团队规模小（8 人）、算力需求低（45B token），但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"

---

参考来源

1. ELF 论文：arXiv:2605.10938 2. MDLM 论文：Masked Diffusion Language Model 3. Duo 论文：Denoising Unified Optimization 4. LLaDA 论文：Large Language Diffusion with mAsking 5. Dream 7B 项目 6. Diffusion-LM 论文 7. FLM/FMLM 论文 8. LangFlow 论文 9. LD4LG/Cosmos 论文 10. E2D2 论文

#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯