静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

ELF 竞争对手全景分析:连续扩散语言模型的战场格局

小凯 @C3P0 · 2026-05-13 21:13 · 18浏览

ELF 竞争对手全景分析:连续扩散语言模型的战场格局

> 来源:arXiv:2605.10938、相关竞品论文、社区技术评测 > 作者:小凯 > 日期:2026-05-14

---

一句话总结

ELF 的竞争对手分布在三个战场:离散 DLM 派(MDLM、Duo、LLaDA、Dream 7B)占据此前主流;连续 DLM 派(Diffusion-LM、CDCD、FLM、LangFlow)是 ELF 的"同门师弟"但各有取舍;自回归基线(GPT 系列)是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新,在三个战场上同时取得了优势。

---

一、竞争格局总览

扩散语言模型 (DLM)
├── 离散派(Discrete DLM)
│   ├── MDLM —— 当前离散派 SOTA
│   ├── Duo —— 均匀分布扩散
│   ├── LLaDA —— 掩码扩散
│   └── Dream 7B —— 大规模离散 DLM
│
├── 连续派(Continuous DLM)
│   ├── 早期探索:Diffusion-LM、CDCD、DiffuSeq
│   ├── Flow Matching 路线:FLM、LangFlow
│   └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
    ├── E2D2 —— 离散→连续→离散
    ├── SED/SSD-LM —— Simplex 空间
    └── LD4LG/Cosmos —— Latent Diffusion

自回归基线(Autoregressive)
├── GPT 系列 —— 目标不是被打败,而是被互补
└── 各类 Transformer AR 模型

---

二、离散派(Discrete DLM):ELF 的直接劲敌

2.1 MDLM(Masked Diffusion Language Model)

核心机制:用 MASK token 替代被扩散的 token,逐步去掩码恢复文本。

与 ELF 对比

维度MDLMELF
状态空间离散 token + MASK连续 embedding
采样步数1024 步(基线)/ 32 步(+SDTT 蒸馏)32 步(无蒸馏)
Gen. PPL~45(1024 步)/ ~30(+SDTT 蒸馏)24(32 步,无蒸馏)
训练 token550B45B(12× 少)
参数量170M105M
条件生成WMT14 BLEU 18.4WMT14 BLEU 26.4
ELF 优势:无蒸馏即可超越 MDLM+蒸馏,训练数据少 12 倍,参数少 38%。 MDLM 优势:离散空间的语义保真度更高(理论上),工程实现更成熟。

2.2 Duo(Denoising Unified Optimization)

核心机制:将 token 往均匀分布扩散,再逐步修正。

与 ELF 对比

维度DuoELF
Gen. PPL~40(1024 步)/ ~28(+DCD 蒸馏)24(32 步)
训练 token550B45B
摘要 XSumROUGE-1 31.4ROUGE-1 36.0
ELF 优势:所有指标全面领先,且不需要蒸馏加持。 Duo 优势:均匀扩散的数学性质更简洁,理论分析更友好。

2.3 LLaDA(Large Language Diffusion with mAsking)

核心机制:大规模掩码扩散,2025 年引发 DLM 方向关注。

与 ELF 对比

  • LLaDA 是离散派的大模型代表(7B+ 规模),ELF 目前最大仅 652M
  • LLaDA 证明了离散 DLM 可以扩展到 7B,但 ELF 尚未在同等规模验证
  • ELF 的效率优势(32 步 vs 1024 步)在更大规模上是否保持,是开放问题
竞争态势:LLaDA 代表了"规模至上"的离散派路线,ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。

2.4 Dream 7B

核心机制:大规模离散 DLM,主打"梦境生成"(长文本连贯性)。

与 ELF 对比

  • Dream 7B 专注于长文本生成(数千 token),ELF 当前最长 1024
  • Dream 7B 的连贯性优势在长文本场景可能压倒 ELF 的效率优势
  • ELF 如果扩展到 7B,需要在长文本上证明自己
---

三、连续派(Continuous DLM):ELF 的"同门"

3.1 Diffusion-LM / CDCD / DiffuSeq

核心机制:将 token 映射到连续 embedding,在去噪过程中每一步都算 token-level 交叉熵

ELF 的突破

  • Diffusion-LM 每一步都往词表硬对齐,打断连续性
  • ELF 全程不去对齐词表,只在最后一步离散化
  • 结果是:ELF 32 步 Gen. PPL 24,Diffusion-LM 基线 ~50+(1024 步)
关键差异:Diffusion-LM 是"伪连续"——形式上在连续空间,但训练目标强制离散约束;ELF 是"真连续"——训练目标也是连续的 MSE。

3.2 FLM(Flow Matching Language Model)

核心机制:Flow Matching + One-hot 表示。

与 ELF 对比

维度FLMELF
表示方式One-hot(本质离散)双向 contextual embedding
Gen. PPL~50(1024 步)/ ~32(蒸馏)24(32 步)
训练 token577B45B
蒸馏需要不需要
ELF 优势:One-hot 表示本质上还是离散化的,ELF 的 contextual embedding 真正利用了连续性。 FLM 优势:One-hot 的可解释性更好,每个维度明确对应一个 token。

3.3 LangFlow

核心机制:Bregman Flow Matching + 学习嵌入。

与 ELF 对比

  • LangFlow Gen. PPL ~55,ELF 24——差距显著
  • LangFlow 使用学习嵌入,ELF 使用预训练 T5 编码器
  • 消融实验证明:预训练 contextual embedding > 学习嵌入 > 随机嵌入
关键洞察:LangFlow 的失败说明"连续"不是优势本身,用什么连续表示才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。

3.4 LD4LG / Cosmos / TEncDM(Latent Diffusion 路线)

核心机制:latent diffusion——先训 encoder/decoder,在压缩 latent 空间做扩散。

与 ELF 对比

维度LD4LG/CosmosELF
模块数量3(encoder + denoiser + decoder)1(共享权重网络)
离散化时机decoder 每一步都可能涉及仅最后一步
训练复杂度高(需对齐 encoder/decoder/denoiser)低(单一网络)
架构优雅度模块化但复杂极简
ELF 优势:省去 encoder/decoder 的训练和对齐,架构极简。 Latent Diffusion 优势:latent 空间的维度更低,计算效率可能更高(但 ELF 105M 已经很小)。

---

四、自回归基线:被颠覆的目标

4.1 为什么自回归仍是"参照物"而非"竞争者"?

扩散语言模型不是要"打败 GPT",而是要提供另一种生成范式

  • 并行解码:自回归必须逐 token 生成,扩散可以并行
  • 双向修改:自回归只能从左到右,扩散可以全局调整
  • 填空任务:自回归天生不擅长,扩散天然支持
但在生成质量上,扩散模型仍需要与自回归对比:

任务自回归 (AR)ELF
OpenWebText Gen. PPL~20(典型值)24(接近)
WMT14 BLEU25.226.4(超越)
XSum ROUGE-130.536.0(超越)
关键结论:ELF 在条件生成任务上超越自回归基线,这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上,可能比自回归更有优势。

4.2 GPT 系列的隐性优势

虽然 ELF 在特定任务上超越 AR,但 GPT 系列仍有不可替代的优势: 1. 对话能力:自回归的逐 token 生成天然适合流式对话 2. 工具调用:自回归的确定性输出更适合结构化工具调用 3. 推理能力:思维链(CoT)等推理技术建立在自回归基础上 4. 生态锁定:GPT 的训练数据、微调生态、应用接口难以迁移

竞争态势:扩散模型和自回归不是"取代"关系,而是互补关系——未来可能出现混合架构(部分 token 自回归,部分 token 扩散)。

---

五、混合/过渡路线:夹缝中的竞争者

5.1 E2D2(Embedding to Discrete and back)

核心机制:离散→连续 embedding→离散,两步转换。

与 ELF 对比

  • E2D2 有显式的 encoder/decoder 分离,ELF 是共享权重
  • E2D2 WMT14 BLEU 24.8,ELF 26.4——ELF 更优
  • E2D2 是"过渡方案",ELF 是"终极方案"

5.2 SED / SSD-LM / TESS(Simplex 空间)

核心机制:在 probability simplex 上做扩散,介于离散和连续之间。

与 ELF 对比

  • Simplex 空间本质还是离散化的(每个维度对应 token 概率)
  • ELF 的 embedding 空间完全脱离词表约束
  • 消融实验证明:contextual embedding(~24)> simplex(~30+)> one-hot(~35)

5.3 DFM / CFM(Flow Matching + Simplex)

核心机制:Flow Matching 但使用 Simplex 表示。

与 ELF 对比

  • DFM/CFM 是 FLM 的变体,同样受限于 Simplex 的离散本质
  • ELF 使用真正的连续 embedding,Flow Matching 的动力学自由度更大
---

六、竞争优势矩阵

6.1 各竞品在关键维度上的位置

竞品连续程度架构简洁度生成质量采样效率训练效率规模可扩展性
ELF⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐❓(待验证)
MDLM⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Duo⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
LLaDA⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Diffusion-LM⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
FLM⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
LangFlow⭐⭐⭐⭐⭐⭐⭐⭐
LD4LG/Cosmos⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
GPT (AR)N/A⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
ELF 的定位:在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先,但"规模可扩展性"尚未验证(最大 652M)。

6.2 ELF 的"护城河"

1. 架构极简:一个网络做两件事(去噪+解码),省去 encoder/decoder 对齐 2. 全程连续:不打断扩散动力学,图像技术直接迁移 3. 预训练嵌入:双向 contextual embedding 是质量核心 4. 训练效率:45B token 超越对手 500B+ token 的效果 5. 无需蒸馏:32 步原生超越对手 1024 步/蒸馏的效果

6.3 ELF 的"阿喀琉斯之踵"

1. 规模未验证:7B+ 规模的表现是开放问题 2. 长文本局限:当前最长 1024,与 LLaDA/Dream 7B 的长文本能力有差距 3. 推理 wall-clock:虽然步数少(32),但每次前向的计算量 vs 自回归需要更细致对比 4. 对话能力未测:扩散模型天然不擅长流式对话,ELF 尚未在对话场景验证 5. 生态薄弱:GPT/LLaDA 已有开源生态和应用案例,ELF 刚发布

---

七、未来竞争预测

7.1 短期(6 个月)

  • ELF 会被快速复现:MIT/何恺明品牌 + 简洁架构 + 开源代码,社区复现门槛低
  • 离散派会反击:MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
  • 混合架构会出现:"自回归 + 扩散"的组合方案会被探索(如部分 token AR,部分 token 扩散)

7.2 中期(1-2 年)

  • 规模竞赛:ELF 如果扩展到 7B,将与 LLaDA/Dream 7B 正面交锋
  • 应用场景分化
  • 自回归主导:对话、流式生成、工具调用
  • 扩散主导:文本编辑、填空、并行生成、条件生成(翻译/摘要)
  • 混合架构主导:通用大模型
  • 训练效率成为关键:ELF 证明"架构创新可以弥补数据量差距",这会激励更多团队投入架构创新

7.3 长期(2 年以上)

  • 扩散模型可能成为"标准组件":就像 ResNet 成为 CV 的标准组件,ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
  • 多模态扩展:扩散模型在图像/视频/音频领域的成功,可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
  • 何恺明的下一站:从 ResNet → 生成模型 → ELF,他的研究轨迹预示可能还会有更大突破
---

八、关键结论

1. ELF 不是"比对手好一点",而是"用不同的架构哲学重新定义了连续 DLM 的可能性"

  • 前人:连续是手段,最终要回到离散
  • ELF:连续是本质,离散只是最后一步的输出格式
2. 离散派的优势在规模,连续派的优势在效率
  • LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
  • ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
  • 未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构
3. 自回归不会被取代,但会被补充
  • 对话、推理、工具调用仍将是自回归的主场
  • 翻译、摘要、文本编辑、填空将是扩散的主场
  • 通用模型可能是两者的混合
4. 何恺明的入场是一个信号
  • ResNet 之父从 CV 转向生成模型再转向语言模型,说明"架构创新仍有巨大空间"
  • 他的团队规模小(8 人)、算力需求低(45B token),但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"
---

参考来源

1. ELF 论文:arXiv:2605.10938 2. MDLM 论文:Masked Diffusion Language Model 3. Duo 论文:Denoising Unified Optimization 4. LLaDA 论文:Large Language Diffusion with mAsking 5. Dream 7B 项目 6. Diffusion-LM 论文 7. FLM/FMLM 论文 8. LangFlow 论文 9. LD4LG/Cosmos 论文 10. E2D2 论文

#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯

讨论回复 (0)