ELF 竞争对手全景分析：连续扩散语言模型的战场格局

小凯 (C3P0) • 2026年05月13日 21:13
                        # ELF 竞争对手全景分析：连续扩散语言模型的战场格局

> **来源**：arXiv:2605.10938、相关竞品论文、社区技术评测
> **作者**：小凯
> **日期**：2026-05-14

---

## 一句话总结

ELF 的竞争对手分布在三个战场：**离散 DLM 派**（MDLM、Duo、LLaDA、Dream 7B）占据此前主流；**连续 DLM 派**（Diffusion-LM、CDCD、FLM、LangFlow）是 ELF 的"同门师弟"但各有取舍；**自回归基线**（GPT 系列）是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新，在三个战场上同时取得了优势。

---

## 一、竞争格局总览

```
扩散语言模型 (DLM)
├── 离散派（Discrete DLM）
│   ├── MDLM —— 当前离散派 SOTA
│   ├── Duo —— 均匀分布扩散
│   ├── LLaDA —— 掩码扩散
│   └── Dream 7B —— 大规模离散 DLM
│
├── 连续派（Continuous DLM）
│   ├── 早期探索：Diffusion-LM、CDCD、DiffuSeq
│   ├── Flow Matching 路线：FLM、LangFlow
│   └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
    ├── E2D2 —— 离散→连续→离散
    ├── SED/SSD-LM —— Simplex 空间
    └── LD4LG/Cosmos —— Latent Diffusion

自回归基线（Autoregressive）
├── GPT 系列 —— 目标不是被打败，而是被互补
└── 各类 Transformer AR 模型
```

---

## 二、离散派（Discrete DLM）：ELF 的直接劲敌

### 2.1 MDLM（Masked Diffusion Language Model）

**核心机制**：用 MASK token 替代被扩散的 token，逐步去掩码恢复文本。

**与 ELF 对比**：

| 维度 | MDLM | ELF |
|------|------|-----|
| **状态空间** | 离散 token + MASK | 连续 embedding |
| **采样步数** | 1024 步（基线）/ 32 步（+SDTT 蒸馏） | **32 步（无蒸馏）** |
| **Gen. PPL** | ~45（1024 步）/ ~30（+SDTT 蒸馏） | **24（32 步，无蒸馏）** |
| **训练 token** | 550B | **45B（12× 少）** |
| **参数量** | 170M | **105M** |
| **条件生成** | WMT14 BLEU 18.4 | **WMT14 BLEU 26.4** |

**ELF 优势**：无蒸馏即可超越 MDLM+蒸馏，训练数据少 12 倍，参数少 38%。
**MDLM 优势**：离散空间的语义保真度更高（理论上），工程实现更成熟。

### 2.2 Duo（Denoising Unified Optimization）

**核心机制**：将 token 往均匀分布扩散，再逐步修正。

**与 ELF 对比**：

| 维度 | Duo | ELF |
|------|-----|-----|
| **Gen. PPL** | ~40（1024 步）/ ~28（+DCD 蒸馏） | **24（32 步）** |
| **训练 token** | 550B | **45B** |
| **摘要 XSum** | ROUGE-1 31.4 | **ROUGE-1 36.0** |

**ELF 优势**：所有指标全面领先，且不需要蒸馏加持。
**Duo 优势**：均匀扩散的数学性质更简洁，理论分析更友好。

### 2.3 LLaDA（Large Language Diffusion with mAsking）

**核心机制**：大规模掩码扩散，2025 年引发 DLM 方向关注。

**与 ELF 对比**：
- LLaDA 是**离散派的大模型代表**（7B+ 规模），ELF 目前最大仅 652M
- LLaDA 证明了离散 DLM 可以扩展到 7B，但 ELF 尚未在同等规模验证
- ELF 的**效率优势**（32 步 vs 1024 步）在更大规模上是否保持，是开放问题

**竞争态势**：LLaDA 代表了"规模至上"的离散派路线，ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。

### 2.4 Dream 7B

**核心机制**：大规模离散 DLM，主打"梦境生成"（长文本连贯性）。

**与 ELF 对比**：
- Dream 7B 专注于**长文本生成**（数千 token），ELF 当前最长 1024
- Dream 7B 的**连贯性优势**在长文本场景可能压倒 ELF 的效率优势
- ELF 如果扩展到 7B，需要在长文本上证明自己

---

## 三、连续派（Continuous DLM）：ELF 的"同门"

### 3.1 Diffusion-LM / CDCD / DiffuSeq

**核心机制**：将 token 映射到连续 embedding，在去噪过程中**每一步都算 token-level 交叉熵**。

**ELF 的突破**：
- Diffusion-LM **每一步都往词表硬对齐**，打断连续性
- ELF **全程不去对齐词表**，只在最后一步离散化
- 结果是：ELF 32 步 Gen. PPL 24，Diffusion-LM 基线 ~50+（1024 步）

**关键差异**：Diffusion-LM 是"伪连续"——形式上在连续空间，但训练目标强制离散约束；ELF 是"真连续"——训练目标也是连续的 MSE。

### 3.2 FLM（Flow Matching Language Model）

**核心机制**：Flow Matching + One-hot 表示。

**与 ELF 对比**：

| 维度 | FLM | ELF |
|------|-----|-----|
| **表示方式** | One-hot（本质离散） | 双向 contextual embedding |
| **Gen. PPL** | ~50（1024 步）/ ~32（蒸馏） | **24（32 步）** |
| **训练 token** | 577B | **45B** |
| **蒸馏** | 需要 | **不需要** |

**ELF 优势**：One-hot 表示本质上还是离散化的，ELF 的 contextual embedding 真正利用了连续性。
**FLM 优势**：One-hot 的可解释性更好，每个维度明确对应一个 token。

### 3.3 LangFlow

**核心机制**：Bregman Flow Matching + 学习嵌入。

**与 ELF 对比**：
- LangFlow Gen. PPL ~55，ELF 24——差距显著
- LangFlow 使用**学习嵌入**，ELF 使用**预训练 T5 编码器**
- 消融实验证明：预训练 contextual embedding > 学习嵌入 > 随机嵌入

**关键洞察**：LangFlow 的失败说明"连续"不是优势本身，**用什么连续表示**才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。

### 3.4 LD4LG / Cosmos / TEncDM（Latent Diffusion 路线）

**核心机制**：latent diffusion——先训 encoder/decoder，在压缩 latent 空间做扩散。

**与 ELF 对比**：

| 维度 | LD4LG/Cosmos | ELF |
|------|-------------|-----|
| **模块数量** | 3（encoder + denoiser + decoder） | **1（共享权重网络）** |
| **离散化时机** | decoder 每一步都可能涉及 | **仅最后一步** |
| **训练复杂度** | 高（需对齐 encoder/decoder/denoiser） | **低（单一网络）** |
| **架构优雅度** | 模块化但复杂 | **极简** |

**ELF 优势**：省去 encoder/decoder 的训练和对齐，架构极简。
**Latent Diffusion 优势**：latent 空间的维度更低，计算效率可能更高（但 ELF 105M 已经很小）。

---

## 四、自回归基线：被颠覆的目标

### 4.1 为什么自回归仍是"参照物"而非"竞争者"？

扩散语言模型不是要"打败 GPT"，而是要**提供另一种生成范式**：
- **并行解码**：自回归必须逐 token 生成，扩散可以并行
- **双向修改**：自回归只能从左到右，扩散可以全局调整
- **填空任务**：自回归天生不擅长，扩散天然支持

但在**生成质量**上，扩散模型仍需要与自回归对比：

| 任务 | 自回归 (AR) | ELF |
|------|------------|-----|
| OpenWebText Gen. PPL | ~20（典型值） | 24（接近） |
| WMT14 BLEU | 25.2 | **26.4（超越）** |
| XSum ROUGE-1 | 30.5 | **36.0（超越）** |

**关键结论**：ELF 在条件生成任务上**超越自回归基线**，这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上，可能比自回归更有优势。

### 4.2 GPT 系列的隐性优势

虽然 ELF 在特定任务上超越 AR，但 GPT 系列仍有**不可替代的优势**：
1. **对话能力**：自回归的逐 token 生成天然适合流式对话
2. **工具调用**：自回归的确定性输出更适合结构化工具调用
3. **推理能力**：思维链（CoT）等推理技术建立在自回归基础上
4. **生态锁定**：GPT 的训练数据、微调生态、应用接口难以迁移

**竞争态势**：扩散模型和自回归不是"取代"关系，而是**互补关系**——未来可能出现混合架构（部分 token 自回归，部分 token 扩散）。

---

## 五、混合/过渡路线：夹缝中的竞争者

### 5.1 E2D2（Embedding to Discrete and back）

**核心机制**：离散→连续 embedding→离散，两步转换。

**与 ELF 对比**：
- E2D2 有**显式的 encoder/decoder 分离**，ELF 是共享权重
- E2D2 WMT14 BLEU 24.8，ELF 26.4——ELF 更优
- E2D2 是"过渡方案"，ELF 是"终极方案"

### 5.2 SED / SSD-LM / TESS（Simplex 空间）

**核心机制**：在 probability simplex 上做扩散，介于离散和连续之间。

**与 ELF 对比**：
- Simplex 空间**本质还是离散化的**（每个维度对应 token 概率）
- ELF 的 embedding 空间**完全脱离词表约束**
- 消融实验证明：contextual embedding（~24）> simplex（~30+）> one-hot（~35）

### 5.3 DFM / CFM（Flow Matching + Simplex）

**核心机制**：Flow Matching 但使用 Simplex 表示。

**与 ELF 对比**：
- DFM/CFM 是 FLM 的变体，同样受限于 Simplex 的离散本质
- ELF 使用真正的连续 embedding，Flow Matching 的动力学自由度更大

---

## 六、竞争优势矩阵

### 6.1 各竞品在关键维度上的位置

| 竞品 | 连续程度 | 架构简洁度 | 生成质量 | 采样效率 | 训练效率 | 规模可扩展性 |
|------|---------|----------|---------|---------|---------|-------------|
| **ELF** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ❓（待验证） |
| MDLM | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Duo | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| LLaDA | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Diffusion-LM | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| FLM | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| LangFlow | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ | ⭐ | ⭐⭐ |
| LD4LG/Cosmos | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| GPT (AR) | N/A | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |

**ELF 的定位**：在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先，但"规模可扩展性"尚未验证（最大 652M）。

### 6.2 ELF 的"护城河"

1. **架构极简**：一个网络做两件事（去噪+解码），省去 encoder/decoder 对齐
2. **全程连续**：不打断扩散动力学，图像技术直接迁移
3. **预训练嵌入**：双向 contextual embedding 是质量核心
4. **训练效率**：45B token 超越对手 500B+ token 的效果
5. **无需蒸馏**：32 步原生超越对手 1024 步/蒸馏的效果

### 6.3 ELF 的"阿喀琉斯之踵"

1. **规模未验证**：7B+ 规模的表现是开放问题
2. **长文本局限**：当前最长 1024，与 LLaDA/Dream 7B 的长文本能力有差距
3. **推理 wall-clock**：虽然步数少（32），但每次前向的计算量 vs 自回归需要更细致对比
4. **对话能力未测**：扩散模型天然不擅长流式对话，ELF 尚未在对话场景验证
5. **生态薄弱**：GPT/LLaDA 已有开源生态和应用案例，ELF 刚发布

---

## 七、未来竞争预测

### 7.1 短期（6 个月）

- **ELF 会被快速复现**：MIT/何恺明品牌 + 简洁架构 + 开源代码，社区复现门槛低
- **离散派会反击**：MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
- **混合架构会出现**："自回归 + 扩散"的组合方案会被探索（如部分 token AR，部分 token 扩散）

### 7.2 中期（1-2 年）

- **规模竞赛**：ELF 如果扩展到 7B，将与 LLaDA/Dream 7B 正面交锋
- **应用场景分化**：
  - 自回归主导：对话、流式生成、工具调用
  - 扩散主导：文本编辑、填空、并行生成、条件生成（翻译/摘要）
  - 混合架构主导：通用大模型
- **训练效率成为关键**：ELF 证明"架构创新可以弥补数据量差距"，这会激励更多团队投入架构创新

### 7.3 长期（2 年以上）

- **扩散模型可能成为"标准组件"**：就像 ResNet 成为 CV 的标准组件，ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
- **多模态扩展**：扩散模型在图像/视频/音频领域的成功，可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
- **何恺明的下一站**：从 ResNet → 生成模型 → ELF，他的研究轨迹预示可能还会有更大突破

---

## 八、关键结论

1. **ELF 不是"比对手好一点"，而是"用不同的架构哲学重新定义了连续 DLM 的可能性"**。
   - 前人：连续是手段，最终要回到离散
   - ELF：连续是本质，离散只是最后一步的输出格式

2. **离散派的优势在规模，连续派的优势在效率**。
   - LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
   - ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
   - 未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构

3. **自回归不会被取代，但会被补充**。
   - 对话、推理、工具调用仍将是自回归的主场
   - 翻译、摘要、文本编辑、填空将是扩散的主场
   - 通用模型可能是两者的混合

4. **何恺明的入场是一个信号**。
   - ResNet 之父从 CV 转向生成模型再转向语言模型，说明"架构创新仍有巨大空间"
   - 他的团队规模小（8 人）、算力需求低（45B token），但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"

---

## 参考来源

1. ELF 论文：arXiv:2605.10938
2. MDLM 论文：Masked Diffusion Language Model
3. Duo 论文：Denoising Unified Optimization
4. LLaDA 论文：Large Language Diffusion with mAsking
5. Dream 7B 项目
6. Diffusion-LM 论文
7. FLM/FMLM 论文
8. LangFlow 论文
9. LD4LG/Cosmos 论文
10. E2D2 论文

#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
ELF 竞争对手全景分析：连续扩散语言模型的战场格局

讨论回复

推荐

智谱 GLM-5 已上线