# ELF 竞争对手全景分析:连续扩散语言模型的战场格局
> **来源**:arXiv:2605.10938、相关竞品论文、社区技术评测
> **作者**:小凯
> **日期**:2026-05-14
---
## 一句话总结
ELF 的竞争对手分布在三个战场:**离散 DLM 派**(MDLM、Duo、LLaDA、Dream 7B)占据此前主流;**连续 DLM 派**(Diffusion-LM、CDCD、FLM、LangFlow)是 ELF 的"同门师弟"但各有取舍;**自回归基线**(GPT 系列)是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新,在三个战场上同时取得了优势。
---
## 一、竞争格局总览
```
扩散语言模型 (DLM)
├── 离散派(Discrete DLM)
│ ├── MDLM —— 当前离散派 SOTA
│ ├── Duo —— 均匀分布扩散
│ ├── LLaDA —— 掩码扩散
│ └── Dream 7B —— 大规模离散 DLM
│
├── 连续派(Continuous DLM)
│ ├── 早期探索:Diffusion-LM、CDCD、DiffuSeq
│ ├── Flow Matching 路线:FLM、LangFlow
│ └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
├── E2D2 —— 离散→连续→离散
├── SED/SSD-LM —— Simplex 空间
└── LD4LG/Cosmos —— Latent Diffusion
自回归基线(Autoregressive)
├── GPT 系列 —— 目标不是被打败,而是被互补
└── 各类 Transformer AR 模型
```
---
## 二、离散派(Discrete DLM):ELF 的直接劲敌
### 2.1 MDLM(Masked Diffusion Language Model)
**核心机制**:用 MASK token 替代被扩散的 token,逐步去掩码恢复文本。
**与 ELF 对比**:
| 维度 | MDLM | ELF |
|------|------|-----|
| **状态空间** | 离散 token + MASK | 连续 embedding |
| **采样步数** | 1024 步(基线)/ 32 步(+SDTT 蒸馏) | **32 步(无蒸馏)** |
| **Gen. PPL** | ~45(1024 步)/ ~30(+SDTT 蒸馏) | **24(32 步,无蒸馏)** |
| **训练 token** | 550B | **45B(12× 少)** |
| **参数量** | 170M | **105M** |
| **条件生成** | WMT14 BLEU 18.4 | **WMT14 BLEU 26.4** |
**ELF 优势**:无蒸馏即可超越 MDLM+蒸馏,训练数据少 12 倍,参数少 38%。
**MDLM 优势**:离散空间的语义保真度更高(理论上),工程实现更成熟。
### 2.2 Duo(Denoising Unified Optimization)
**核心机制**:将 token 往均匀分布扩散,再逐步修正。
**与 ELF 对比**:
| 维度 | Duo | ELF |
|------|-----|-----|
| **Gen. PPL** | ~40(1024 步)/ ~28(+DCD 蒸馏) | **24(32 步)** |
| **训练 token** | 550B | **45B** |
| **摘要 XSum** | ROUGE-1 31.4 | **ROUGE-1 36.0** |
**ELF 优势**:所有指标全面领先,且不需要蒸馏加持。
**Duo 优势**:均匀扩散的数学性质更简洁,理论分析更友好。
### 2.3 LLaDA(Large Language Diffusion with mAsking)
**核心机制**:大规模掩码扩散,2025 年引发 DLM 方向关注。
**与 ELF 对比**:
- LLaDA 是**离散派的大模型代表**(7B+ 规模),ELF 目前最大仅 652M
- LLaDA 证明了离散 DLM 可以扩展到 7B,但 ELF 尚未在同等规模验证
- ELF 的**效率优势**(32 步 vs 1024 步)在更大规模上是否保持,是开放问题
**竞争态势**:LLaDA 代表了"规模至上"的离散派路线,ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。
### 2.4 Dream 7B
**核心机制**:大规模离散 DLM,主打"梦境生成"(长文本连贯性)。
**与 ELF 对比**:
- Dream 7B 专注于**长文本生成**(数千 token),ELF 当前最长 1024
- Dream 7B 的**连贯性优势**在长文本场景可能压倒 ELF 的效率优势
- ELF 如果扩展到 7B,需要在长文本上证明自己
---
## 三、连续派(Continuous DLM):ELF 的"同门"
### 3.1 Diffusion-LM / CDCD / DiffuSeq
**核心机制**:将 token 映射到连续 embedding,在去噪过程中**每一步都算 token-level 交叉熵**。
**ELF 的突破**:
- Diffusion-LM **每一步都往词表硬对齐**,打断连续性
- ELF **全程不去对齐词表**,只在最后一步离散化
- 结果是:ELF 32 步 Gen. PPL 24,Diffusion-LM 基线 ~50+(1024 步)
**关键差异**:Diffusion-LM 是"伪连续"——形式上在连续空间,但训练目标强制离散约束;ELF 是"真连续"——训练目标也是连续的 MSE。
### 3.2 FLM(Flow Matching Language Model)
**核心机制**:Flow Matching + One-hot 表示。
**与 ELF 对比**:
| 维度 | FLM | ELF |
|------|-----|-----|
| **表示方式** | One-hot(本质离散) | 双向 contextual embedding |
| **Gen. PPL** | ~50(1024 步)/ ~32(蒸馏) | **24(32 步)** |
| **训练 token** | 577B | **45B** |
| **蒸馏** | 需要 | **不需要** |
**ELF 优势**:One-hot 表示本质上还是离散化的,ELF 的 contextual embedding 真正利用了连续性。
**FLM 优势**:One-hot 的可解释性更好,每个维度明确对应一个 token。
### 3.3 LangFlow
**核心机制**:Bregman Flow Matching + 学习嵌入。
**与 ELF 对比**:
- LangFlow Gen. PPL ~55,ELF 24——差距显著
- LangFlow 使用**学习嵌入**,ELF 使用**预训练 T5 编码器**
- 消融实验证明:预训练 contextual embedding > 学习嵌入 > 随机嵌入
**关键洞察**:LangFlow 的失败说明"连续"不是优势本身,**用什么连续表示**才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。
### 3.4 LD4LG / Cosmos / TEncDM(Latent Diffusion 路线)
**核心机制**:latent diffusion——先训 encoder/decoder,在压缩 latent 空间做扩散。
**与 ELF 对比**:
| 维度 | LD4LG/Cosmos | ELF |
|------|-------------|-----|
| **模块数量** | 3(encoder + denoiser + decoder) | **1(共享权重网络)** |
| **离散化时机** | decoder 每一步都可能涉及 | **仅最后一步** |
| **训练复杂度** | 高(需对齐 encoder/decoder/denoiser) | **低(单一网络)** |
| **架构优雅度** | 模块化但复杂 | **极简** |
**ELF 优势**:省去 encoder/decoder 的训练和对齐,架构极简。
**Latent Diffusion 优势**:latent 空间的维度更低,计算效率可能更高(但 ELF 105M 已经很小)。
---
## 四、自回归基线:被颠覆的目标
### 4.1 为什么自回归仍是"参照物"而非"竞争者"?
扩散语言模型不是要"打败 GPT",而是要**提供另一种生成范式**:
- **并行解码**:自回归必须逐 token 生成,扩散可以并行
- **双向修改**:自回归只能从左到右,扩散可以全局调整
- **填空任务**:自回归天生不擅长,扩散天然支持
但在**生成质量**上,扩散模型仍需要与自回归对比:
| 任务 | 自回归 (AR) | ELF |
|------|------------|-----|
| OpenWebText Gen. PPL | ~20(典型值) | 24(接近) |
| WMT14 BLEU | 25.2 | **26.4(超越)** |
| XSum ROUGE-1 | 30.5 | **36.0(超越)** |
**关键结论**:ELF 在条件生成任务上**超越自回归基线**,这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上,可能比自回归更有优势。
### 4.2 GPT 系列的隐性优势
虽然 ELF 在特定任务上超越 AR,但 GPT 系列仍有**不可替代的优势**:
1. **对话能力**:自回归的逐 token 生成天然适合流式对话
2. **工具调用**:自回归的确定性输出更适合结构化工具调用
3. **推理能力**:思维链(CoT)等推理技术建立在自回归基础上
4. **生态锁定**:GPT 的训练数据、微调生态、应用接口难以迁移
**竞争态势**:扩散模型和自回归不是"取代"关系,而是**互补关系**——未来可能出现混合架构(部分 token 自回归,部分 token 扩散)。
---
## 五、混合/过渡路线:夹缝中的竞争者
### 5.1 E2D2(Embedding to Discrete and back)
**核心机制**:离散→连续 embedding→离散,两步转换。
**与 ELF 对比**:
- E2D2 有**显式的 encoder/decoder 分离**,ELF 是共享权重
- E2D2 WMT14 BLEU 24.8,ELF 26.4——ELF 更优
- E2D2 是"过渡方案",ELF 是"终极方案"
### 5.2 SED / SSD-LM / TESS(Simplex 空间)
**核心机制**:在 probability simplex 上做扩散,介于离散和连续之间。
**与 ELF 对比**:
- Simplex 空间**本质还是离散化的**(每个维度对应 token 概率)
- ELF 的 embedding 空间**完全脱离词表约束**
- 消融实验证明:contextual embedding(~24)> simplex(~30+)> one-hot(~35)
### 5.3 DFM / CFM(Flow Matching + Simplex)
**核心机制**:Flow Matching 但使用 Simplex 表示。
**与 ELF 对比**:
- DFM/CFM 是 FLM 的变体,同样受限于 Simplex 的离散本质
- ELF 使用真正的连续 embedding,Flow Matching 的动力学自由度更大
---
## 六、竞争优势矩阵
### 6.1 各竞品在关键维度上的位置
| 竞品 | 连续程度 | 架构简洁度 | 生成质量 | 采样效率 | 训练效率 | 规模可扩展性 |
|------|---------|----------|---------|---------|---------|-------------|
| **ELF** | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ❓(待验证) |
| MDLM | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Duo | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| LLaDA | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Diffusion-LM | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| FLM | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| LangFlow | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ | ⭐ | ⭐⭐ |
| LD4LG/Cosmos | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| GPT (AR) | N/A | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
**ELF 的定位**:在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先,但"规模可扩展性"尚未验证(最大 652M)。
### 6.2 ELF 的"护城河"
1. **架构极简**:一个网络做两件事(去噪+解码),省去 encoder/decoder 对齐
2. **全程连续**:不打断扩散动力学,图像技术直接迁移
3. **预训练嵌入**:双向 contextual embedding 是质量核心
4. **训练效率**:45B token 超越对手 500B+ token 的效果
5. **无需蒸馏**:32 步原生超越对手 1024 步/蒸馏的效果
### 6.3 ELF 的"阿喀琉斯之踵"
1. **规模未验证**:7B+ 规模的表现是开放问题
2. **长文本局限**:当前最长 1024,与 LLaDA/Dream 7B 的长文本能力有差距
3. **推理 wall-clock**:虽然步数少(32),但每次前向的计算量 vs 自回归需要更细致对比
4. **对话能力未测**:扩散模型天然不擅长流式对话,ELF 尚未在对话场景验证
5. **生态薄弱**:GPT/LLaDA 已有开源生态和应用案例,ELF 刚发布
---
## 七、未来竞争预测
### 7.1 短期(6 个月)
- **ELF 会被快速复现**:MIT/何恺明品牌 + 简洁架构 + 开源代码,社区复现门槛低
- **离散派会反击**:MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
- **混合架构会出现**:"自回归 + 扩散"的组合方案会被探索(如部分 token AR,部分 token 扩散)
### 7.2 中期(1-2 年)
- **规模竞赛**:ELF 如果扩展到 7B,将与 LLaDA/Dream 7B 正面交锋
- **应用场景分化**:
- 自回归主导:对话、流式生成、工具调用
- 扩散主导:文本编辑、填空、并行生成、条件生成(翻译/摘要)
- 混合架构主导:通用大模型
- **训练效率成为关键**:ELF 证明"架构创新可以弥补数据量差距",这会激励更多团队投入架构创新
### 7.3 长期(2 年以上)
- **扩散模型可能成为"标准组件"**:就像 ResNet 成为 CV 的标准组件,ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
- **多模态扩展**:扩散模型在图像/视频/音频领域的成功,可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
- **何恺明的下一站**:从 ResNet → 生成模型 → ELF,他的研究轨迹预示可能还会有更大突破
---
## 八、关键结论
1. **ELF 不是"比对手好一点",而是"用不同的架构哲学重新定义了连续 DLM 的可能性"**。
- 前人:连续是手段,最终要回到离散
- ELF:连续是本质,离散只是最后一步的输出格式
2. **离散派的优势在规模,连续派的优势在效率**。
- LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
- ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
- 未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构
3. **自回归不会被取代,但会被补充**。
- 对话、推理、工具调用仍将是自回归的主场
- 翻译、摘要、文本编辑、填空将是扩散的主场
- 通用模型可能是两者的混合
4. **何恺明的入场是一个信号**。
- ResNet 之父从 CV 转向生成模型再转向语言模型,说明"架构创新仍有巨大空间"
- 他的团队规模小(8 人)、算力需求低(45B token),但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"
---
## 参考来源
1. ELF 论文:arXiv:2605.10938
2. MDLM 论文:Masked Diffusion Language Model
3. Duo 论文:Denoising Unified Optimization
4. LLaDA 论文:Large Language Diffusion with mAsking
5. Dream 7B 项目
6. Diffusion-LM 论文
7. FLM/FMLM 论文
8. LangFlow 论文
9. LD4LG/Cosmos 论文
10. E2D2 论文
#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力