ELF 竞争对手全景分析:连续扩散语言模型的战场格局
来源:arXiv:2605.10938、相关竞品论文、社区技术评测 作者:小凯 日期:2026-05-14
一句话总结
ELF 的竞争对手分布在三个战场:离散 DLM 派(MDLM、Duo、LLaDA、Dream 7B)占据此前主流;连续 DLM 派(Diffusion-LM、CDCD、FLM、LangFlow)是 ELF 的"同门师弟"但各有取舍;自回归基线(GPT 系列)是扩散模型想要颠覆的目标。ELF 用"全程连续+共享权重"的架构创新,在三个战场上同时取得了优势。
一、竞争格局总览
扩散语言模型 (DLM)
├── 离散派(Discrete DLM)
│ ├── MDLM —— 当前离散派 SOTA
│ ├── Duo —— 均匀分布扩散
│ ├── LLaDA —— 掩码扩散
│ └── Dream 7B —— 大规模离散 DLM
│
├── 连续派(Continuous DLM)
│ ├── 早期探索:Diffusion-LM、CDCD、DiffuSeq
│ ├── Flow Matching 路线:FLM、LangFlow
│ └── ELF —— "全程连续+共享权重"
│
└── 混合/过渡路线
├── E2D2 —— 离散→连续→离散
├── SED/SSD-LM —— Simplex 空间
└── LD4LG/Cosmos —— Latent Diffusion
自回归基线(Autoregressive)
├── GPT 系列 —— 目标不是被打败,而是被互补
└── 各类 Transformer AR 模型
二、离散派(Discrete DLM):ELF 的直接劲敌
2.1 MDLM(Masked Diffusion Language Model)
核心机制:用 MASK token 替代被扩散的 token,逐步去掩码恢复文本。
与 ELF 对比:
| 维度 | MDLM | ELF |
|---|---|---|
| 状态空间 | 离散 token + MASK | 连续 embedding |
| 采样步数 | 1024 步(基线)/ 32 步(+SDTT 蒸馏) | 32 步(无蒸馏) |
| Gen. PPL | ~45(1024 步)/ ~30(+SDTT 蒸馏) | 24(32 步,无蒸馏) |
| 训练 token | 550B | 45B(12× 少) |
| 参数量 | 170M | 105M |
| 条件生成 | WMT14 BLEU 18.4 | WMT14 BLEU 26.4 |
ELF 优势:无蒸馏即可超越 MDLM+蒸馏,训练数据少 12 倍,参数少 38%。 MDLM 优势:离散空间的语义保真度更高(理论上),工程实现更成熟。
2.2 Duo(Denoising Unified Optimization)
核心机制:将 token 往均匀分布扩散,再逐步修正。
与 ELF 对比:
| 维度 | Duo | ELF |
|---|---|---|
| Gen. PPL | ~40(1024 步)/ ~28(+DCD 蒸馏) | 24(32 步) |
| 训练 token | 550B | 45B |
| 摘要 XSum | ROUGE-1 31.4 | ROUGE-1 36.0 |
ELF 优势:所有指标全面领先,且不需要蒸馏加持。 Duo 优势:均匀扩散的数学性质更简洁,理论分析更友好。
2.3 LLaDA(Large Language Diffusion with mAsking)
核心机制:大规模掩码扩散,2025 年引发 DLM 方向关注。
与 ELF 对比:
- LLaDA 是离散派的大模型代表(7B+ 规模),ELF 目前最大仅 652M
- LLaDA 证明了离散 DLM 可以扩展到 7B,但 ELF 尚未在同等规模验证
- ELF 的效率优势(32 步 vs 1024 步)在更大规模上是否保持,是开放问题
竞争态势:LLaDA 代表了"规模至上"的离散派路线,ELF 代表了"架构创新"的连续派路线。两者尚未在 7B 规模正面交锋。
2.4 Dream 7B
核心机制:大规模离散 DLM,主打"梦境生成"(长文本连贯性)。
与 ELF 对比:
- Dream 7B 专注于长文本生成(数千 token),ELF 当前最长 1024
- Dream 7B 的连贯性优势在长文本场景可能压倒 ELF 的效率优势
- ELF 如果扩展到 7B,需要在长文本上证明自己
三、连续派(Continuous DLM):ELF 的"同门"
3.1 Diffusion-LM / CDCD / DiffuSeq
核心机制:将 token 映射到连续 embedding,在去噪过程中每一步都算 token-level 交叉熵。
ELF 的突破:
- Diffusion-LM 每一步都往词表硬对齐,打断连续性
- ELF 全程不去对齐词表,只在最后一步离散化
- 结果是:ELF 32 步 Gen. PPL 24,Diffusion-LM 基线 ~50+(1024 步)
关键差异:Diffusion-LM 是"伪连续"——形式上在连续空间,但训练目标强制离散约束;ELF 是"真连续"——训练目标也是连续的 MSE。
3.2 FLM(Flow Matching Language Model)
核心机制:Flow Matching + One-hot 表示。
与 ELF 对比:
| 维度 | FLM | ELF |
|---|---|---|
| 表示方式 | One-hot(本质离散) | 双向 contextual embedding |
| Gen. PPL | ~50(1024 步)/ ~32(蒸馏) | 24(32 步) |
| 训练 token | 577B | 45B |
| 蒸馏 | 需要 | 不需要 |
ELF 优势:One-hot 表示本质上还是离散化的,ELF 的 contextual embedding 真正利用了连续性。 FLM 优势:One-hot 的可解释性更好,每个维度明确对应一个 token。
3.3 LangFlow
核心机制:Bregman Flow Matching + 学习嵌入。
与 ELF 对比:
- LangFlow Gen. PPL ~55,ELF 24——差距显著
- LangFlow 使用学习嵌入,ELF 使用预训练 T5 编码器
- 消融实验证明:预训练 contextual embedding > 学习嵌入 > 随机嵌入
关键洞察:LangFlow 的失败说明"连续"不是优势本身,用什么连续表示才是关键。预训练编码器的双向上下文信息是 ELF 成功的核心因素之一。
3.4 LD4LG / Cosmos / TEncDM(Latent Diffusion 路线)
核心机制:latent diffusion——先训 encoder/decoder,在压缩 latent 空间做扩散。
与 ELF 对比:
| 维度 | LD4LG/Cosmos | ELF |
|---|---|---|
| 模块数量 | 3(encoder + denoiser + decoder) | 1(共享权重网络) |
| 离散化时机 | decoder 每一步都可能涉及 | 仅最后一步 |
| 训练复杂度 | 高(需对齐 encoder/decoder/denoiser) | 低(单一网络) |
| 架构优雅度 | 模块化但复杂 | 极简 |
ELF 优势:省去 encoder/decoder 的训练和对齐,架构极简。 Latent Diffusion 优势:latent 空间的维度更低,计算效率可能更高(但 ELF 105M 已经很小)。
四、自回归基线:被颠覆的目标
4.1 为什么自回归仍是"参照物"而非"竞争者"?
扩散语言模型不是要"打败 GPT",而是要提供另一种生成范式:
- 并行解码:自回归必须逐 token 生成,扩散可以并行
- 双向修改:自回归只能从左到右,扩散可以全局调整
- 填空任务:自回归天生不擅长,扩散天然支持
但在生成质量上,扩散模型仍需要与自回归对比:
| 任务 | 自回归 (AR) | ELF |
|---|---|---|
| OpenWebText Gen. PPL | ~20(典型值) | 24(接近) |
| WMT14 BLEU | 25.2 | 26.4(超越) |
| XSum ROUGE-1 | 30.5 | 36.0(超越) |
关键结论:ELF 在条件生成任务上超越自回归基线,这在 DLM 中极为罕见。说明连续扩散在"有输入→有输出"的任务上,可能比自回归更有优势。
4.2 GPT 系列的隐性优势
虽然 ELF 在特定任务上超越 AR,但 GPT 系列仍有不可替代的优势:
- 对话能力:自回归的逐 token 生成天然适合流式对话
- 工具调用:自回归的确定性输出更适合结构化工具调用
- 推理能力:思维链(CoT)等推理技术建立在自回归基础上
- 生态锁定:GPT 的训练数据、微调生态、应用接口难以迁移
竞争态势:扩散模型和自回归不是"取代"关系,而是互补关系——未来可能出现混合架构(部分 token 自回归,部分 token 扩散)。
五、混合/过渡路线:夹缝中的竞争者
5.1 E2D2(Embedding to Discrete and back)
核心机制:离散→连续 embedding→离散,两步转换。
与 ELF 对比:
- E2D2 有显式的 encoder/decoder 分离,ELF 是共享权重
- E2D2 WMT14 BLEU 24.8,ELF 26.4——ELF 更优
- E2D2 是"过渡方案",ELF 是"终极方案"
5.2 SED / SSD-LM / TESS(Simplex 空间)
核心机制:在 probability simplex 上做扩散,介于离散和连续之间。
与 ELF 对比:
- Simplex 空间本质还是离散化的(每个维度对应 token 概率)
- ELF 的 embedding 空间完全脱离词表约束
- 消融实验证明:contextual embedding(~24)> simplex(~30+)> one-hot(~35)
5.3 DFM / CFM(Flow Matching + Simplex)
核心机制:Flow Matching 但使用 Simplex 表示。
与 ELF 对比:
- DFM/CFM 是 FLM 的变体,同样受限于 Simplex 的离散本质
- ELF 使用真正的连续 embedding,Flow Matching 的动力学自由度更大
六、竞争优势矩阵
6.1 各竞品在关键维度上的位置
| 竞品 | 连续程度 | 架构简洁度 | 生成质量 | 采样效率 | 训练效率 | 规模可扩展性 |
|---|---|---|---|---|---|---|
| ELF | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ❓(待验证) |
| MDLM | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Duo | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| LLaDA | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Diffusion-LM | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| FLM | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| LangFlow | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ | ⭐ | ⭐⭐ |
| LD4LG/Cosmos | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| GPT (AR) | N/A | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
ELF 的定位:在"连续程度"、"架构简洁度"、"生成质量"、"采样效率"、"训练效率"五个维度上全面领先,但"规模可扩展性"尚未验证(最大 652M)。
6.2 ELF 的"护城河"
- 架构极简:一个网络做两件事(去噪+解码),省去 encoder/decoder 对齐
- 全程连续:不打断扩散动力学,图像技术直接迁移
- 预训练嵌入:双向 contextual embedding 是质量核心
- 训练效率:45B token 超越对手 500B+ token 的效果
- 无需蒸馏:32 步原生超越对手 1024 步/蒸馏的效果
6.3 ELF 的"阿喀琉斯之踵"
- 规模未验证:7B+ 规模的表现是开放问题
- 长文本局限:当前最长 1024,与 LLaDA/Dream 7B 的长文本能力有差距
- 推理 wall-clock:虽然步数少(32),但每次前向的计算量 vs 自回归需要更细致对比
- 对话能力未测:扩散模型天然不擅长流式对话,ELF 尚未在对话场景验证
- 生态薄弱:GPT/LLaDA 已有开源生态和应用案例,ELF 刚发布
七、未来竞争预测
7.1 短期(6 个月)
- ELF 会被快速复现:MIT/何恺明品牌 + 简洁架构 + 开源代码,社区复现门槛低
- 离散派会反击:MDLM/Duo/LLaDA 团队会针对 ELF 的结果优化自己的架构
- 混合架构会出现:"自回归 + 扩散"的组合方案会被探索(如部分 token AR,部分 token 扩散)
7.2 中期(1-2 年)
- 规模竞赛:ELF 如果扩展到 7B,将与 LLaDA/Dream 7B 正面交锋
- 应用场景分化:
- 自回归主导:对话、流式生成、工具调用
- 扩散主导:文本编辑、填空、并行生成、条件生成(翻译/摘要)
- 混合架构主导:通用大模型
- 训练效率成为关键:ELF 证明"架构创新可以弥补数据量差距",这会激励更多团队投入架构创新
7.3 长期(2 年以上)
- 扩散模型可能成为"标准组件":就像 ResNet 成为 CV 的标准组件,ELF 的"全程连续+共享权重"可能成为 DLM 的标准设计
- 多模态扩展:扩散模型在图像/视频/音频领域的成功,可能推动"统一多模态扩散模型"——ELF 的连续 embedding 范式天然适合多模态
- 何恺明的下一站:从 ResNet → 生成模型 → ELF,他的研究轨迹预示可能还会有更大突破
八、关键结论
-
ELF 不是"比对手好一点",而是"用不同的架构哲学重新定义了连续 DLM 的可能性"。
- 前人:连续是手段,最终要回到离散
- ELF:连续是本质,离散只是最后一步的输出格式
-
离散派的优势在规模,连续派的优势在效率。
- LLaDA/Dream 7B 证明离散 DLM 可以扩展到 7B+
- ELF 证明连续 DLM 可以用 1/10 的数据和 1/30 的步数达到同等质量
- 未来的赢家可能是"在 7B+ 规模上保持 ELF 效率优势"的架构
-
自回归不会被取代,但会被补充。
- 对话、推理、工具调用仍将是自回归的主场
- 翻译、摘要、文本编辑、填空将是扩散的主场
- 通用模型可能是两者的混合
-
何恺明的入场是一个信号。
- ResNet 之父从 CV 转向生成模型再转向语言模型,说明"架构创新仍有巨大空间"
- 他的团队规模小(8 人)、算力需求低(45B token),但产出高效——这预示未来 AI 研究的竞争将从"算力军备竞赛"转向"架构创新竞赛"
参考来源
- ELF 论文:arXiv:2605.10938
- MDLM 论文:Masked Diffusion Language Model
- Duo 论文:Denoising Unified Optimization
- LLaDA 论文:Large Language Diffusion with mAsking
- Dream 7B 项目
- Diffusion-LM 论文
- FLM/FMLM 论文
- LangFlow 论文
- LD4LG/Cosmos 论文
- E2D2 论文
#扩散模型 #语言模型 #ELF #竞争分析 #AI架构 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。