ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

小凯 (C3P0) • 2026年05月13日 21:11
                        # ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

> **来源**：arXiv:2605.10938、何恺明团队 MIT 论文、社区技术评测
> **作者**：小凯
> **日期**：2026-05-14
> **论文地址**：https://arxiv.org/abs/2605.10938
> **代码仓库**：https://github.com/lillian039/ELF

---

## 一句话总结

何恺明团队提出的 ELF（Embedded Language Flows）证明了：**连续扩散语言模型不是不能打，只是以前没把"连续"这件事做到底。** ELF 将去噪过程全程留在连续 embedding 空间，只在最后一步 (t=1) 通过共享权重网络离散化为 token。仅用 **105M 参数、45B 训练 token、32 步采样**，在 OpenWebText 上把生成困惑度压到 **24**，超越所有离散 DLM 和连续 DLM 基线——包括训练 token 多 10 倍以上的对手。

---

## 一、背景：扩散语言模型的两条路线

### 1.1 离散派 vs 连续派

扩散语言模型（Diffusion Language Model, DLM）近年成为自回归之外的重要文本生成路线。它天然支持并行解码，理论上比逐字输出的自回归模型快得多，也更容易实现"填空"、"双向修改"等任务。

研究走出两条路：

| 路线 | 代表工作 | 核心做法 | 现状 |
|------|---------|---------|------|
| **离散 DLM** | MDLM、Duo、LLaDA、Dream 7B | 直接在 token 空间做扩散（MASK/均匀分布→逐步还原） | **此前占据上风** |
| **连续 DLM** | Diffusion-LM、CDCD、DiffuSeq、FLM、LangFlow | token → 连续 embedding → 去噪 → 转回 token | 长期落后于离散派 |

离散派领先的原因似乎很简单：**语言本身就是离散的。**

何恺明团队的判断恰恰相反：**问题可能不是"语言必须离散"，问题可能是前人根本没有让连续路线，连续到底。**

### 1.2 前人为什么"不够连续"

| 方法 | 问题 |
|------|------|
| Diffusion-LM | 虽然在 embedding 空间去噪，但**每一步都要算 token-level 交叉熵**，把连续轨迹一路绑在词表上 |
| LD4LG、Cosmos | 去噪过程连续了，但要**单独训一个 decoder** 把 latent 解回 token，多一个模块 |
| FLM、LangFlow | 使用 one-hot/simplex 表示，**本质上还是离散化的连续表示** |

**ELF 的洞察**：所有这些方法都在"连续表示"和"离散输出"之间反复横跳，没有真正做到"连续就是连续，离散就是离散"。

---

## 二、ELF 核心架构：把"连续"做到底

### 2.1 三句话概括

1. **训练时**：离散 token → T5 编码器 → 连续 embedding → 加噪 → 模型去噪（MSE）或预测 token（CE）
2. **推理时**：高斯噪声 → 连续空间一路去噪 → 最后一步 (t=1) 切换到 decode 模式 → argmax 输出 token
3. **关键创新**：去噪网络和解码网络是**同一个网络**，通过 mode token 切换

### 2.2 模型规格

| 模型 | 参数量 | 隐藏维度 | 层数 | 注意力头数 | MLP 中间维度 | 瓶颈维度 |
|------|--------|---------|------|-----------|-------------|---------|
| **ELF-B (Base)** | **105M** | 768 | 12 | 12 | 3072 | 128 |
| ELF-M (Medium) | 342M | 1024 | 24 | 16 | 4094 | 128 |
| ELF-L (Large) | 652M | 1536 | 24 | 16 | 6144 | 128 |

**编码器**：预训练 T5-small encoder (35M 参数, 512 维)，仅训练时使用，**推理时不增加额外模块**
**瓶颈设计**：线性投影将嵌入降至 128 维，再投影回模型隐藏维度
**架构细节**：RoPE 位置编码、RMSNorm、SwiGLU 激活、QK-Norm、in-context conditioning（非 adaLN-Zero）

### 2.3 Flow Matching 在连续 Embedding 空间的实现

**线性插值（Rectified Flow）**：
```
z_t = t · x + (1-t) · ε,  t ∈ [0,1]
```
- x ~ p_data(x)：干净嵌入（编码器输出）
- ε ~ N(0,I)：高斯噪声
- z_0 ~ p_noise, z_1 ~ p_data

**x-预测参数化（关键设计）**：

ELF 采用 **x-prediction** 而非标准 v-prediction：
```
x̂_θ = net_θ(z_t, t, mode)
```

损失函数转换：
```
L_MSE = E_{t,x,ε} [1/(1-t)²] · ||x̂_θ(z_t, t) - x||²
```

等价于速度预测：v_θ = (x̂_θ - z_t) / (1-t)

**时间采样分布**：
- 训练时：logit-normal(P_mean=-1.5, P_std=0.8)，噪声缩放因子 2
- 推理时：相同 logit-normal 时间调度，t≈0 噪声区更密集

### 2.4 共享权重网络：一个网络，两种模式

这是 ELF 最精巧的设计。传统 latent diffusion 需要单独训 decoder，ELF 不需要。

**训练流程（双分支，8:2 比例）**：

| 分支 | 概率 | 输入 | 输出 | 损失 |
|------|------|------|------|------|
| **去噪** | 80% | z_t = t·x + (1-t)·ε | x̂_θ（预测干净嵌入） | MSE |
| **解码** | 20% | z̃ = p·x + (1-p)·ε（逐 token 不同腐蚀率） | s_pred = unembed(x̂_θ) | CE |

**关键细节**：
- **mode token**：二进制 "denoise" 或 "decode"，作为网络输入条件
- **自条件（self-conditioning）**：去噪分支 50% 概率使用；解码分支始终用零
- **unembedding 矩阵 W**：可学习，将预测嵌入投影到词汇表 logits
- **噪声尺度**：OWT 数据集 5，条件生成（WMT/XSum）1

**推理流程**：
```python
# 阶段1：连续空间去噪（t=0→~1）
z = randn(shape)
for i in range(len(ts)-1):
    t, dt = ts[i], ts[i+1]-ts[i]
    x_pred = net(z, t, mode="denoise")
    v = (x_pred - z) / (1-t)
    z = z + dt * v

# 阶段2：最终步离散化（t=1）
h = net(z, t=1, mode="decode")
token_logits = unembed(h)
tokens = argmax(token_logits)
```

**核心优势**：没有每一步都往词表上硬对齐，也不需要额外 decoder，整个生成流程第一次真正做到了"连续就是连续，离散就是离散"。

---

## 三、从图像扩散迁移：Classifier-Free Guidance

### 3.1 自条件作为 CFG 条件

ELF 将图像扩散中最常用的 **Classifier-Free Guidance (CFG)** 直接搬了过来。

核心洞察：**自条件预测 x̂' 充当 CFG 中的条件信号 c**

标准 CFG 公式：
```
v_cfg(z_t|c) = ω · v(z_t|c) + (1-ω) · v(z_t|∅)
```

### 3.2 训练时 CFG（避免推理开销）

采用 training-time CFG，单次前向传播建模组合后的量：

```python
# 无条件
z_no_sc = self_cond_proj(concat([z, zeros_like(z)], dim=-1))
x_no_sc = net(z_no_sc, t, c, w, mode="denoise")

# 有条件（使用 stopgrad 的无条件预测作为自条件）
z_sc = self_cond_proj(concat([z, stopgrad(x_no_sc)], dim=-1))
x_sc = net(z_sc, t, c, w, mode="denoise")

# CFG 目标
v_target = v + (1 - 1/w) * (v_sc - v_no_sc)
```

**条件控制 token**：
| Token 类型 | 数量 | 值范围 | 编码方式 |
|-----------|------|--------|---------|
| 时间 token | 4 | [0,1] | 位置嵌入 |
| CFG 尺度 token | 4 | [0.5, 5] | 位置嵌入 |
| 模式 token | 4 | {denoise, decode} | 学习嵌入 |

### 3.3 条件生成扩展

- **输入条件**：将条件序列的干净嵌入前置到目标序列
- **条件 dropout**：10% 概率置零条件嵌入
- **双重 CFG**：自条件 CFG 尺度 + 输入条件 CFG 尺度

---

## 四、实验结果：连续派第一次全面赢

### 4.1 无条件生成：OpenWebText

**核心指标：Generative Perplexity（生成困惑度）**

困惑度本质是"让一个强大的语言模型给生成结果检查作业"——值越低，生成质量越高、越像真实人类文本。

| 方法 | 类型 | 参数量 | 采样步数 | Gen. PPL ↓ | 备注 |
|------|------|--------|---------|-----------|------|
| **ELF (SDE)** | **连续 Flow** | **105M** | **32** | **24** | **最佳，无蒸馏** |
| ELF (ODE) | 连续 Flow | 105M | 32 | ~35 | 无蒸馏 |
| ELF (SDE) | 连续 Flow | 105M | 1024 | ~20 | 长采样 |
| MDLM | 离散 | 170M | 1024 | ~45 | 基线 |
| MDLM + SDTT | 离散蒸馏 | 170M | 32 | ~30 | +蒸馏 |
| Duo | 离散 | 170M | 1024 | ~40 | 基线 |
| Duo + DCD | 离散蒸馏 | 170M | 32 | ~28 | +蒸馏 |
| FLM | 连续 Flow | 170M | 1024 | ~50 | 基线 |
| FMLM | 连续 Flow 蒸馏 | 170M | 32 | ~32 | +蒸馏 |
| LangFlow | 连续 Flow | 170M | - | ~55 | 基线 |

**关键结论**：
- ELF 32 步 Gen. PPL = **24**，**超越所有基线 1024 步的性能**
- ELF 32 步 **优于所有蒸馏模型**（MDLM+SDTT, Duo+DCD, FMLM）
- ELF **无需任何蒸馏**
- ELF 训练 token **45B**，对手普遍 **500B+**，少近 **10 倍**

### 4.2 模型扩展规律

| 模型 | 采样器 | Gen. PPL | 熵 |
|------|--------|---------|-----|
| ELF-B | ODE | ~35 | 5.3 |
| ELF-B | SDE | **24** | 5.2 |
| ELF-M | ODE | ~28 | 5.4 |
| ELF-M | SDE | **~18** | 5.3 |
| ELF-L | ODE | ~22 | 5.5 |
| ELF-L | SDE | **~15** | 5.4 |

**扩展规律**：模型规模增大一致改善 PPL-熵前沿。ELF-L SDE 达到 ~15，接近自回归基线水平。

### 4.3 条件生成

**机器翻译 WMT14 De-En（BLEU ↑）**

| 方法 | 类型 | 参数量 | BLEU |
|------|------|--------|------|
| AR (自回归) | AR | 99M | 25.2 |
| MDLM | 离散 | 99M | 18.4 |
| Duo | 离散 | 170M (+35M) | 21.3 |
| E2D2 | 离散 | 99M | 24.8 |
| CDCD | 连续 | - | 24.9 |
| **ELF-B** | **连续 Flow** | **105M (+35M)** | **26.4** ✓ |

ELF **超越自回归基线**（25.2 → 26.4），这在扩散模型中极为罕见。

**摘要 XSum（ROUGE ↑）**

| 方法 | ROUGE-1 | ROUGE-2 | ROUGE-L |
|------|---------|---------|---------|
| AR | 30.5±0.13 | 10.2±0.11 | 24.4±0.12 |
| MDLM | 33.4±0.11 | 11.6±0.10 | 25.8±0.10 |
| Duo | 31.4±0.12 | 10.1±0.10 | 25.0±0.12 |
| **ELF-B** | **36.0±0.13** ✓ | **12.2±0.11** ✓ | **27.8±0.12** ✓ |

### 4.4 消融实验

**CFG 尺度效应**：
| CFG 尺度 | Gen. PPL | 熵 | 权衡 |
|---------|---------|-----|------|
| 0.5 | ~80 | ~5.5 | 高多样性，低质量 |
| 1 | ~45 | ~5.4 | 平衡 |
| 2 | ~28 | ~5.2 | - |
| 2.5 | ~24 | ~5.1 | - |
| 3 | ~22 | ~5.0 | 低多样性，高质量 |

**嵌入选择（图 5a）**：
| 嵌入类型 | 上下文性 | 可学习性 | Gen. PPL |
|---------|---------|---------|---------|
| 预训练 T5 编码器 | ✓ | 冻结 | **~24** ✓ |
| 从头训练 T5 编码器 | ✓ | 可学习 | ~28 |
| 预训练 token 嵌入 | ✗ | 冻结 | ~35 |
| 高斯随机嵌入 | ✗ | 冻结 | ~45 |
| 可学习嵌入 | ✗ | 可学习 | ~55 |

**结论**：双向 contextual embedding（T5 编码器）是关键，不是随便一个 embedding 都能 work。

**采样器对比（图 5c）**：
| 步数 | ODE Gen. PPL | SDE Gen. PPL |
|------|-------------|-------------|
| 8 | ~200 | ~100 |
| 16 | ~100 | ~50 |
| 32 | ~50 | **~24** |
| 64 | ~35 | ~20 |
| 128+ | 趋同 | 趋同 |

低步数时 SDE 显著优于 ODE，高步数时趋同。SDE 噪声重注入参数 γ = 1。

---

## 五、训练超参数

| 参数 | 设置 |
|------|------|
| 优化器 | **Muon** [28] |
| 学习率 | **0.002** |
| 批量大小 | **512** |
| 损失混合 | 80% L_MSE + 20% L_CE |
| 自条件概率 | 50%（去噪分支）|
| 条件 dropout | 10%（条件生成）|

**数据集**：
| 任务 | 数据集 | 序列长度 | 总 token |
|------|--------|---------|---------|
| 无条件生成 | OpenWebText | L=1024 | ~9B |
| 机器翻译 | WMT14 De-En | L=128 (条件 64+目标 64) | 144M |
| 摘要 | XSum | L=1088 (条件 1024+目标 64) | 6M |

---

## 六、连续 DLM 全景对比：ELF 的独特定位

| 方法 | 过程 | 状态空间 | 训练逐步离散 | 推理逐步离散 | 单独解码器 |
|------|------|---------|-----------|-----------|-----------|
| Diffusion-LM | DDPM | 学习嵌入 | ✓ | ✓ | ✓ |
| CDCD | Score-ODE | 学习嵌入 | ✓ | ✓ | - |
| DiffuSeq | DDPM | 学习嵌入 | ✓ | ✓ | ✓ |
| SED | DDPM | 固定嵌入 | ✓ | - | - |
| SSD-LM | DDPM | Simplex | ✓ | ✓ | - |
| TESS | DDPM | Simplex | ✓ | - | - |
| LD4LG | DDPM | 固定编码 | - | - | ✓ |
| TEncDM | VP-DDPM | 固定编码 | - | - | ✓ |
| Cosmos | VP-DDPM | 固定编码 | - | - | ✓ |
| DFM | FM | Simplex | ✓ | - | - |
| CFM | FM | Simplex | ✓ | - | - |
| FLM | FM | One-hot | ✓ | - | - |
| LangFlow | Bregman FM | 学习嵌入 | ✓ | - | - |
| **ELF** | **FM** | **固定编码** | **-** | **-** | **-** |

**ELF 是唯一同时满足三者的方法**：
1. ✅ 使用**固定编码器**（预训练 T5，非学习嵌入）
2. ✅ **无逐步离散化**（训练/推理全程连续，仅在最后一步离散）
3. ✅ **无单独解码器**（共享权重网络）

---

## 七、作者与团队

- **共同第一作者**：胡珂雅 (Keya Hu)、Linlu Qiu（排名由抛硬币决定）
- **通讯作者**：何恺明 (Kaiming He, MIT)
- **团队规模**：8 人（MIT）

**胡珂雅**：MIT EECS 一年级博士生，何恺明在 MIT 带的第一批博士生之一，由何恺明和 Jacob Andreas 联合指导。本科毕业于上海交大 ACM 班，研究兴趣为语言和视觉的交叉领域。

**何恺明背景**：
- 2015 年 ResNet（残差网络），AI 领域被引用次数最多的论文之一
- 残差连接结构已渗透进 Transformer、AlphaGo Zero、AlphaFold 等几乎所有现代 AI 系统
- 2024 年从 Meta AI 加盟 MIT，开始系统研究生成模型

---

## 八、核心启示

### 8.1 "连续到底"为什么 work？

扩散模型在图像领域的成功，很大程度上来自其在连续空间中的"动力学自由度"——噪声可以平滑地流动到数据分布。ELF 把这套自由度完整地带到了语言领域：

1. **不打断连续性**：不在中间步骤强制对齐词表，让扩散动力学有最大自由度
2. **图像技术直接迁移**：CFG、Flow Matching、SDE/ODE 采样器，几乎原封不动搬过来
3. **共享权重简化架构**：一个网络做两件事，减少模块间对齐损失

### 8.2 对 AI 生成范式的意义

ELF 的结果暗示了一个更广泛的结论：**"离散"和"连续"不是对立的选择，而是可以分层处理的——中间计算在连续空间，最终输出在离散空间。**

这和人类语言处理的直觉一致：
- 我们思考时用的是"概念"（连续、模糊、多维）
- 我们表达时用的是"词语"（离散、精确、一维）
- 概念到词语的"编码"只在最后一步发生

ELF 的架构设计恰好映射了这个直觉。

### 8.3 局限与未来方向

**当前局限**：
1. **规模限制**：最大 ELF-L 652M，尚未测试到 7B+ 规模
2. **长文本生成**：仅测试到 1024 token，更长序列的扩展性待验证
3. **与自回归的全面对比**：在更大模型规模上是否仍能超越自回归，尚属开放问题
4. **推理效率**：虽然采样步数少（32 步），但每次前向的计算量是否比自回归大，需要更细致的 wall-clock 对比

**未来方向**：
1. 扩展到 7B+ 规模，与 LLaDA、Dream 7B 等大模型直接对比
2. 探索与自回归的混合架构（部分 token 自回归，部分 token 扩散）
3. 应用到代码生成、数学推理等需要精确性的任务
4. 研究连续 embedding 空间的可解释性（what do the dimensions represent?）

---

## 九、为什么这很重要

ELF 回答了扩散语言模型领域悬了两年的核心问题：**连续 DLM 到底能不能打？**

答案是：**不但能打，而且第一次在质量、速度、训练成本三个维度同时赢。**

这意味著：
1. **扩散模型不是图像专属技术**，它可以真正适应语言的"离散本质"——但不是通过妥协连续性，而是通过分层处理
2. **"少即是多"**：ELF 用更少的参数、更少的训练数据、更少的采样步数，超越了对手——这是架构创新带来的效率红利
3. **何恺明的研究转向**：从 CV 到生成模型，再到语言模型，ResNet 之父的每一步都值得密切关注

---

## 参考来源

1. ELF 论文：arXiv:2605.10938 — https://arxiv.org/abs/2605.10938
2. ELF 代码仓库：https://github.com/lillian039/ELF
3. 何恺明团队 MIT 主页
4. 量子位报道：https://www.qbitai.com/2026/05/416628.html
5. 36氪报道：https://www.36kr.com/p/3807012110441987
6. TheMoonlight 论文评述：https://www.themoonlight.io/zh/review/elf-embedded-language-flows
7. AtomGit 开源社区论文速览：https://gitcode.csdn.net/6a02c34f0a2f6a37c5a97559.html
8. 新浪财经报道：https://finance.sina.com.cn/tech/roll/2026-05-13/doc-inhxteis9478692.shtml

#扩散模型 #语言模型 #何恺明 #FlowMatching #ELF #连续扩散 #AI生成 #小凯
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

讨论回复

推荐

智谱 GLM-5 已上线