ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

> 来源：arXiv:2605.10938、何恺明团队 MIT 论文、社区技术评测 > 作者：小凯 > 日期：2026-05-14 > 论文地址：https://arxiv.org/abs/2605.10938 > 代码仓库：https://github.com/lillian039/ELF

---

一句话总结

何恺明团队提出的 ELF（Embedded Language Flows）证明了：连续扩散语言模型不是不能打，只是以前没把"连续"这件事做到底。 ELF 将去噪过程全程留在连续 embedding 空间，只在最后一步 (t=1) 通过共享权重网络离散化为 token。仅用 105M 参数、45B 训练 token、32 步采样，在 OpenWebText 上把生成困惑度压到 24，超越所有离散 DLM 和连续 DLM 基线——包括训练 token 多 10 倍以上的对手。

---

一、背景：扩散语言模型的两条路线

1.1 离散派 vs 连续派

扩散语言模型（Diffusion Language Model, DLM）近年成为自回归之外的重要文本生成路线。它天然支持并行解码，理论上比逐字输出的自回归模型快得多，也更容易实现"填空"、"双向修改"等任务。

研究走出两条路：

路线	代表工作	核心做法	现状
离散 DLM	MDLM、Duo、LLaDA、Dream 7B	直接在 token 空间做扩散（MASK/均匀分布→逐步还原）	此前占据上风
连续 DLM	Diffusion-LM、CDCD、DiffuSeq、FLM、LangFlow	token → 连续 embedding → 去噪 → 转回 token	长期落后于离散派

离散派领先的原因似乎很简单：语言本身就是离散的。

何恺明团队的判断恰恰相反：问题可能不是"语言必须离散"，问题可能是前人根本没有让连续路线，连续到底。

1.2 前人为什么"不够连续"

方法	问题
Diffusion-LM	虽然在 embedding 空间去噪，但每一步都要算 token-level 交叉熵，把连续轨迹一路绑在词表上
LD4LG、Cosmos	去噪过程连续了，但要单独训一个 decoder 把 latent 解回 token，多一个模块
FLM、LangFlow	使用 one-hot/simplex 表示，本质上还是离散化的连续表示

ELF 的洞察：所有这些方法都在"连续表示"和"离散输出"之间反复横跳，没有真正做到"连续就是连续，离散就是离散"。

---

二、ELF 核心架构：把"连续"做到底

2.1 三句话概括

1. 训练时：离散 token → T5 编码器 → 连续 embedding → 加噪 → 模型去噪（MSE）或预测 token（CE） 2. 推理时：高斯噪声 → 连续空间一路去噪 → 最后一步 (t=1) 切换到 decode 模式 → argmax 输出 token 3. 关键创新：去噪网络和解码网络是同一个网络，通过 mode token 切换

2.2 模型规格

模型	参数量	隐藏维度	层数	注意力头数	MLP 中间维度	瓶颈维度
ELF-B (Base)	105M	768	12	12	3072	128
ELF-M (Medium)	342M	1024	24	16	4094	128
ELF-L (Large)	652M	1536	24	16	6144	128

编码器：预训练 T5-small encoder (35M 参数, 512 维)，仅训练时使用，推理时不增加额外模块 瓶颈设计：线性投影将嵌入降至 128 维，再投影回模型隐藏维度 架构细节：RoPE 位置编码、RMSNorm、SwiGLU 激活、QK-Norm、in-context conditioning（非 adaLN-Zero）

2.3 Flow Matching 在连续 Embedding 空间的实现

线性插值（Rectified Flow）：

z_t = t · x + (1-t) · ε,  t ∈ [0,1]

x ~ p_data(x)：干净嵌入（编码器输出）
ε ~ N(0,I)：高斯噪声
z_0 ~ p_noise, z_1 ~ p_data

x-预测参数化（关键设计）：

ELF 采用 x-prediction 而非标准 v-prediction：

x̂_θ = net_θ(z_t, t, mode)

损失函数转换：

L_MSE = E_{t,x,ε} [1/(1-t)²] · ||x̂_θ(z_t, t) - x||²

等价于速度预测：v_θ = (x̂_θ - z_t) / (1-t)

时间采样分布：

训练时：logit-normal(P_mean=-1.5, P_std=0.8)，噪声缩放因子 2
推理时：相同 logit-normal 时间调度，t≈0 噪声区更密集

2.4 共享权重网络：一个网络，两种模式

这是 ELF 最精巧的设计。传统 latent diffusion 需要单独训 decoder，ELF 不需要。

训练流程（双分支，8:2 比例）：

分支	概率	输入	输出	损失
去噪	80%	z_t = t·x + (1-t)·ε	x̂_θ（预测干净嵌入）	MSE
解码	20%	z̃ = p·x + (1-p)·ε（逐 token 不同腐蚀率）	s_pred = unembed(x̂_θ)	CE

关键细节：

mode token：二进制 "denoise" 或 "decode"，作为网络输入条件
自条件（self-conditioning）：去噪分支 50% 概率使用；解码分支始终用零
unembedding 矩阵 W：可学习，将预测嵌入投影到词汇表 logits
噪声尺度：OWT 数据集 5，条件生成（WMT/XSum）1

推理流程：

# 阶段1：连续空间去噪（t=0→~1）
z = randn(shape)
for i in range(len(ts)-1):
    t, dt = ts[i], ts[i+1]-ts[i]
    x_pred = net(z, t, mode="denoise")
    v = (x_pred - z) / (1-t)
    z = z + dt * v

# 阶段2：最终步离散化（t=1）
h = net(z, t=1, mode="decode")
token_logits = unembed(h)
tokens = argmax(token_logits)

核心优势：没有每一步都往词表上硬对齐，也不需要额外 decoder，整个生成流程第一次真正做到了"连续就是连续，离散就是离散"。

---

三、从图像扩散迁移：Classifier-Free Guidance

3.1 自条件作为 CFG 条件

ELF 将图像扩散中最常用的 Classifier-Free Guidance (CFG) 直接搬了过来。

核心洞察：自条件预测 x̂' 充当 CFG 中的条件信号 c

标准 CFG 公式：

v_cfg(z_t|c) = ω · v(z_t|c) + (1-ω) · v(z_t|∅)

3.2 训练时 CFG（避免推理开销）

采用 training-time CFG，单次前向传播建模组合后的量：

# 无条件
z_no_sc = self_cond_proj(concat([z, zeros_like(z)], dim=-1))
x_no_sc = net(z_no_sc, t, c, w, mode="denoise")

# 有条件（使用 stopgrad 的无条件预测作为自条件）
z_sc = self_cond_proj(concat([z, stopgrad(x_no_sc)], dim=-1))
x_sc = net(z_sc, t, c, w, mode="denoise")

# CFG 目标
v_target = v + (1 - 1/w) * (v_sc - v_no_sc)

条件控制 token：

Token 类型	数量	值范围	编码方式
时间 token	4	[0,1]	位置嵌入
CFG 尺度 token	4	[0.5, 5]	位置嵌入
模式 token	4	{denoise, decode}	学习嵌入

3.3 条件生成扩展

输入条件：将条件序列的干净嵌入前置到目标序列
条件 dropout：10% 概率置零条件嵌入
双重 CFG：自条件 CFG 尺度 + 输入条件 CFG 尺度

---

四、实验结果：连续派第一次全面赢

4.1 无条件生成：OpenWebText

核心指标：Generative Perplexity（生成困惑度）

困惑度本质是"让一个强大的语言模型给生成结果检查作业"——值越低，生成质量越高、越像真实人类文本。

方法	类型	参数量	采样步数	Gen. PPL ↓	备注
ELF (SDE)	连续 Flow	105M	32	24	最佳，无蒸馏
ELF (ODE)	连续 Flow	105M	32	~35	无蒸馏
ELF (SDE)	连续 Flow	105M	1024	~20	长采样
MDLM	离散	170M	1024	~45	基线
MDLM + SDTT	离散蒸馏	170M	32	~30	+蒸馏
Duo	离散	170M	1024	~40	基线
Duo + DCD	离散蒸馏	170M	32	~28	+蒸馏
FLM	连续 Flow	170M	1024	~50	基线
FMLM	连续 Flow 蒸馏	170M	32	~32	+蒸馏
LangFlow	连续 Flow	170M	-	~55	基线

关键结论：

ELF 32 步 Gen. PPL = 24，超越所有基线 1024 步的性能
ELF 32 步 优于所有蒸馏模型（MDLM+SDTT, Duo+DCD, FMLM）
ELF 无需任何蒸馏
ELF 训练 token 45B，对手普遍 500B+，少近 10 倍

4.2 模型扩展规律

模型	采样器	Gen. PPL	熵
ELF-B	ODE	~35	5.3
ELF-B	SDE	24	5.2
ELF-M	ODE	~28	5.4
ELF-M	SDE	~18	5.3
ELF-L	ODE	~22	5.5
ELF-L	SDE	~15	5.4

扩展规律：模型规模增大一致改善 PPL-熵前沿。ELF-L SDE 达到 ~15，接近自回归基线水平。

4.3 条件生成

机器翻译 WMT14 De-En（BLEU ↑）

方法	类型	参数量	BLEU
AR (自回归)	AR	99M	25.2
MDLM	离散	99M	18.4
Duo	离散	170M (+35M)	21.3
E2D2	离散	99M	24.8
CDCD	连续	-	24.9
ELF-B	连续 Flow	105M (+35M)	26.4 ✓

ELF 超越自回归基线（25.2 → 26.4），这在扩散模型中极为罕见。

摘要 XSum（ROUGE ↑）

方法	ROUGE-1	ROUGE-2	ROUGE-L
AR	30.5±0.13	10.2±0.11	24.4±0.12
MDLM	33.4±0.11	11.6±0.10	25.8±0.10
Duo	31.4±0.12	10.1±0.10	25.0±0.12
ELF-B	36.0±0.13 ✓	12.2±0.11 ✓	27.8±0.12 ✓

4.4 消融实验

CFG 尺度效应：

CFG 尺度	Gen. PPL	熵	权衡
0.5	~80	~5.5	高多样性，低质量
1	~45	~5.4	平衡
2	~28	~5.2	-
2.5	~24	~5.1	-
3	~22	~5.0	低多样性，高质量

嵌入选择（图 5a）：

嵌入类型	上下文性	可学习性	Gen. PPL
预训练 T5 编码器	✓	冻结	~24 ✓
从头训练 T5 编码器	✓	可学习	~28
预训练 token 嵌入	✗	冻结	~35
高斯随机嵌入	✗	冻结	~45
可学习嵌入	✗	可学习	~55

结论：双向 contextual embedding（T5 编码器）是关键，不是随便一个 embedding 都能 work。

采样器对比（图 5c）：

步数	ODE Gen. PPL	SDE Gen. PPL
8	~200	~100
16	~100	~50
32	~50	~24
64	~35	~20
128+	趋同	趋同

低步数时 SDE 显著优于 ODE，高步数时趋同。SDE 噪声重注入参数 γ = 1。

---

五、训练超参数

参数	设置
优化器	Muon [28]
学习率	0.002
批量大小	512
损失混合	80% L_MSE + 20% L_CE
自条件概率	50%（去噪分支）
条件 dropout	10%（条件生成）

数据集：

任务	数据集	序列长度	总 token
无条件生成	OpenWebText	L=1024	~9B
机器翻译	WMT14 De-En	L=128 (条件 64+目标 64)	144M
摘要	XSum	L=1088 (条件 1024+目标 64)	6M

---

六、连续 DLM 全景对比：ELF 的独特定位

方法	过程	状态空间	训练逐步离散	推理逐步离散	单独解码器
Diffusion-LM	DDPM	学习嵌入	✓	✓	✓
CDCD	Score-ODE	学习嵌入	✓	✓	-
DiffuSeq	DDPM	学习嵌入	✓	✓	✓
SED	DDPM	固定嵌入	✓	-	-
SSD-LM	DDPM	Simplex	✓	✓	-
TESS	DDPM	Simplex	✓	-	-
LD4LG	DDPM	固定编码	-	-	✓
TEncDM	VP-DDPM	固定编码	-	-	✓
Cosmos	VP-DDPM	固定编码	-	-	✓
DFM	FM	Simplex	✓	-	-
CFM	FM	Simplex	✓	-	-
FLM	FM	One-hot	✓	-	-
LangFlow	Bregman FM	学习嵌入	✓	-	-
ELF	FM	固定编码	-	-	-

ELF 是唯一同时满足三者的方法： 1. ✅ 使用固定编码器（预训练 T5，非学习嵌入） 2. ✅ 无逐步离散化（训练/推理全程连续，仅在最后一步离散） 3. ✅ 无单独解码器（共享权重网络）

---

七、作者与团队

共同第一作者：胡珂雅 (Keya Hu)、Linlu Qiu（排名由抛硬币决定）
通讯作者：何恺明 (Kaiming He, MIT)
团队规模：8 人（MIT）

胡珂雅：MIT EECS 一年级博士生，何恺明在 MIT 带的第一批博士生之一，由何恺明和 Jacob Andreas 联合指导。本科毕业于上海交大 ACM 班，研究兴趣为语言和视觉的交叉领域。

何恺明背景：

2015 年 ResNet（残差网络），AI 领域被引用次数最多的论文之一
残差连接结构已渗透进 Transformer、AlphaGo Zero、AlphaFold 等几乎所有现代 AI 系统
2024 年从 Meta AI 加盟 MIT，开始系统研究生成模型

---

八、核心启示

8.1 "连续到底"为什么 work？

扩散模型在图像领域的成功，很大程度上来自其在连续空间中的"动力学自由度"——噪声可以平滑地流动到数据分布。ELF 把这套自由度完整地带到了语言领域：

1. 不打断连续性：不在中间步骤强制对齐词表，让扩散动力学有最大自由度 2. 图像技术直接迁移：CFG、Flow Matching、SDE/ODE 采样器，几乎原封不动搬过来 3. 共享权重简化架构：一个网络做两件事，减少模块间对齐损失

8.2 对 AI 生成范式的意义

ELF 的结果暗示了一个更广泛的结论："离散"和"连续"不是对立的选择，而是可以分层处理的——中间计算在连续空间，最终输出在离散空间。

这和人类语言处理的直觉一致：

我们思考时用的是"概念"（连续、模糊、多维）
我们表达时用的是"词语"（离散、精确、一维）
概念到词语的"编码"只在最后一步发生

ELF 的架构设计恰好映射了这个直觉。

8.3 局限与未来方向

当前局限： 1. 规模限制：最大 ELF-L 652M，尚未测试到 7B+ 规模 2. 长文本生成：仅测试到 1024 token，更长序列的扩展性待验证 3. 与自回归的全面对比：在更大模型规模上是否仍能超越自回归，尚属开放问题 4. 推理效率：虽然采样步数少（32 步），但每次前向的计算量是否比自回归大，需要更细致的 wall-clock 对比

未来方向： 1. 扩展到 7B+ 规模，与 LLaDA、Dream 7B 等大模型直接对比 2. 探索与自回归的混合架构（部分 token 自回归，部分 token 扩散） 3. 应用到代码生成、数学推理等需要精确性的任务 4. 研究连续 embedding 空间的可解释性（what do the dimensions represent?）

---

九、为什么这很重要

ELF 回答了扩散语言模型领域悬了两年的核心问题：连续 DLM 到底能不能打？

答案是：不但能打，而且第一次在质量、速度、训练成本三个维度同时赢。

这意味著： 1. 扩散模型不是图像专属技术，它可以真正适应语言的"离散本质"——但不是通过妥协连续性，而是通过分层处理 2. "少即是多"：ELF 用更少的参数、更少的训练数据、更少的采样步数，超越了对手——这是架构创新带来的效率红利 3. 何恺明的研究转向：从 CV 到生成模型，再到语言模型，ResNet 之父的每一步都值得密切关注

---

参考来源

1. ELF 论文：arXiv:2605.10938 — https://arxiv.org/abs/2605.10938 2. ELF 代码仓库：https://github.com/lillian039/ELF 3. 何恺明团队 MIT 主页 4. 量子位报道：https://www.qbitai.com/2026/05/416628.html 5. 36氪报道：https://www.36kr.com/p/3807012110441987 6. TheMoonlight 论文评述：https://www.themoonlight.io/zh/review/elf-embedded-language-flows 7. AtomGit 开源社区论文速览：https://gitcode.csdn.net/6a02c34f0a2f6a37c5a97559.html 8. 新浪财经报道：https://finance.sina.com.cn/tech/roll/2026-05-13/doc-inhxteis9478692.shtml

#扩散模型 #语言模型 #何恺明 #FlowMatching #ELF #连续扩散 #AI生成 #小凯