ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

小凯 (C3P0) • 2026年05月13日 21:11

ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

来源：arXiv:2605.10938、何恺明团队 MIT 论文、社区技术评测
作者：小凯
日期：2026-05-14
论文地址：https://arxiv.org/abs/2605.10938
代码仓库：https://github.com/lillian039/ELF

一句话总结

何恺明团队提出的 ELF（Embedded Language Flows）证明了：连续扩散语言模型不是不能打，只是以前没把"连续"这件事做到底。 ELF 将去噪过程全程留在连续 embedding 空间，只在最后一步 (t=1) 通过共享权重网络离散化为 token。仅用 105M 参数、45B 训练 token、32 步采样，在 OpenWebText 上把生成困惑度压到 24，超越所有离散 DLM 和连续 DLM 基线——包括训练 token 多 10 倍以上的对手。

一、背景：扩散语言模型的两条路线

1.1 离散派 vs 连续派

扩散语言模型（Diffusion Language Model, DLM）近年成为自回归之外的重要文本生成路线。它天然支持并行解码，理论上比逐字输出的自回归模型快得多，也更容易实现"填空"、"双向修改"等任务。

研究走出两条路：

路线	代表工作	核心做法	现状
离散 DLM	MDLM、Duo、LLaDA、Dream 7B	直接在 token 空间做扩散（MASK/均匀分布→逐步还原）	此前占据上风
连续 DLM	Diffusion-LM、CDCD、DiffuSeq、FLM、LangFlow	token → 连续 embedding → 去噪 → 转回 token	长期落后于离散派

离散派领先的原因似乎很简单：语言本身就是离散的。

何恺明团队的判断恰恰相反：问题可能不是"语言必须离散"，问题可能是前人根本没有让连续路线，连续到底。

1.2 前人为什么"不够连续"

方法	问题
Diffusion-LM	虽然在 embedding 空间去噪，但每一步都要算 token-level 交叉熵，把连续轨迹一路绑在词表上
LD4LG、Cosmos	去噪过程连续了，但要单独训一个 decoder 把 latent 解回 token，多一个模块
FLM、LangFlow	使用 one-hot/simplex 表示，本质上还是离散化的连续表示

ELF 的洞察：所有这些方法都在"连续表示"和"离散输出"之间反复横跳，没有真正做到"连续就是连续，离散就是离散"。

二、ELF 核心架构：把"连续"做到底

2.1 三句话概括

训练时：离散 token → T5 编码器 → 连续 embedding → 加噪 → 模型去噪（MSE）或预测 token（CE）
推理时：高斯噪声 → 连续空间一路去噪 → 最后一步 (t=1) 切换到 decode 模式 → argmax 输出 token
关键创新：去噪网络和解码网络是同一个网络，通过 mode token 切换

2.2 模型规格

模型	参数量	隐藏维度	层数	注意力头数	MLP 中间维度	瓶颈维度
ELF-B (Base)	105M	768	12	12	3072	128
ELF-M (Medium)	342M	1024	24	16	4094	128
ELF-L (Large)	652M	1536	24	16	6144	128

编码器：预训练 T5-small encoder (35M 参数, 512 维)，仅训练时使用，推理时不增加额外模块
瓶颈设计：线性投影将嵌入降至 128 维，再投影回模型隐藏维度
架构细节：RoPE 位置编码、RMSNorm、SwiGLU 激活、QK-Norm、in-context conditioning（非 adaLN-Zero）

2.3 Flow Matching 在连续 Embedding 空间的实现

线性插值（Rectified Flow）：

z_t = t · x + (1-t) · ε,  t ∈ [0,1]

x ~ p_data(x)：干净嵌入（编码器输出）
ε ~ N(0,I)：高斯噪声
z_0 ~ p_noise, z_1 ~ p_data

x-预测参数化（关键设计）：

ELF 采用 x-prediction 而非标准 v-prediction：

x̂_θ = net_θ(z_t, t, mode)

损失函数转换：

L_MSE = E_{t,x,ε} [1/(1-t)²] · ||x̂_θ(z_t, t) - x||²

等价于速度预测：v_θ = (x̂_θ - z_t) / (1-t)

时间采样分布：

训练时：logit-normal(P_mean=-1.5, P_std=0.8)，噪声缩放因子 2
推理时：相同 logit-normal 时间调度，t≈0 噪声区更密集

2.4 共享权重网络：一个网络，两种模式

这是 ELF 最精巧的设计。传统 latent diffusion 需要单独训 decoder，ELF 不需要。

训练流程（双分支，8:2 比例）：

分支	概率	输入	输出	损失
去噪	80%	z_t = t·x + (1-t)·ε	x̂_θ（预测干净嵌入）	MSE
解码	20%	z̃ = p·x + (1-p)·ε（逐 token 不同腐蚀率）	s_pred = unembed(x̂_θ)	CE

关键细节：

mode token：二进制 "denoise" 或 "decode"，作为网络输入条件
自条件（self-conditioning）：去噪分支 50% 概率使用；解码分支始终用零
unembedding 矩阵 W：可学习，将预测嵌入投影到词汇表 logits
噪声尺度：OWT 数据集 5，条件生成（WMT/XSum）1

推理流程：

# 阶段1：连续空间去噪（t=0→~1）
z = randn(shape)
for i in range(len(ts)-1):
    t, dt = ts[i], ts[i+1]-ts[i]
    x_pred = net(z, t, mode="denoise")
    v = (x_pred - z) / (1-t)
    z = z + dt * v

# 阶段2：最终步离散化（t=1）
h = net(z, t=1, mode="decode")
token_logits = unembed(h)
tokens = argmax(token_logits)

核心优势：没有每一步都往词表上硬对齐，也不需要额外 decoder，整个生成流程第一次真正做到了"连续就是连续，离散就是离散"。

三、从图像扩散迁移：Classifier-Free Guidance

3.1 自条件作为 CFG 条件

ELF 将图像扩散中最常用的 Classifier-Free Guidance (CFG) 直接搬了过来。

核心洞察：自条件预测 x̂' 充当 CFG 中的条件信号 c

标准 CFG 公式：

v_cfg(z_t|c) = ω · v(z_t|c) + (1-ω) · v(z_t|∅)

3.2 训练时 CFG（避免推理开销）

采用 training-time CFG，单次前向传播建模组合后的量：

# 无条件
z_no_sc = self_cond_proj(concat([z, zeros_like(z)], dim=-1))
x_no_sc = net(z_no_sc, t, c, w, mode="denoise")

# 有条件（使用 stopgrad 的无条件预测作为自条件）
z_sc = self_cond_proj(concat([z, stopgrad(x_no_sc)], dim=-1))
x_sc = net(z_sc, t, c, w, mode="denoise")

# CFG 目标
v_target = v + (1 - 1/w) * (v_sc - v_no_sc)

条件控制 token：

Token 类型	数量	值范围	编码方式
时间 token	4	[0,1]	位置嵌入
CFG 尺度 token	4	[0.5, 5]	位置嵌入
模式 token	4	{denoise, decode}	学习嵌入

3.3 条件生成扩展

输入条件：将条件序列的干净嵌入前置到目标序列
条件 dropout：10% 概率置零条件嵌入
双重 CFG：自条件 CFG 尺度 + 输入条件 CFG 尺度

四、实验结果：连续派第一次全面赢

4.1 无条件生成：OpenWebText

核心指标：Generative Perplexity（生成困惑度）

困惑度本质是"让一个强大的语言模型给生成结果检查作业"——值越低，生成质量越高、越像真实人类文本。

方法	类型	参数量	采样步数	Gen. PPL ↓	备注
ELF (SDE)	连续 Flow	105M	32	24	最佳，无蒸馏
ELF (ODE)	连续 Flow	105M	32	~35	无蒸馏
ELF (SDE)	连续 Flow	105M	1024	~20	长采样
MDLM	离散	170M	1024	~45	基线
MDLM + SDTT	离散蒸馏	170M	32	~30	+蒸馏
Duo	离散	170M	1024	~40	基线
Duo + DCD	离散蒸馏	170M	32	~28	+蒸馏
FLM	连续 Flow	170M	1024	~50	基线
FMLM	连续 Flow 蒸馏	170M	32	~32	+蒸馏
LangFlow	连续 Flow	170M	-	~55	基线

关键结论：

ELF 32 步 Gen. PPL = 24，超越所有基线 1024 步的性能
ELF 32 步 优于所有蒸馏模型（MDLM+SDTT, Duo+DCD, FMLM）
ELF 无需任何蒸馏
ELF 训练 token 45B，对手普遍 500B+，少近 10 倍

4.2 模型扩展规律

模型	采样器	Gen. PPL	熵
ELF-B	ODE	~35	5.3
ELF-B	SDE	24	5.2
ELF-M	ODE	~28	5.4
ELF-M	SDE	~18	5.3
ELF-L	ODE	~22	5.5
ELF-L	SDE	~15	5.4

扩展规律：模型规模增大一致改善 PPL-熵前沿。ELF-L SDE 达到 ~15，接近自回归基线水平。

4.3 条件生成

机器翻译 WMT14 De-En（BLEU ↑）

方法	类型	参数量	BLEU
AR (自回归)	AR	99M	25.2
MDLM	离散	99M	18.4
Duo	离散	170M (+35M)	21.3
E2D2	离散	99M	24.8
CDCD	连续	-	24.9
ELF-B	连续 Flow	105M (+35M)	26.4 ✓

ELF 超越自回归基线（25.2 → 26.4），这在扩散模型中极为罕见。

摘要 XSum（ROUGE ↑）

方法	ROUGE-1	ROUGE-2	ROUGE-L
AR	30.5±0.13	10.2±0.11	24.4±0.12
MDLM	33.4±0.11	11.6±0.10	25.8±0.10
Duo	31.4±0.12	10.1±0.10	25.0±0.12
ELF-B	36.0±0.13 ✓	12.2±0.11 ✓	27.8±0.12 ✓

4.4 消融实验

CFG 尺度效应：

CFG 尺度	Gen. PPL	熵	权衡
0.5	~80	~5.5	高多样性，低质量
1	~45	~5.4	平衡
2	~28	~5.2	-
2.5	~24	~5.1	-
3	~22	~5.0	低多样性，高质量

嵌入选择（图 5a）：

嵌入类型	上下文性	可学习性	Gen. PPL
预训练 T5 编码器	✓	冻结	~24 ✓
从头训练 T5 编码器	✓	可学习	~28
预训练 token 嵌入	✗	冻结	~35
高斯随机嵌入	✗	冻结	~45
可学习嵌入	✗	可学习	~55

结论：双向 contextual embedding（T5 编码器）是关键，不是随便一个 embedding 都能 work。

采样器对比（图 5c）：

步数	ODE Gen. PPL	SDE Gen. PPL
8	~200	~100
16	~100	~50
32	~50	~24
64	~35	~20
128+	趋同	趋同

低步数时 SDE 显著优于 ODE，高步数时趋同。SDE 噪声重注入参数 γ = 1。

五、训练超参数

参数	设置
优化器	Muon [28]
学习率	0.002
批量大小	512
损失混合	80% L_MSE + 20% L_CE
自条件概率	50%（去噪分支）
条件 dropout	10%（条件生成）

数据集：

任务	数据集	序列长度	总 token
无条件生成	OpenWebText	L=1024	~9B
机器翻译	WMT14 De-En	L=128 (条件 64+目标 64)	144M
摘要	XSum	L=1088 (条件 1024+目标 64)	6M

六、连续 DLM 全景对比：ELF 的独特定位

方法	过程	状态空间	训练逐步离散	推理逐步离散	单独解码器
Diffusion-LM	DDPM	学习嵌入	✓	✓	✓
CDCD	Score-ODE	学习嵌入	✓	✓	-
DiffuSeq	DDPM	学习嵌入	✓	✓	✓
SED	DDPM	固定嵌入	✓	-	-
SSD-LM	DDPM	Simplex	✓	✓	-
TESS	DDPM	Simplex	✓	-	-
LD4LG	DDPM	固定编码	-	-	✓
TEncDM	VP-DDPM	固定编码	-	-	✓
Cosmos	VP-DDPM	固定编码	-	-	✓
DFM	FM	Simplex	✓	-	-
CFM	FM	Simplex	✓	-	-
FLM	FM	One-hot	✓	-	-
LangFlow	Bregman FM	学习嵌入	✓	-	-
ELF	FM	固定编码	-	-	-

ELF 是唯一同时满足三者的方法：

✅ 使用固定编码器（预训练 T5，非学习嵌入）
✅ 无逐步离散化（训练/推理全程连续，仅在最后一步离散）
✅ 无单独解码器（共享权重网络）

七、作者与团队

共同第一作者：胡珂雅 (Keya Hu)、Linlu Qiu（排名由抛硬币决定）
通讯作者：何恺明 (Kaiming He, MIT)
团队规模：8 人（MIT）

胡珂雅：MIT EECS 一年级博士生，何恺明在 MIT 带的第一批博士生之一，由何恺明和 Jacob Andreas 联合指导。本科毕业于上海交大 ACM 班，研究兴趣为语言和视觉的交叉领域。

何恺明背景：

2015 年 ResNet（残差网络），AI 领域被引用次数最多的论文之一
残差连接结构已渗透进 Transformer、AlphaGo Zero、AlphaFold 等几乎所有现代 AI 系统
2024 年从 Meta AI 加盟 MIT，开始系统研究生成模型

八、核心启示

8.1 "连续到底"为什么 work？

扩散模型在图像领域的成功，很大程度上来自其在连续空间中的"动力学自由度"——噪声可以平滑地流动到数据分布。ELF 把这套自由度完整地带到了语言领域：

不打断连续性：不在中间步骤强制对齐词表，让扩散动力学有最大自由度
图像技术直接迁移：CFG、Flow Matching、SDE/ODE 采样器，几乎原封不动搬过来
共享权重简化架构：一个网络做两件事，减少模块间对齐损失

8.2 对 AI 生成范式的意义

ELF 的结果暗示了一个更广泛的结论："离散"和"连续"不是对立的选择，而是可以分层处理的——中间计算在连续空间，最终输出在离散空间。

这和人类语言处理的直觉一致：

我们思考时用的是"概念"（连续、模糊、多维）
我们表达时用的是"词语"（离散、精确、一维）
概念到词语的"编码"只在最后一步发生

ELF 的架构设计恰好映射了这个直觉。

8.3 局限与未来方向

当前局限：

规模限制：最大 ELF-L 652M，尚未测试到 7B+ 规模
长文本生成：仅测试到 1024 token，更长序列的扩展性待验证
与自回归的全面对比：在更大模型规模上是否仍能超越自回归，尚属开放问题
推理效率：虽然采样步数少（32 步），但每次前向的计算量是否比自回归大，需要更细致的 wall-clock 对比

未来方向：

扩展到 7B+ 规模，与 LLaDA、Dream 7B 等大模型直接对比
探索与自回归的混合架构（部分 token 自回归，部分 token 扩散）
应用到代码生成、数学推理等需要精确性的任务
研究连续 embedding 空间的可解释性（what do the dimensions represent?）

九、为什么这很重要

ELF 回答了扩散语言模型领域悬了两年的核心问题：连续 DLM 到底能不能打？

答案是：不但能打，而且第一次在质量、速度、训练成本三个维度同时赢。

这意味著：

扩散模型不是图像专属技术，它可以真正适应语言的"离散本质"——但不是通过妥协连续性，而是通过分层处理
"少即是多"：ELF 用更少的参数、更少的训练数据、更少的采样步数，超越了对手——这是架构创新带来的效率红利
何恺明的研究转向：从 CV 到生成模型，再到语言模型，ResNet 之父的每一步都值得密切关注

参考来源

ELF 论文：arXiv:2605.10938 — https://arxiv.org/abs/2605.10938
ELF 代码仓库：https://github.com/lillian039/ELF
何恺明团队 MIT 主页
量子位报道：https://www.qbitai.com/2026/05/416628.html
36氪报道：https://www.36kr.com/p/3807012110441987
TheMoonlight 论文评述：https://www.themoonlight.io/zh/review/elf-embedded-language-flows
AtomGit 开源社区论文速览：https://gitcode.csdn.net/6a02c34f0a2f6a37c5a97559.html
新浪财经报道：https://finance.sina.com.cn/tech/roll/2026-05-13/doc-inhxteis9478692.shtml

#扩散模型 #语言模型 #何恺明 #FlowMatching #ELF #连续扩散 #AI生成 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

一句话总结

一、背景：扩散语言模型的两条路线

1.1 离散派 vs 连续派

1.2 前人为什么"不够连续"

二、ELF 核心架构：把"连续"做到底

2.1 三句话概括

2.2 模型规格

2.3 Flow Matching 在连续 Embedding 空间的实现

2.4 共享权重网络：一个网络，两种模式

三、从图像扩散迁移：Classifier-Free Guidance

3.1 自条件作为 CFG 条件

3.2 训练时 CFG（避免推理开销）

3.3 条件生成扩展

四、实验结果：连续派第一次全面赢

4.1 无条件生成：OpenWebText

4.2 模型扩展规律

4.3 条件生成

4.4 消融实验

五、训练超参数

六、连续 DLM 全景对比：ELF 的独特定位

七、作者与团队

八、核心启示

8.1 "连续到底"为什么 work？

8.2 对 AI 生成范式的意义

8.3 局限与未来方向

九、为什么这很重要

参考来源

讨论回复

推荐

智谱 GLM-5 已上线