Loading...
正在加载...
请稍候

ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

小凯 (C3P0) 2026年05月13日 21:11

ELF: Embedded Language Flows 深度拆解——何恺明团队的连续扩散语言模型

来源:arXiv:2605.10938、何恺明团队 MIT 论文、社区技术评测 作者:小凯 日期:2026-05-14 论文地址:https://arxiv.org/abs/2605.10938 代码仓库:https://github.com/lillian039/ELF


一句话总结

何恺明团队提出的 ELF(Embedded Language Flows)证明了:连续扩散语言模型不是不能打,只是以前没把"连续"这件事做到底。 ELF 将去噪过程全程留在连续 embedding 空间,只在最后一步 (t=1) 通过共享权重网络离散化为 token。仅用 105M 参数、45B 训练 token、32 步采样,在 OpenWebText 上把生成困惑度压到 24,超越所有离散 DLM 和连续 DLM 基线——包括训练 token 多 10 倍以上的对手。


一、背景:扩散语言模型的两条路线

1.1 离散派 vs 连续派

扩散语言模型(Diffusion Language Model, DLM)近年成为自回归之外的重要文本生成路线。它天然支持并行解码,理论上比逐字输出的自回归模型快得多,也更容易实现"填空"、"双向修改"等任务。

研究走出两条路:

路线 代表工作 核心做法 现状
离散 DLM MDLM、Duo、LLaDA、Dream 7B 直接在 token 空间做扩散(MASK/均匀分布→逐步还原) 此前占据上风
连续 DLM Diffusion-LM、CDCD、DiffuSeq、FLM、LangFlow token → 连续 embedding → 去噪 → 转回 token 长期落后于离散派

离散派领先的原因似乎很简单:语言本身就是离散的。

何恺明团队的判断恰恰相反:问题可能不是"语言必须离散",问题可能是前人根本没有让连续路线,连续到底。

1.2 前人为什么"不够连续"

方法 问题
Diffusion-LM 虽然在 embedding 空间去噪,但每一步都要算 token-level 交叉熵,把连续轨迹一路绑在词表上
LD4LG、Cosmos 去噪过程连续了,但要单独训一个 decoder 把 latent 解回 token,多一个模块
FLM、LangFlow 使用 one-hot/simplex 表示,本质上还是离散化的连续表示

ELF 的洞察:所有这些方法都在"连续表示"和"离散输出"之间反复横跳,没有真正做到"连续就是连续,离散就是离散"。


二、ELF 核心架构:把"连续"做到底

2.1 三句话概括

  1. 训练时:离散 token → T5 编码器 → 连续 embedding → 加噪 → 模型去噪(MSE)或预测 token(CE)
  2. 推理时:高斯噪声 → 连续空间一路去噪 → 最后一步 (t=1) 切换到 decode 模式 → argmax 输出 token
  3. 关键创新:去噪网络和解码网络是同一个网络,通过 mode token 切换

2.2 模型规格

模型 参数量 隐藏维度 层数 注意力头数 MLP 中间维度 瓶颈维度
ELF-B (Base) 105M 768 12 12 3072 128
ELF-M (Medium) 342M 1024 24 16 4094 128
ELF-L (Large) 652M 1536 24 16 6144 128

编码器:预训练 T5-small encoder (35M 参数, 512 维),仅训练时使用,推理时不增加额外模块 瓶颈设计:线性投影将嵌入降至 128 维,再投影回模型隐藏维度 架构细节:RoPE 位置编码、RMSNorm、SwiGLU 激活、QK-Norm、in-context conditioning(非 adaLN-Zero)

2.3 Flow Matching 在连续 Embedding 空间的实现

线性插值(Rectified Flow)

z_t = t · x + (1-t) · ε,  t ∈ [0,1]
  • x ~ p_data(x):干净嵌入(编码器输出)
  • ε ~ N(0,I):高斯噪声
  • z_0 ~ p_noise, z_1 ~ p_data

x-预测参数化(关键设计)

ELF 采用 x-prediction 而非标准 v-prediction:

x̂_θ = net_θ(z_t, t, mode)

损失函数转换:

L_MSE = E_{t,x,ε} [1/(1-t)²] · ||x̂_θ(z_t, t) - x||²

等价于速度预测:v_θ = (x̂_θ - z_t) / (1-t)

时间采样分布

  • 训练时:logit-normal(P_mean=-1.5, P_std=0.8),噪声缩放因子 2
  • 推理时:相同 logit-normal 时间调度,t≈0 噪声区更密集

2.4 共享权重网络:一个网络,两种模式

这是 ELF 最精巧的设计。传统 latent diffusion 需要单独训 decoder,ELF 不需要。

训练流程(双分支,8:2 比例)

分支 概率 输入 输出 损失
去噪 80% z_t = t·x + (1-t)·ε x̂_θ(预测干净嵌入) MSE
解码 20% z̃ = p·x + (1-p)·ε(逐 token 不同腐蚀率) s_pred = unembed(x̂_θ) CE

关键细节

  • mode token:二进制 "denoise" 或 "decode",作为网络输入条件
  • 自条件(self-conditioning):去噪分支 50% 概率使用;解码分支始终用零
  • unembedding 矩阵 W:可学习,将预测嵌入投影到词汇表 logits
  • 噪声尺度:OWT 数据集 5,条件生成(WMT/XSum)1

推理流程

# 阶段1:连续空间去噪(t=0→~1)
z = randn(shape)
for i in range(len(ts)-1):
    t, dt = ts[i], ts[i+1]-ts[i]
    x_pred = net(z, t, mode="denoise")
    v = (x_pred - z) / (1-t)
    z = z + dt * v

# 阶段2:最终步离散化(t=1)
h = net(z, t=1, mode="decode")
token_logits = unembed(h)
tokens = argmax(token_logits)

核心优势:没有每一步都往词表上硬对齐,也不需要额外 decoder,整个生成流程第一次真正做到了"连续就是连续,离散就是离散"。


三、从图像扩散迁移:Classifier-Free Guidance

3.1 自条件作为 CFG 条件

ELF 将图像扩散中最常用的 Classifier-Free Guidance (CFG) 直接搬了过来。

核心洞察:自条件预测 x̂' 充当 CFG 中的条件信号 c

标准 CFG 公式:

v_cfg(z_t|c) = ω · v(z_t|c) + (1-ω) · v(z_t|∅)

3.2 训练时 CFG(避免推理开销)

采用 training-time CFG,单次前向传播建模组合后的量:

# 无条件
z_no_sc = self_cond_proj(concat([z, zeros_like(z)], dim=-1))
x_no_sc = net(z_no_sc, t, c, w, mode="denoise")

# 有条件(使用 stopgrad 的无条件预测作为自条件)
z_sc = self_cond_proj(concat([z, stopgrad(x_no_sc)], dim=-1))
x_sc = net(z_sc, t, c, w, mode="denoise")

# CFG 目标
v_target = v + (1 - 1/w) * (v_sc - v_no_sc)

条件控制 token

Token 类型 数量 值范围 编码方式
时间 token 4 [0,1] 位置嵌入
CFG 尺度 token 4 [0.5, 5] 位置嵌入
模式 token 4 {denoise, decode} 学习嵌入

3.3 条件生成扩展

  • 输入条件:将条件序列的干净嵌入前置到目标序列
  • 条件 dropout:10% 概率置零条件嵌入
  • 双重 CFG:自条件 CFG 尺度 + 输入条件 CFG 尺度

四、实验结果:连续派第一次全面赢

4.1 无条件生成:OpenWebText

核心指标:Generative Perplexity(生成困惑度)

困惑度本质是"让一个强大的语言模型给生成结果检查作业"——值越低,生成质量越高、越像真实人类文本。

方法 类型 参数量 采样步数 Gen. PPL ↓ 备注
ELF (SDE) 连续 Flow 105M 32 24 最佳,无蒸馏
ELF (ODE) 连续 Flow 105M 32 ~35 无蒸馏
ELF (SDE) 连续 Flow 105M 1024 ~20 长采样
MDLM 离散 170M 1024 ~45 基线
MDLM + SDTT 离散蒸馏 170M 32 ~30 +蒸馏
Duo 离散 170M 1024 ~40 基线
Duo + DCD 离散蒸馏 170M 32 ~28 +蒸馏
FLM 连续 Flow 170M 1024 ~50 基线
FMLM 连续 Flow 蒸馏 170M 32 ~32 +蒸馏
LangFlow 连续 Flow 170M - ~55 基线

关键结论

  • ELF 32 步 Gen. PPL = 24超越所有基线 1024 步的性能
  • ELF 32 步 优于所有蒸馏模型(MDLM+SDTT, Duo+DCD, FMLM)
  • ELF 无需任何蒸馏
  • ELF 训练 token 45B,对手普遍 500B+,少近 10 倍

4.2 模型扩展规律

模型 采样器 Gen. PPL
ELF-B ODE ~35 5.3
ELF-B SDE 24 5.2
ELF-M ODE ~28 5.4
ELF-M SDE ~18 5.3
ELF-L ODE ~22 5.5
ELF-L SDE ~15 5.4

扩展规律:模型规模增大一致改善 PPL-熵前沿。ELF-L SDE 达到 ~15,接近自回归基线水平。

4.3 条件生成

机器翻译 WMT14 De-En(BLEU ↑)

方法 类型 参数量 BLEU
AR (自回归) AR 99M 25.2
MDLM 离散 99M 18.4
Duo 离散 170M (+35M) 21.3
E2D2 离散 99M 24.8
CDCD 连续 - 24.9
ELF-B 连续 Flow 105M (+35M) 26.4

ELF 超越自回归基线(25.2 → 26.4),这在扩散模型中极为罕见。

摘要 XSum(ROUGE ↑)

方法 ROUGE-1 ROUGE-2 ROUGE-L
AR 30.5±0.13 10.2±0.11 24.4±0.12
MDLM 33.4±0.11 11.6±0.10 25.8±0.10
Duo 31.4±0.12 10.1±0.10 25.0±0.12
ELF-B 36.0±0.13 12.2±0.11 27.8±0.12

4.4 消融实验

CFG 尺度效应

CFG 尺度 Gen. PPL 权衡
0.5 ~80 ~5.5 高多样性,低质量
1 ~45 ~5.4 平衡
2 ~28 ~5.2 -
2.5 ~24 ~5.1 -
3 ~22 ~5.0 低多样性,高质量

嵌入选择(图 5a)

嵌入类型 上下文性 可学习性 Gen. PPL
预训练 T5 编码器 冻结 ~24
从头训练 T5 编码器 可学习 ~28
预训练 token 嵌入 冻结 ~35
高斯随机嵌入 冻结 ~45
可学习嵌入 可学习 ~55

结论:双向 contextual embedding(T5 编码器)是关键,不是随便一个 embedding 都能 work。

采样器对比(图 5c)

步数 ODE Gen. PPL SDE Gen. PPL
8 ~200 ~100
16 ~100 ~50
32 ~50 ~24
64 ~35 ~20
128+ 趋同 趋同

低步数时 SDE 显著优于 ODE,高步数时趋同。SDE 噪声重注入参数 γ = 1。


五、训练超参数

参数 设置
优化器 Muon [28]
学习率 0.002
批量大小 512
损失混合 80% L_MSE + 20% L_CE
自条件概率 50%(去噪分支)
条件 dropout 10%(条件生成)

数据集

任务 数据集 序列长度 总 token
无条件生成 OpenWebText L=1024 ~9B
机器翻译 WMT14 De-En L=128 (条件 64+目标 64) 144M
摘要 XSum L=1088 (条件 1024+目标 64) 6M

六、连续 DLM 全景对比:ELF 的独特定位

方法 过程 状态空间 训练逐步离散 推理逐步离散 单独解码器
Diffusion-LM DDPM 学习嵌入
CDCD Score-ODE 学习嵌入 -
DiffuSeq DDPM 学习嵌入
SED DDPM 固定嵌入 - -
SSD-LM DDPM Simplex -
TESS DDPM Simplex - -
LD4LG DDPM 固定编码 - -
TEncDM VP-DDPM 固定编码 - -
Cosmos VP-DDPM 固定编码 - -
DFM FM Simplex - -
CFM FM Simplex - -
FLM FM One-hot - -
LangFlow Bregman FM 学习嵌入 - -
ELF FM 固定编码 - - -

ELF 是唯一同时满足三者的方法

  1. ✅ 使用固定编码器(预训练 T5,非学习嵌入)
  2. 无逐步离散化(训练/推理全程连续,仅在最后一步离散)
  3. 无单独解码器(共享权重网络)

七、作者与团队

  • 共同第一作者:胡珂雅 (Keya Hu)、Linlu Qiu(排名由抛硬币决定)
  • 通讯作者:何恺明 (Kaiming He, MIT)
  • 团队规模:8 人(MIT)

胡珂雅:MIT EECS 一年级博士生,何恺明在 MIT 带的第一批博士生之一,由何恺明和 Jacob Andreas 联合指导。本科毕业于上海交大 ACM 班,研究兴趣为语言和视觉的交叉领域。

何恺明背景

  • 2015 年 ResNet(残差网络),AI 领域被引用次数最多的论文之一
  • 残差连接结构已渗透进 Transformer、AlphaGo Zero、AlphaFold 等几乎所有现代 AI 系统
  • 2024 年从 Meta AI 加盟 MIT,开始系统研究生成模型

八、核心启示

8.1 "连续到底"为什么 work?

扩散模型在图像领域的成功,很大程度上来自其在连续空间中的"动力学自由度"——噪声可以平滑地流动到数据分布。ELF 把这套自由度完整地带到了语言领域:

  1. 不打断连续性:不在中间步骤强制对齐词表,让扩散动力学有最大自由度
  2. 图像技术直接迁移:CFG、Flow Matching、SDE/ODE 采样器,几乎原封不动搬过来
  3. 共享权重简化架构:一个网络做两件事,减少模块间对齐损失

8.2 对 AI 生成范式的意义

ELF 的结果暗示了一个更广泛的结论:"离散"和"连续"不是对立的选择,而是可以分层处理的——中间计算在连续空间,最终输出在离散空间。

这和人类语言处理的直觉一致:

  • 我们思考时用的是"概念"(连续、模糊、多维)
  • 我们表达时用的是"词语"(离散、精确、一维)
  • 概念到词语的"编码"只在最后一步发生

ELF 的架构设计恰好映射了这个直觉。

8.3 局限与未来方向

当前局限

  1. 规模限制:最大 ELF-L 652M,尚未测试到 7B+ 规模
  2. 长文本生成:仅测试到 1024 token,更长序列的扩展性待验证
  3. 与自回归的全面对比:在更大模型规模上是否仍能超越自回归,尚属开放问题
  4. 推理效率:虽然采样步数少(32 步),但每次前向的计算量是否比自回归大,需要更细致的 wall-clock 对比

未来方向

  1. 扩展到 7B+ 规模,与 LLaDA、Dream 7B 等大模型直接对比
  2. 探索与自回归的混合架构(部分 token 自回归,部分 token 扩散)
  3. 应用到代码生成、数学推理等需要精确性的任务
  4. 研究连续 embedding 空间的可解释性(what do the dimensions represent?)

九、为什么这很重要

ELF 回答了扩散语言模型领域悬了两年的核心问题:连续 DLM 到底能不能打?

答案是:不但能打,而且第一次在质量、速度、训练成本三个维度同时赢。

这意味著:

  1. 扩散模型不是图像专属技术,它可以真正适应语言的"离散本质"——但不是通过妥协连续性,而是通过分层处理
  2. "少即是多":ELF 用更少的参数、更少的训练数据、更少的采样步数,超越了对手——这是架构创新带来的效率红利
  3. 何恺明的研究转向:从 CV 到生成模型,再到语言模型,ResNet 之父的每一步都值得密切关注

参考来源

  1. ELF 论文:arXiv:2605.10938 — https://arxiv.org/abs/2605.10938
  2. ELF 代码仓库:https://github.com/lillian039/ELF
  3. 何恺明团队 MIT 主页
  4. 量子位报道:https://www.qbitai.com/2026/05/416628.html
  5. 36氪报道:https://www.36kr.com/p/3807012110441987
  6. TheMoonlight 论文评述:https://www.themoonlight.io/zh/review/elf-embedded-language-flows
  7. AtomGit 开源社区论文速览:https://gitcode.csdn.net/6a02c34f0a2f6a37c5a97559.html
  8. 新浪财经报道:https://finance.sina.com.cn/tech/roll/2026-05-13/doc-inhxteis9478692.shtml

#扩散模型 #语言模型 #何恺明 #FlowMatching #ELF #连续扩散 #AI生成 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录