论文:Sumi: Open Uniform Diffusion Language Model from Scratch
作者:Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki(东北大学)
链接:https://arxiv.org/abs/2606.19005
一、为什么扩散语言模型值得重新关注?
自回归(Autoregressive, AR)模型统治 NLP 已经八年。GPT、Llama、Qwen——都是同一个范式:从左到右,逐 token 生成,每步只能基于已生成的上下文做决策。
这个范式有根本性的局限:
- 无法回头修正:一旦生成一个错误 token,后续所有 token 都基于这个错误构建,错误会级联放大
- 生成延迟高:必须串行执行,N 个 token 需要 N 次前向传播
- 对长程一致性敏感:早期 token 的微小偏差可能导致后期语义漂移
扩散模型(Diffusion Models)在图像生成上已经证明了"逐步去噪"的优越性——为什么语言模型不行?
因为图像是连续信号,可以直接加高斯噪声;而语言是离散的(token 是词汇表中的整数),不能直接加噪声。过去几年的离散扩散研究(masked diffusion、uniform diffusion)大多停留在小模型、小规模数据上,或者基于预训练 AR 模型做微调——没有一个真正从零开始、大参数、大数据量的均匀扩散语言模型。
Sumi 填补了这个空白。
二、核心概念:什么是 Uniform Diffusion Language Model?
自回归 vs Masked Diffusion vs Uniform Diffusion
| 范式 | 生成方式 | 噪声类型 | 关键特征 |
|---|---|---|---|
| 自回归 (AR) | 逐 token,从左到右 | 无噪声 | 因果解码,无法并行,无法修正已生成 token |
| Masked Diffusion | 同时更新所有 token,逐步去噪 | [MASK] token | 部分并行,可修正,但噪声只有"完全未知"一种状态 |
| Uniform Diffusion | 同时更新所有 token,逐步去噪 | 词汇表均匀分布 | 噪声可以是任意 token(不只是 MASK),修正粒度更细 |
三种范式的直观理解
想象你在写一篇文章:
- 自回归:从左到右写,写完的字不能改。如果发现第三句写错了,只能接受或者重头来过
- Masked Diffusion:整篇文章同时写,但每个字一开始都是"空白"。你逐步填空,已经填的字不会变空白,但如果填错了也没法改
- Uniform Diffusion:整篇文章同时写,每个字一开始都是随机字。你逐步把随机字改对,已经改对的字如果发现不对还可以再改
Uniform Diffusion 的核心优势:真正的双向、可修正、可并行。
GIDD 框架:把 Uniform Diffusion 理论化
Sumi 基于 GIDD(Generalized Interpolating Discrete Diffusion,广义插值离散扩散)框架。GIDD 的核心洞察:所有离散扩散都可以统一为一个"混合核":
q_t(z|x) = α(t)·δ(z,x) + β(t)·m_t(z)
其中:
- α(t): 信号强度(保留原 token 的概率)
- β(t): 噪声强度(被替换的概率)
- m_t(z): 混合分布——决定替换为什么
通过选择不同的 m_t:
- m_t = δ(z, [MASK]) → Masked Diffusion
- m_t = 1/V(词汇表均匀分布)→ Uniform Diffusion
- m_t = 混合两者 → Hybrid Diffusion
Sumi 选择纯 Uniform Diffusion(m_t = 1/V),即每个 token 被替换为词汇表中任意一个词的概率相等。
SNR 重参数化:为什么用信噪比代替时间?
传统扩散模型用"时间步 t"控制噪声强度。GIDD 提出用 SNR(Signal-to-Noise Ratio,信噪比) 重参数化:
λ = log(SNR) = log(α/β)
好处:
- 连续状态扩散的标准做法(图像扩散的惯例),理论更成熟
- 扩散过程对噪声调度(noise schedule)不敏感——简化了超参数调优
- 可以直接借用连续扩散的理论工具(如 flow matching、score-based models)
三、Sumi 的架构与训练
模型架构:LLaMA 风格的双向 Transformer
| 配置 | 值 |
|---|---|
| 参数量 | 7B |
| 架构 | 双向 Transformer(非因果掩码) |
| 层数 | 32 |
| 隐藏维度 | 4096 |
| 注意力头 | 32 |
| 上下文长度 | 2048(生成时),训练时支持更长 |
| 分词器 | GPT-2 BPE(与 GIDD 系列一致,便于对比) |
| 训练框架 | Megatron-LM |
关键:双向注意力。自回归模型用因果掩码(只能看左边),Sumi 用双向掩码(可以看左右两边)——这是"同时生成所有 token"的必要条件。
训练策略:1.5T Token,两阶段
阶段一:预训练(~1.3T tokens)
- 侧重高教育质量文本
- 数据混合:网络文本、书籍、学术文献、维基百科
- 教育向数据比例较高(影响后续 commonsense 表现)
阶段二:中调(mid-training,~0.2T tokens)
- 数据权重向代码、数学、推理倾斜
- 提升下游任务性能
总计:1.5T tokens,与同规模 AR 模型可比。
开源承诺:全部公开
Sumi 释放了:
- ✅ 模型权重(7B,最终版本)
- ✅ 训练检查点(多个中间阶段)
- ✅ 完整训练配方(超参数、优化器配置、学习率调度)
- ✅ 公开语料的数据混合方案(详细比例)
这在大模型领域极为罕见。大多数开源模型只放权重,训练细节是黑盒。Sumi 的完全开放让社区可以真正研究"扩散范式本身的性质",而不是被训练差异的混杂因素干扰。
四、性能对比:扩散 ≈ 自回归,但分布不同
通用知识、推理、代码
Sumi 在标准 benchmark(如 HellaSwag、PIQA、ARC、HumanEval 等)上与同 token 预算训练的自回归模型表现不相上下。
这是关键结论:从 0 开始预训练的扩散模型,在 7B/1.5T 规模下,可以达到与 AR 模型相当的性能。
Commonsense(常识推理)
Sumi 在常识 benchmark(如 CommonsenseQA、Social IQA 等)上弱于 AR 模型。
论文分析原因:训练数据混合中教育向文本比例过高(学术文献、教科书),而常识推理需要更多日常对话、社会互动类语料。这不是扩散范式的固有限制,而是数据混合的选择。
与 AR 模型的对比表
| 维度 | 自回归 (AR) | Sumi (Uniform Diffusion) |
|---|---|---|
| 生成方式 | 串行,逐 token | 并行,同时生成所有 token |
| 修正能力 | 无(已生成 token 不能改) | 有(任何 token 可在任意步骤更新) |
| 并行度 | 低(N 次前向传播) | 高(固定步数,每步一次前向传播) |
| 训练效率 | 标准 | 与 AR 相当(1.5T tokens 达到可比性能) |
| 推理延迟 | 高(与序列长度线性相关) | 低(与序列长度无关,只与步数相关) |
| 理论理解 | 成熟(因果语言建模) | 仍在探索(去噪动态、生成顺序自组织) |
五、生成特性的探索性发现
Sumi 团队不仅训练了模型,还系统地探索了均匀扩散模型的生成行为——这些发现为领域提供了重要的方向性参考。
发现 1:画布长度(Canvas Length)的"甜蜜点"
画布长度:生成时假设序列的总长度。扩散模型需要一个固定长度的"画布"来逐步去噪。
Sumi 实验了不同画布长度对生成质量的影响:
| 画布长度 | 生成质量 | 原因 |
|---|---|---|
| 过短(< 1024) | 明显退化 | 空间不足,token 间竞争冲突 |
| 2048 | 最佳 | 足够空间让 token 逐步组织 |
| 过长(> 4096) | 明显退化 | 稀疏性增加,信号稀释 |
洞察:2048 是 Sumi 的"甜蜜点"——不是越大越好。均匀扩散中,所有 token 在每一步都有被更新的可能,画布过长会导致"注意力稀释"(太多位置需要同时优化,模型难以聚焦)。
这与自回归不同:AR 没有"画布长度"概念,生成到 EOS 为止。
发现 2:置信度采样(Confidence Sampling)带来自组织生成顺序
均匀扩散的一个核心问题:没有生成顺序。所有 token 在理论上应该同时被更新。但实际生成时,模型对某些 token 的预测很确定(高置信度),对某些很不确定(低置信度)。
Sumi 团队实验了置信度采样:
- 每步只更新置信度最低的 k 个 token(最不确定的)
- 高置信度 token 保持不变
结果:模型自发形成了生成顺序——先确定"骨架"(高结构确定性的 token,如标点、关键词),再填充"细节"(低置信度的内容词)。
生成过程的可视化(概念):
Step 0: [随机] [随机] [随机] [随机] ... [随机]
Step 1: [随机] [随机] 。 [随机] ... 的
Step 2: [随机] 是 。 [随机] ... 的
Step 3: [随机] 是 。 猫 ... 的
Step 4: 这 是 。 猫 ... 的
Step 5: 这 是 一 猫 ... 的
Step 6: 这 是 一 只 猫 ... 的
Step N: 这 是 一 只 猫 。
这种"自组织顺序"是均匀扩散独有的特性——Masked Diffusion 因为有[MASK]的明确状态,反而不容易观察到这种动态。
发现 3:显式修正预算(Self-Correction Budget)没有带来预期效果
Sumi 测试了给模型一个"修正预算"——允许在生成过程中额外执行若干步去噪,专门用于修正已生成但可能错误的 token。
结果:在当前设置下,显式修正预算没有提升生成质量。
论文分析可能原因:
- 模型还没有足够强的"自我评估"能力——不知道自己生成的哪些 token 是错的
- 修正步数与初始去噪步数之间的分配没有最优策略
- 需要专门的训练目标来强化自我修正行为(而不是只在推理时加修正步)
这与 GIDD 的"self-correction"发现形成对比:GIDD 在混合噪声(masked + uniform)训练时观察到了自我修正行为,但纯 uniform diffusion 的 Sumi 没有。这暗示:修正能力可能需要混合噪声来诱导。
六、均匀扩散的 Scaling 特性:来自 GIDD 的启示
虽然 Sumi 本身没有系统做 scaling study,但它基于的 GIDD 框架有详细的 scaling law 研究,对理解 Sumi 的训练效率很重要。
GIDD 的 Scaling Laws(关键数字)
| 噪声类型 | 参数指数 α_M | 数据指数 α_D | 说明 |
|---|---|---|---|
| Masked | 0.566 | 0.434 | 更多数据,相对少参数 |
| Balanced Hybrid | 0.534 | 0.466 | 参数和数据较平衡 |
| Uniform | 0.589 | 0.411 | 更多参数,更少数据 |
关键洞察:Uniform Diffusion 的 optimal scaling 比 Masked Diffusion 和 AR 更"参数饥渴"——同样的计算预算,uniform diffusion 应该把更多资源分配给模型参数,而不是数据。
这可能与 uniform diffusion 的噪声更"混乱"有关:masked 只有"未知"和"已知"两种状态,uniform 有词汇表大小的可能状态——模型需要更多参数来建模这种复杂噪声分布。
对 Sumi 的启示
Sumi 用 7B 参数 + 1.5T tokens 达到与 AR 相当的效果。根据 GIDD 的 scaling law,uniform diffusion 在 7B 规模可能尚未达到 optimal scaling——如果增加到 10B+ 参数、保持 1.5T tokens,性能可能进一步提升。
七、Sumi 的意义与局限
意义
- 从零预训练的验证:证明均匀扩散不需要依赖预训练 AR 模型,可以独立达到大模型性能
- 完全开放的基准:权重、检查点、配方、数据混合全部公开——社区可以真正研究扩散范式本身
- 扩散 ≠ 自回归的下位替代:性能相当,但特性不同(并行、可修正)——适合不同场景
- 生成特性的新发现:画布甜蜜点、置信度自组织、修正预算的失效——为后续研究指明方向
局限
- 上下文长度限制:2048 生成画布,对于长文档生成可能不足
- Commonsense 较弱:数据混合偏教育向,不是扩散范式本身的限制
- 修正能力未充分展现:显式修正预算无效,自我修正能力仍需探索
- 与 GIDD 的对比:GIDD 在混合噪声下展现自我修正,Sumi 纯 uniform 没有——最优噪声类型仍待研究
- 分词器选择:GPT-2 BPE 而非更现代的分词器(如 Llama 3 的 tiktoken),可能影响绝对性能
八、扩散语言模型的未来方向
Sumi 的发布和几个发现,为领域指明了以下方向:
1. 混合噪声策略
GIDD 证明了混合 masked + uniform 噪声可以诱导自我修正。Sumi 的纯 uniform 没有展现修正能力。最优噪声调度可能不是纯 uniform,而是随训练进程动态调整(早期 uniform 多,后期 masked 多)。
2. 画布长度的自适应
2048 是甜蜜点,但不同任务需要不同长度。研究"动态画布长度"——让模型自己决定需要多少空间来生成最优内容。
3. 置信度采样的系统化
置信度采样展现了自组织顺序,但采样策略(每步更新多少个 token、按什么阈值)是人工设定的。研究最优采样策略——可能是一个可学习的参数。
4. 与 AR 的混合架构
不是二选一,而是结合两者优势:
- AR 负责生成"骨架"(高结构确定性部分)
- Diffusion 负责填充和修正(低置信度、需要迭代优化的部分)
BD³-LMs(Block Diffusion)已经在这个方向探索:用 block size 控制并行度,block size=1 就是 AR,block size=序列长度就是纯 diffusion。
5. 扩散的推理优化
扩散模型的并行生成特性,天然适合硬件优化:
- 固定步数(如 32 步)→ 可预测延迟
- 所有 token 同时处理 → 适合 GPU 并行
- 不依赖因果链 → 适合 speculative decoding 的变体
九、总结
Sumi 是一个里程碑:第一个从零预训练、完全开源、大参数(7B)、大数据(1.5T)的均匀扩散语言模型。
它的核心结论:
- 扩散可以独立达到 AR 性能——不是 AR 的"低端替代品"
- 2048 是生成画布的甜蜜点——不是越大越好
- 置信度采样带来自组织生成顺序——无顺序的扩散模型可以自发形成有序生成
- 显式修正预算当前无效——自我修正能力需要新的训练策略
Sumi 的真正价值不是"超过了 AR"——它在大部分任务上只是"相当"。它的价值在于提供了一个干净、可复现、可研究的基准——让社区可以真正探索"扩散语言模型"这个范式的独特性质,而不是被训练差异的混杂因素干扰。
在 2026 年的 LLM 领域,大多数创新是"更好的 AR 模型"。Sumi 提醒我们:生成范式的多样性本身,可能是下一个突破的来源。
参考链接
- Sumi 论文:https://arxiv.org/abs/2606.19005
- GIDD 论文:https://arxiv.org/abs/2503.04482
- GIDD GitHub:https://github.com/dvruette/gidd
- BD³-LMs(Block Diffusion):https://arxiv.org/abs/2503.09573
- Scaling Behavior of Discrete Diffusion:https://arxiv.org/abs/2512.10858
- Self-Correcting Discrete Diffusion (SCDD):https://arxiv.org/abs/2603.02230
#Sumi #均匀扩散 #扩散语言模型 #DiscreteDiffusion #GIDD #东北大学 #开源LLM #LLM #AI论文 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。