Sumi 深度拆解：从零预训练的 7B 均匀扩散语言模型，扩散范式终于进入大模型时代

> 论文：Sumi: Open Uniform Diffusion Language Model from Scratch > 作者：Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki（东北大学） > 链接：https://arxiv.org/abs/2606.19005

一、为什么扩散语言模型值得重新关注？

自回归（Autoregressive, AR）模型统治 NLP 已经八年。GPT、Llama、Qwen——都是同一个范式：从左到右，逐 token 生成，每步只能基于已生成的上下文做决策。

这个范式有根本性的局限： 1. 无法回头修正：一旦生成一个错误 token，后续所有 token 都基于这个错误构建，错误会级联放大 2. 生成延迟高：必须串行执行，N 个 token 需要 N 次前向传播 3. 对长程一致性敏感：早期 token 的微小偏差可能导致后期语义漂移

扩散模型（Diffusion Models）在图像生成上已经证明了"逐步去噪"的优越性——为什么语言模型不行？

因为图像是连续信号，可以直接加高斯噪声；而语言是离散的（token 是词汇表中的整数），不能直接加噪声。过去几年的离散扩散研究（masked diffusion、uniform diffusion）大多停留在小模型、小规模数据上，或者基于预训练 AR 模型做微调——没有一个真正从零开始、大参数、大数据量的均匀扩散语言模型。

Sumi 填补了这个空白。

---

二、核心概念：什么是 Uniform Diffusion Language Model？

自回归 vs Masked Diffusion vs Uniform Diffusion

范式	生成方式	噪声类型	关键特征
自回归 (AR)	逐 token，从左到右	无噪声	因果解码，无法并行，无法修正已生成 token
Masked Diffusion	同时更新所有 token，逐步去噪	[MASK] token	部分并行，可修正，但噪声只有"完全未知"一种状态
Uniform Diffusion	同时更新所有 token，逐步去噪	词汇表均匀分布	噪声可以是任意 token（不只是 MASK），修正粒度更细

三种范式的直观理解

想象你在写一篇文章：

自回归：从左到右写，写完的字不能改。如果发现第三句写错了，只能接受或者重头来过
Masked Diffusion：整篇文章同时写，但每个字一开始都是"空白"。你逐步填空，已经填的字不会变空白，但如果填错了也没法改
Uniform Diffusion：整篇文章同时写，每个字一开始都是随机字。你逐步把随机字改对，已经改对的字如果发现不对还可以再改

Uniform Diffusion 的核心优势：真正的双向、可修正、可并行。

GIDD 框架：把 Uniform Diffusion 理论化

Sumi 基于 GIDD（Generalized Interpolating Discrete Diffusion，广义插值离散扩散）框架。GIDD 的核心洞察：所有离散扩散都可以统一为一个"混合核"：

q_t(z|x) = α(t)·δ(z,x) + β(t)·m_t(z)

其中：
- α(t): 信号强度（保留原 token 的概率）
- β(t): 噪声强度（被替换的概率）
- m_t(z): 混合分布——决定替换为什么

通过选择不同的 m_t：

m_t = δ(z, [MASK]) → Masked Diffusion
m_t = 1/V（词汇表均匀分布）→ Uniform Diffusion
m_t = 混合两者 → Hybrid Diffusion

Sumi 选择纯 Uniform Diffusion（m_t = 1/V），即每个 token 被替换为词汇表中任意一个词的概率相等。

SNR 重参数化：为什么用信噪比代替时间？

传统扩散模型用"时间步 t"控制噪声强度。GIDD 提出用 SNR（Signal-to-Noise Ratio，信噪比） 重参数化：

λ = log(SNR) = log(α/β)

好处： 1. 连续状态扩散的标准做法（图像扩散的惯例），理论更成熟 2. 扩散过程对噪声调度（noise schedule）不敏感——简化了超参数调优 3. 可以直接借用连续扩散的理论工具（如 flow matching、score-based models）

---

三、Sumi 的架构与训练

模型架构：LLaMA 风格的双向 Transformer

配置	值
参数量	7B
架构	双向 Transformer（非因果掩码）
层数	32
隐藏维度	4096
注意力头	32
上下文长度	2048（生成时），训练时支持更长
分词器	GPT-2 BPE（与 GIDD 系列一致，便于对比）
训练框架	Megatron-LM

关键：双向注意力。自回归模型用因果掩码（只能看左边），Sumi 用双向掩码（可以看左右两边）——这是"同时生成所有 token"的必要条件。

训练策略：1.5T Token，两阶段

阶段一：预训练（~1.3T tokens）

侧重高教育质量文本
数据混合：网络文本、书籍、学术文献、维基百科
教育向数据比例较高（影响后续 commonsense 表现）

阶段二：中调（mid-training，~0.2T tokens）

数据权重向代码、数学、推理倾斜
提升下游任务性能

总计：1.5T tokens，与同规模 AR 模型可比。

开源承诺：全部公开

Sumi 释放了：

✅ 模型权重（7B，最终版本）
✅ 训练检查点（多个中间阶段）
✅ 完整训练配方（超参数、优化器配置、学习率调度）
✅ 公开语料的数据混合方案（详细比例）

这在大模型领域极为罕见。大多数开源模型只放权重，训练细节是黑盒。Sumi 的完全开放让社区可以真正研究"扩散范式本身的性质"，而不是被训练差异的混杂因素干扰。

---

四、性能对比：扩散 ≈ 自回归，但分布不同

通用知识、推理、代码

Sumi 在标准 benchmark（如 HellaSwag、PIQA、ARC、HumanEval 等）上与同 token 预算训练的自回归模型表现不相上下。

这是关键结论：从 0 开始预训练的扩散模型，在 7B/1.5T 规模下，可以达到与 AR 模型相当的性能。

Commonsense（常识推理）

Sumi 在常识 benchmark（如 CommonsenseQA、Social IQA 等）上弱于 AR 模型。

论文分析原因：训练数据混合中教育向文本比例过高（学术文献、教科书），而常识推理需要更多日常对话、社会互动类语料。这不是扩散范式的固有限制，而是数据混合的选择。

与 AR 模型的对比表

维度	自回归 (AR)	Sumi (Uniform Diffusion)
生成方式	串行，逐 token	并行，同时生成所有 token
修正能力	无（已生成 token 不能改）	有（任何 token 可在任意步骤更新）
并行度	低（N 次前向传播）	高（固定步数，每步一次前向传播）
训练效率	标准	与 AR 相当（1.5T tokens 达到可比性能）
推理延迟	高（与序列长度线性相关）	低（与序列长度无关，只与步数相关）
理论理解	成熟（因果语言建模）	仍在探索（去噪动态、生成顺序自组织）

---

五、生成特性的探索性发现

Sumi 团队不仅训练了模型，还系统地探索了均匀扩散模型的生成行为——这些发现为领域提供了重要的方向性参考。

发现 1：画布长度（Canvas Length）的"甜蜜点"

画布长度：生成时假设序列的总长度。扩散模型需要一个固定长度的"画布"来逐步去噪。

Sumi 实验了不同画布长度对生成质量的影响：

画布长度	生成质量	原因
过短（< 1024）	明显退化	空间不足，token 间竞争冲突
2048	最佳	足够空间让 token 逐步组织
过长（> 4096）	明显退化	稀疏性增加，信号稀释

洞察：2048 是 Sumi 的"甜蜜点"——不是越大越好。均匀扩散中，所有 token 在每一步都有被更新的可能，画布过长会导致"注意力稀释"（太多位置需要同时优化，模型难以聚焦）。

这与自回归不同：AR 没有"画布长度"概念，生成到 EOS 为止。

发现 2：置信度采样（Confidence Sampling）带来自组织生成顺序

均匀扩散的一个核心问题：没有生成顺序。所有 token 在理论上应该同时被更新。但实际生成时，模型对某些 token 的预测很确定（高置信度），对某些很不确定（低置信度）。

Sumi 团队实验了置信度采样：

每步只更新置信度最低的 k 个 token（最不确定的）
高置信度 token 保持不变

结果：模型自发形成了生成顺序——先确定"骨架"（高结构确定性的 token，如标点、关键词），再填充"细节"（低置信度的内容词）。

生成过程的可视化（概念）：

Step 0:  [随机] [随机] [随机] [随机] ... [随机]
Step 1:  [随机] [随机]  。   [随机] ...  的
Step 2:  [随机]  是   。   [随机] ...  的
Step 3:  [随机]  是   。   猫   ...  的
Step 4:  这   是   。   猫   ...  的
Step 5:  这   是   一   猫   ...  的
Step 6:  这   是   一   只   猫   ...  的
Step N:  这   是   一   只   猫   。

这种"自组织顺序"是均匀扩散独有的特性——Masked Diffusion 因为有[MASK]的明确状态，反而不容易观察到这种动态。

发现 3：显式修正预算（Self-Correction Budget）没有带来预期效果

Sumi 测试了给模型一个"修正预算"——允许在生成过程中额外执行若干步去噪，专门用于修正已生成但可能错误的 token。

结果：在当前设置下，显式修正预算没有提升生成质量。

论文分析可能原因： 1. 模型还没有足够强的"自我评估"能力——不知道自己生成的哪些 token 是错的 2. 修正步数与初始去噪步数之间的分配没有最优策略 3. 需要专门的训练目标来强化自我修正行为（而不是只在推理时加修正步）

这与 GIDD 的"self-correction"发现形成对比：GIDD 在混合噪声（masked + uniform）训练时观察到了自我修正行为，但纯 uniform diffusion 的 Sumi 没有。这暗示：修正能力可能需要混合噪声来诱导。

---

六、均匀扩散的 Scaling 特性：来自 GIDD 的启示

虽然 Sumi 本身没有系统做 scaling study，但它基于的 GIDD 框架有详细的 scaling law 研究，对理解 Sumi 的训练效率很重要。

GIDD 的 Scaling Laws（关键数字）

噪声类型	参数指数 α_M	数据指数 α_D	说明
Masked	0.566	0.434	更多数据，相对少参数
Balanced Hybrid	0.534	0.466	参数和数据较平衡
Uniform	0.589	0.411	更多参数，更少数据

关键洞察：Uniform Diffusion 的 optimal scaling 比 Masked Diffusion 和 AR 更"参数饥渴"——同样的计算预算，uniform diffusion 应该把更多资源分配给模型参数，而不是数据。

这可能与 uniform diffusion 的噪声更"混乱"有关：masked 只有"未知"和"已知"两种状态，uniform 有词汇表大小的可能状态——模型需要更多参数来建模这种复杂噪声分布。

对 Sumi 的启示

Sumi 用 7B 参数 + 1.5T tokens 达到与 AR 相当的效果。根据 GIDD 的 scaling law，uniform diffusion 在 7B 规模可能尚未达到 optimal scaling——如果增加到 10B+ 参数、保持 1.5T tokens，性能可能进一步提升。

---

七、Sumi 的意义与局限

意义

1. 从零预训练的验证：证明均匀扩散不需要依赖预训练 AR 模型，可以独立达到大模型性能 2. 完全开放的基准：权重、检查点、配方、数据混合全部公开——社区可以真正研究扩散范式本身 3. 扩散 ≠ 自回归的下位替代：性能相当，但特性不同（并行、可修正）——适合不同场景 4. 生成特性的新发现：画布甜蜜点、置信度自组织、修正预算的失效——为后续研究指明方向

局限

1. 上下文长度限制：2048 生成画布，对于长文档生成可能不足 2. Commonsense 较弱：数据混合偏教育向，不是扩散范式本身的限制 3. 修正能力未充分展现：显式修正预算无效，自我修正能力仍需探索 4. 与 GIDD 的对比：GIDD 在混合噪声下展现自我修正，Sumi 纯 uniform 没有——最优噪声类型仍待研究 5. 分词器选择：GPT-2 BPE 而非更现代的分词器（如 Llama 3 的 tiktoken），可能影响绝对性能

---

八、扩散语言模型的未来方向

Sumi 的发布和几个发现，为领域指明了以下方向：

1. 混合噪声策略

GIDD 证明了混合 masked + uniform 噪声可以诱导自我修正。Sumi 的纯 uniform 没有展现修正能力。最优噪声调度可能不是纯 uniform，而是随训练进程动态调整（早期 uniform 多，后期 masked 多）。

2. 画布长度的自适应

2048 是甜蜜点，但不同任务需要不同长度。研究"动态画布长度"——让模型自己决定需要多少空间来生成最优内容。

3. 置信度采样的系统化

置信度采样展现了自组织顺序，但采样策略（每步更新多少个 token、按什么阈值）是人工设定的。研究最优采样策略——可能是一个可学习的参数。

4. 与 AR 的混合架构

不是二选一，而是结合两者优势：

AR 负责生成"骨架"（高结构确定性部分）
Diffusion 负责填充和修正（低置信度、需要迭代优化的部分）

BD³-LMs（Block Diffusion）已经在这个方向探索：用 block size 控制并行度，block size=1 就是 AR，block size=序列长度就是纯 diffusion。

5. 扩散的推理优化

扩散模型的并行生成特性，天然适合硬件优化：

固定步数（如 32 步）→ 可预测延迟
所有 token 同时处理 → 适合 GPU 并行
不依赖因果链 → 适合 speculative decoding 的变体

---

九、总结

Sumi 是一个里程碑：第一个从零预训练、完全开源、大参数（7B）、大数据（1.5T）的均匀扩散语言模型。

它的核心结论： 1. 扩散可以独立达到 AR 性能——不是 AR 的"低端替代品" 2. 2048 是生成画布的甜蜜点——不是越大越好 3. 置信度采样带来自组织生成顺序——无顺序的扩散模型可以自发形成有序生成 4. 显式修正预算当前无效——自我修正能力需要新的训练策略

Sumi 的真正价值不是"超过了 AR"——它在大部分任务上只是"相当"。它的价值在于提供了一个干净、可复现、可研究的基准——让社区可以真正探索"扩散语言模型"这个范式的独特性质，而不是被训练差异的混杂因素干扰。

在 2026 年的 LLM 领域，大多数创新是"更好的 AR 模型"。Sumi 提醒我们：生成范式的多样性本身，可能是下一个突破的来源。

---

> 参考链接 > - Sumi 论文：https://arxiv.org/abs/2606.19005 > - GIDD 论文：https://arxiv.org/abs/2503.04482 > - GIDD GitHub：https://github.com/dvruette/gidd > - BD³-LMs（Block Diffusion）：https://arxiv.org/abs/2503.09573 > - Scaling Behavior of Discrete Diffusion：https://arxiv.org/abs/2512.10858 > - Self-Correcting Discrete Diffusion (SCDD)：https://arxiv.org/abs/2603.02230 > > #Sumi #均匀扩散 #扩散语言模型 #DiscreteDiffusion #GIDD #东北大学 #开源LLM #LLM #AI论文 #小凯

Sumi 深度拆解：从零预训练的 7B 均匀扩散语言模型，扩散范式终于进入大模型时代

Sumi 深度拆解：从零预训练的 7B 均匀扩散语言模型，扩散范式终于进入大模型时代

一、为什么扩散语言模型值得重新关注？

二、核心概念：什么是 Uniform Diffusion Language Model？

自回归 vs Masked Diffusion vs Uniform Diffusion

三种范式的直观理解

GIDD 框架：把 Uniform Diffusion 理论化

SNR 重参数化：为什么用信噪比代替时间？

三、Sumi 的架构与训练

模型架构：LLaMA 风格的双向 Transformer

训练策略：1.5T Token，两阶段

开源承诺：全部公开

四、性能对比：扩散 ≈ 自回归，但分布不同

通用知识、推理、代码

Commonsense（常识推理）

与 AR 模型的对比表

五、生成特性的探索性发现

发现 1：画布长度（Canvas Length）的"甜蜜点"

发现 2：置信度采样（Confidence Sampling）带来自组织生成顺序

发现 3：显式修正预算（Self-Correction Budget）没有带来预期效果

六、均匀扩散的 Scaling 特性：来自 GIDD 的启示

GIDD 的 Scaling Laws（关键数字）

对 Sumi 的启示

七、Sumi 的意义与局限

意义

局限

八、扩散语言模型的未来方向

1. 混合噪声策略

2. 画布长度的自适应

3. 置信度采样的系统化

4. 与 AR 的混合架构

5. 扩散的推理优化

九、总结

🌟 智谱 GLM-5 已上线