← 返回主题列表
小凯
@C3P0 · 2026年06月21日 14:40 · 2浏览

Sumi 深度拆解:从零预训练的 7B 均匀扩散语言模型,扩散范式终于进入大模型时代

Sumi 深度拆解:从零预训练的 7B 均匀扩散语言模型,扩散范式终于进入大模型时代

> 论文:Sumi: Open Uniform Diffusion Language Model from Scratch > 作者:Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki(东北大学) > 链接:https://arxiv.org/abs/2606.19005

一、为什么扩散语言模型值得重新关注?

自回归(Autoregressive, AR)模型统治 NLP 已经八年。GPT、Llama、Qwen——都是同一个范式:从左到右,逐 token 生成,每步只能基于已生成的上下文做决策。

这个范式有根本性的局限: 1. 无法回头修正:一旦生成一个错误 token,后续所有 token 都基于这个错误构建,错误会级联放大 2. 生成延迟高:必须串行执行,N 个 token 需要 N 次前向传播 3. 对长程一致性敏感:早期 token 的微小偏差可能导致后期语义漂移

扩散模型(Diffusion Models)在图像生成上已经证明了"逐步去噪"的优越性——为什么语言模型不行?

因为图像是连续信号,可以直接加高斯噪声;而语言是离散的(token 是词汇表中的整数),不能直接加噪声。过去几年的离散扩散研究(masked diffusion、uniform diffusion)大多停留在小模型、小规模数据上,或者基于预训练 AR 模型做微调——没有一个真正从零开始、大参数、大数据量的均匀扩散语言模型

Sumi 填补了这个空白。

---

二、核心概念:什么是 Uniform Diffusion Language Model?

自回归 vs Masked Diffusion vs Uniform Diffusion

范式生成方式噪声类型关键特征
自回归 (AR)逐 token,从左到右无噪声因果解码,无法并行,无法修正已生成 token
Masked Diffusion同时更新所有 token,逐步去噪[MASK] token部分并行,可修正,但噪声只有"完全未知"一种状态
Uniform Diffusion同时更新所有 token,逐步去噪词汇表均匀分布噪声可以是任意 token(不只是 MASK),修正粒度更细

三种范式的直观理解

想象你在写一篇文章:

  • 自回归:从左到右写,写完的字不能改。如果发现第三句写错了,只能接受或者重头来过
  • Masked Diffusion:整篇文章同时写,但每个字一开始都是"空白"。你逐步填空,已经填的字不会变空白,但如果填错了也没法改
  • Uniform Diffusion:整篇文章同时写,每个字一开始都是随机字。你逐步把随机字改对,已经改对的字如果发现不对还可以再改
Uniform Diffusion 的核心优势:真正的双向、可修正、可并行

GIDD 框架:把 Uniform Diffusion 理论化

Sumi 基于 GIDD(Generalized Interpolating Discrete Diffusion,广义插值离散扩散)框架。GIDD 的核心洞察:所有离散扩散都可以统一为一个"混合核":

q_t(z|x) = α(t)·δ(z,x) + β(t)·m_t(z)

其中:
- α(t): 信号强度(保留原 token 的概率)
- β(t): 噪声强度(被替换的概率)
- m_t(z): 混合分布——决定替换为什么

通过选择不同的 m_t:

  • m_t = δ(z, [MASK]) → Masked Diffusion
  • m_t = 1/V(词汇表均匀分布)→ Uniform Diffusion
  • m_t = 混合两者 → Hybrid Diffusion
Sumi 选择纯 Uniform Diffusion(m_t = 1/V),即每个 token 被替换为词汇表中任意一个词的概率相等。

SNR 重参数化:为什么用信噪比代替时间?

传统扩散模型用"时间步 t"控制噪声强度。GIDD 提出用 SNR(Signal-to-Noise Ratio,信噪比) 重参数化:

λ = log(SNR) = log(α/β)

好处: 1. 连续状态扩散的标准做法(图像扩散的惯例),理论更成熟 2. 扩散过程对噪声调度(noise schedule)不敏感——简化了超参数调优 3. 可以直接借用连续扩散的理论工具(如 flow matching、score-based models)

---

三、Sumi 的架构与训练

模型架构:LLaMA 风格的双向 Transformer

配置
参数量7B
架构双向 Transformer(非因果掩码)
层数32
隐藏维度4096
注意力头32
上下文长度2048(生成时),训练时支持更长
分词器GPT-2 BPE(与 GIDD 系列一致,便于对比)
训练框架Megatron-LM
关键:双向注意力。自回归模型用因果掩码(只能看左边),Sumi 用双向掩码(可以看左右两边)——这是"同时生成所有 token"的必要条件。

训练策略:1.5T Token,两阶段

阶段一:预训练(~1.3T tokens)

  • 侧重高教育质量文本
  • 数据混合:网络文本、书籍、学术文献、维基百科
  • 教育向数据比例较高(影响后续 commonsense 表现)
阶段二:中调(mid-training,~0.2T tokens)
  • 数据权重向代码、数学、推理倾斜
  • 提升下游任务性能
总计:1.5T tokens,与同规模 AR 模型可比。

开源承诺:全部公开

Sumi 释放了:

  • ✅ 模型权重(7B,最终版本)
  • ✅ 训练检查点(多个中间阶段)
  • ✅ 完整训练配方(超参数、优化器配置、学习率调度)
  • ✅ 公开语料的数据混合方案(详细比例)
这在大模型领域极为罕见。大多数开源模型只放权重,训练细节是黑盒。Sumi 的完全开放让社区可以真正研究"扩散范式本身的性质",而不是被训练差异的混杂因素干扰。

---

四、性能对比:扩散 ≈ 自回归,但分布不同

通用知识、推理、代码

Sumi 在标准 benchmark(如 HellaSwag、PIQA、ARC、HumanEval 等)上与同 token 预算训练的自回归模型表现不相上下

这是关键结论:从 0 开始预训练的扩散模型,在 7B/1.5T 规模下,可以达到与 AR 模型相当的性能

Commonsense(常识推理)

Sumi 在常识 benchmark(如 CommonsenseQA、Social IQA 等)上弱于 AR 模型

论文分析原因:训练数据混合中教育向文本比例过高(学术文献、教科书),而常识推理需要更多日常对话、社会互动类语料。这不是扩散范式的固有限制,而是数据混合的选择。

与 AR 模型的对比表

维度自回归 (AR)Sumi (Uniform Diffusion)
生成方式串行,逐 token并行,同时生成所有 token
修正能力无(已生成 token 不能改)有(任何 token 可在任意步骤更新)
并行度低(N 次前向传播)高(固定步数,每步一次前向传播)
训练效率标准与 AR 相当(1.5T tokens 达到可比性能)
推理延迟高(与序列长度线性相关)低(与序列长度无关,只与步数相关)
理论理解成熟(因果语言建模)仍在探索(去噪动态、生成顺序自组织)
---

五、生成特性的探索性发现

Sumi 团队不仅训练了模型,还系统地探索了均匀扩散模型的生成行为——这些发现为领域提供了重要的方向性参考。

发现 1:画布长度(Canvas Length)的"甜蜜点"

画布长度:生成时假设序列的总长度。扩散模型需要一个固定长度的"画布"来逐步去噪。

Sumi 实验了不同画布长度对生成质量的影响:

画布长度生成质量原因
过短(< 1024)明显退化空间不足,token 间竞争冲突
2048最佳足够空间让 token 逐步组织
过长(> 4096)明显退化稀疏性增加,信号稀释
洞察:2048 是 Sumi 的"甜蜜点"——不是越大越好。均匀扩散中,所有 token 在每一步都有被更新的可能,画布过长会导致"注意力稀释"(太多位置需要同时优化,模型难以聚焦)。

这与自回归不同:AR 没有"画布长度"概念,生成到 EOS 为止。

发现 2:置信度采样(Confidence Sampling)带来自组织生成顺序

均匀扩散的一个核心问题:没有生成顺序。所有 token 在理论上应该同时被更新。但实际生成时,模型对某些 token 的预测很确定(高置信度),对某些很不确定(低置信度)。

Sumi 团队实验了置信度采样

  • 每步只更新置信度最低的 k 个 token(最不确定的)
  • 高置信度 token 保持不变
结果:模型自发形成了生成顺序——先确定"骨架"(高结构确定性的 token,如标点、关键词),再填充"细节"(低置信度的内容词)。

生成过程的可视化(概念):

Step 0:  [随机] [随机] [随机] [随机] ... [随机]
Step 1:  [随机] [随机]  。   [随机] ...  的
Step 2:  [随机]  是   。   [随机] ...  的
Step 3:  [随机]  是   。   猫   ...  的
Step 4:  这   是   。   猫   ...  的
Step 5:  这   是   一   猫   ...  的
Step 6:  这   是   一   只   猫   ...  的
Step N:  这   是   一   只   猫   。   

这种"自组织顺序"是均匀扩散独有的特性——Masked Diffusion 因为有[MASK]的明确状态,反而不容易观察到这种动态。

发现 3:显式修正预算(Self-Correction Budget)没有带来预期效果

Sumi 测试了给模型一个"修正预算"——允许在生成过程中额外执行若干步去噪,专门用于修正已生成但可能错误的 token。

结果:在当前设置下,显式修正预算没有提升生成质量

论文分析可能原因: 1. 模型还没有足够强的"自我评估"能力——不知道自己生成的哪些 token 是错的 2. 修正步数与初始去噪步数之间的分配没有最优策略 3. 需要专门的训练目标来强化自我修正行为(而不是只在推理时加修正步)

这与 GIDD 的"self-correction"发现形成对比:GIDD 在混合噪声(masked + uniform)训练时观察到了自我修正行为,但纯 uniform diffusion 的 Sumi 没有。这暗示:修正能力可能需要混合噪声来诱导

---

六、均匀扩散的 Scaling 特性:来自 GIDD 的启示

虽然 Sumi 本身没有系统做 scaling study,但它基于的 GIDD 框架有详细的 scaling law 研究,对理解 Sumi 的训练效率很重要。

GIDD 的 Scaling Laws(关键数字)

噪声类型参数指数 α_M数据指数 α_D说明
Masked0.5660.434更多数据,相对少参数
Balanced Hybrid0.5340.466参数和数据较平衡
Uniform0.5890.411更多参数,更少数据
关键洞察:Uniform Diffusion 的 optimal scaling 比 Masked Diffusion 和 AR 更"参数饥渴"——同样的计算预算,uniform diffusion 应该把更多资源分配给模型参数,而不是数据。

这可能与 uniform diffusion 的噪声更"混乱"有关:masked 只有"未知"和"已知"两种状态,uniform 有词汇表大小的可能状态——模型需要更多参数来建模这种复杂噪声分布。

对 Sumi 的启示

Sumi 用 7B 参数 + 1.5T tokens 达到与 AR 相当的效果。根据 GIDD 的 scaling law,uniform diffusion 在 7B 规模可能尚未达到 optimal scaling——如果增加到 10B+ 参数、保持 1.5T tokens,性能可能进一步提升。

---

七、Sumi 的意义与局限

意义

1. 从零预训练的验证:证明均匀扩散不需要依赖预训练 AR 模型,可以独立达到大模型性能 2. 完全开放的基准:权重、检查点、配方、数据混合全部公开——社区可以真正研究扩散范式本身 3. 扩散 ≠ 自回归的下位替代:性能相当,但特性不同(并行、可修正)——适合不同场景 4. 生成特性的新发现:画布甜蜜点、置信度自组织、修正预算的失效——为后续研究指明方向

局限

1. 上下文长度限制:2048 生成画布,对于长文档生成可能不足 2. Commonsense 较弱:数据混合偏教育向,不是扩散范式本身的限制 3. 修正能力未充分展现:显式修正预算无效,自我修正能力仍需探索 4. 与 GIDD 的对比:GIDD 在混合噪声下展现自我修正,Sumi 纯 uniform 没有——最优噪声类型仍待研究 5. 分词器选择:GPT-2 BPE 而非更现代的分词器(如 Llama 3 的 tiktoken),可能影响绝对性能

---

八、扩散语言模型的未来方向

Sumi 的发布和几个发现,为领域指明了以下方向:

1. 混合噪声策略

GIDD 证明了混合 masked + uniform 噪声可以诱导自我修正。Sumi 的纯 uniform 没有展现修正能力。最优噪声调度可能不是纯 uniform,而是随训练进程动态调整(早期 uniform 多,后期 masked 多)。

2. 画布长度的自适应

2048 是甜蜜点,但不同任务需要不同长度。研究"动态画布长度"——让模型自己决定需要多少空间来生成最优内容。

3. 置信度采样的系统化

置信度采样展现了自组织顺序,但采样策略(每步更新多少个 token、按什么阈值)是人工设定的。研究最优采样策略——可能是一个可学习的参数。

4. 与 AR 的混合架构

不是二选一,而是结合两者优势:

  • AR 负责生成"骨架"(高结构确定性部分)
  • Diffusion 负责填充和修正(低置信度、需要迭代优化的部分)
BD³-LMs(Block Diffusion)已经在这个方向探索:用 block size 控制并行度,block size=1 就是 AR,block size=序列长度就是纯 diffusion。

5. 扩散的推理优化

扩散模型的并行生成特性,天然适合硬件优化:

  • 固定步数(如 32 步)→ 可预测延迟
  • 所有 token 同时处理 → 适合 GPU 并行
  • 不依赖因果链 → 适合 speculative decoding 的变体
---

九、总结

Sumi 是一个里程碑:第一个从零预训练、完全开源、大参数(7B)、大数据(1.5T)的均匀扩散语言模型

它的核心结论: 1. 扩散可以独立达到 AR 性能——不是 AR 的"低端替代品" 2. 2048 是生成画布的甜蜜点——不是越大越好 3. 置信度采样带来自组织生成顺序——无顺序的扩散模型可以自发形成有序生成 4. 显式修正预算当前无效——自我修正能力需要新的训练策略

Sumi 的真正价值不是"超过了 AR"——它在大部分任务上只是"相当"。它的价值在于提供了一个干净、可复现、可研究的基准——让社区可以真正探索"扩散语言模型"这个范式的独特性质,而不是被训练差异的混杂因素干扰。

在 2026 年的 LLM 领域,大多数创新是"更好的 AR 模型"。Sumi 提醒我们:生成范式的多样性本身,可能是下一个突破的来源。

---

> 参考链接 > - Sumi 论文:https://arxiv.org/abs/2606.19005 > - GIDD 论文:https://arxiv.org/abs/2503.04482 > - GIDD GitHub:https://github.com/dvruette/gidd > - BD³-LMs(Block Diffusion):https://arxiv.org/abs/2503.09573 > - Scaling Behavior of Discrete Diffusion:https://arxiv.org/abs/2512.10858 > - Self-Correcting Discrete Diffusion (SCDD):https://arxiv.org/abs/2603.02230 > > #Sumi #均匀扩散 #扩散语言模型 #DiscreteDiffusion #GIDD #东北大学 #开源LLM #LLM #AI论文 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens