iLLaDA：扩散语言模型正面硬刚自回归——如果LLM是打字机，它就是草稿纸

想象一下你正在写一篇文章。传统的做法是什么？从左到右，一个字一个字敲，敲完了就不能回头改。如果你写到第三段发现第一段有个更好的说法，抱歉，重来。

这就是今天几乎所有大语言模型的工作方式——自回归（autoregressive）。GPT、Claude、Qwen，全是这个路数。它们像一台老式的打字机，按顺序生成，因果注意力机制只允许它"往前看"，不能"回头张望"。

但有人问了一个很根本的问题：语言必须这样生成吗？

人大高瓴人工智能学院和字节跳动 Seed 团队给出的答案是：不。他们用 iLLaDA 证明，双向的、扩散式的语言模型完全可以从零训练出来，而且在多项任务上正面硬刚自回归模型。

---

两种做雕塑的方式

先打个比方。

自回归模型做语言，像雕塑家从脚到头一点点雕。每刻一刀就定死了，后面只能顺着已有的形状继续。优点是确定性高——你知道下一步该刻哪里。缺点是僵化——如果中途发现腿的比例不对，整尊雕像可能都得推倒重来。

扩散模型则像先捏一团泥，粗略定个pose，然后一遍遍从整体上去修。每一轮都可以同时审视全局，哪里高了削一点，哪里低了补一点。它不是"一个字接一个字"地写，而是所有位置一起猜、一起改。

这就是 iLLaDA 的核心训练方式：掩码扩散（masked diffusion）。

具体怎么做？随机把句子里的词遮住（mask），让模型猜被遮住的是什么。遮多少、遮哪里，都是随机的。训练时模型会看到一句话被遮住 30% 的样子，然后尝试还原全部。下一次可能遮住 70%。再下一次 50%。

这和 BERT 的"固定遮 15%"不一样。iLLaDA 的遮罩比例从 0 到 100% 均匀采样，模型必须学会处理各种"残缺程度"的文本。久而久之，它掌握了一种能力：从任何程度的混乱中重建秩序。

更关键的是，iLLaDA 用完全双向注意力（fully bidirectional attention）。自回归模型中，每个词只能"看"前面的词；而 iLLaDA 中，每个词能同时看到前后所有词。这让它在做逆向推理、长程规划时天然有优势——比如解数学题，你可以先扫一眼结论，再回头推导过程。

---

三个"作弊码"

此前的扩散语言模型（如 LLaDA）有一个问题：效果还行，但距离自回归的顶尖模型有差距。iLLaDA 做了三个关键改进，把差距缩小到了可以忽略不计的程度。

作弊码一：练得更久

12 万亿 tokens。什么概念？如果把这些文本打印成书，摞起来大概能从地球到月球打一个来回。iLLaDA-8B 在 12T tokens 上从头训练，而之前的 LLaDA 只练了大约一半的数据量。

但更关键的不是"量"，而是数据复用效率。扩散模型有个奇特的性质：在数据重复训练时，它比自回归模型收益更高。想象你反复读同一本教科书——自回归模型读第二遍可能觉得"我懂了"，扩散模型则能从不同遮罩比例中持续挖掘新信息。所以 iLLaDA 在 SFT（监督微调）阶段干脆把 25B 指令数据刷了 12 遍，效果还在涨。

作弊码二：考试先做有把握的题

语言模型 benchmark 里有很多多选题：MMLU、HellaSwag、ARC-Challenge。传统做法是算每个候选答案的"概率"，选最高的。

iLLaDA 发明了一种更聪明的策略：confidence-based scoring（置信度评分）。

想象你拿到一张考卷，不是从第一题按顺序做，而是扫一眼，先做最有把握的那题。做完一题，你对整张试卷的"感觉"更清楚了，再挑下一个最有把握的。把最有把握的题的分加起来，就是你的总分。

技术上，iLLaDA 面对每个候选答案时，从全遮罩开始，每次"揭开"一个真实词——但挑哪个位置揭开？选模型最确信的那个位置。然后在这个新信息下继续挑下一个最确信的。最终把所有这些"最确信选择"的 log 概率加起来，作为该候选答案的分数。

就这么一个小技巧，ARC-Challenge 涨了 0.6，HellaSwag 涨了 2.3，PIQA 涨了 1.3。

作弊码三：不再硬凑长度

传统 SFT 怎么训练对话模型？把提示和回答拼在一起，回答部分用 mask 遮住。问题是，一个 batch 里回答长短不一，短的必须 pad 到最长那个的长度，浪费大量计算。

iLLaDA 的做法更简单也更激进：把所有指令数据拼成一条长河，随机切 8192 的段，然后整段随机 mask。提示、回答、EOS 结束符，一视同仁，都可能被遮住。模型不知道哪里是提示哪里是回答，它只知道：从混乱中重建文本。

这带来一个额外好处：生成时可以变长。不是一口气定死生成 512 或 1024 个 token，而是先解码一块（比如 32 个 token），如果出现了 EOS 就停，没出现就再追加一块 mask 继续解码。像搭积木，需要多长就搭多长。

---

和 Qwen2.5 正面硬刚的结果

说一千道一万，看数字。

iLLaDA 是 8B 参数，对比的 Qwen2.5 是 7B，公平。

基础模型对比（未经微调的 raw model）：

任务	iLLaDA-Base	Qwen2.5 7B
MMLU	✅ 更优	—
BBH	✅ 大幅领先（+21.6）	—
ARC-Challenge	✅ 更优（+14.9 vs LLaDA）	—
GSM8K（数学）	✅ 更优	—

指令模型对比（SFT 后）：

任务	iLLaDA-Instruct	Qwen2.5 7B Instruct
GSM8K	✅ 更优	—
MATH	接近，仍有差距	更优
HumanEval（代码）	✅ 大幅领先（+16.5 vs LLaDA）	接近
MMLU-Redux	✅ 竞争	—

注意：Qwen2.5 在 SFT 之后还有强化学习对齐（RLHF/RLAIF），iLLaDA 目前还没有这一步。论文明确说："剩下的差距很大程度上是因为我们没有做 RL 对齐。"换句话说，加了 RL 后，iLLaDA 很可能追平甚至反超。

---

为什么这很重要

很多人看到"扩散模型"四个字，第一反应是 Stable Diffusion 做图片的。但语言扩散模型不只是"另一种生成方式"——它代表了一种根本不同的认知架构。

自回归模型是线性的、单向的、因果的。它符合人类说话的习惯（先说完一句再说下一句），但不符合人类思考的习惯（我们经常在脑中同时处理多个线索，反复修改）。

扩散模型是并行的、双向的、迭代的。它更像人类在草稿纸上解数学题：先写个大概，发现错了涂改，再补充条件，再调整。这种架构在需要逆向推理（从结论推原因）、长程规划（多步推理）、多模态融合（同时处理文本和图像）时，有结构性优势。

iLLaDA 证明了一件事：扩散语言模型不是自回归的廉价替代品，而是有独立竞争力的并行路径。 双向注意力 + 掩码扩散，在数据复用效率、推理灵活性、多任务适应性上，有自己的生态位。

---

一句话

> 如果自回归是打字机，扩散就是草稿纸。前者按顺序输出，后者允许全局修改。iLLaDA 把"草稿纸模式"的能力，推到了和"打字机模式"同台竞技的水平。

---

论文链接：https://arxiv.org/abs/2606.25331 代码与权重：https://github.com/ML-GSAI/LLaDA

#论文解读 #费曼风格 #AI #LLM #扩散模型 #DiffusionLM #iLLaDA #双向注意力 #人大 #字节跳动 #小凯