iLLaDA:扩散语言模型正面硬刚自回归——如果LLM是打字机,它就是草稿纸
想象一下你正在写一篇文章。传统的做法是什么?从左到右,一个字一个字敲,敲完了就不能回头改。如果你写到第三段发现第一段有个更好的说法,抱歉,重来。
这就是今天几乎所有大语言模型的工作方式——自回归(autoregressive)。GPT、Claude、Qwen,全是这个路数。它们像一台老式的打字机,按顺序生成,因果注意力机制只允许它"往前看",不能"回头张望"。
但有人问了一个很根本的问题:语言必须这样生成吗?
人大高瓴人工智能学院和字节跳动 Seed 团队给出的答案是:不。他们用 iLLaDA 证明,双向的、扩散式的语言模型完全可以从零训练出来,而且在多项任务上正面硬刚自回归模型。
---
两种做雕塑的方式
先打个比方。
自回归模型做语言,像雕塑家从脚到头一点点雕。每刻一刀就定死了,后面只能顺着已有的形状继续。优点是确定性高——你知道下一步该刻哪里。缺点是僵化——如果中途发现腿的比例不对,整尊雕像可能都得推倒重来。
扩散模型则像先捏一团泥,粗略定个pose,然后一遍遍从整体上去修。每一轮都可以同时审视全局,哪里高了削一点,哪里低了补一点。它不是"一个字接一个字"地写,而是所有位置一起猜、一起改。
这就是 iLLaDA 的核心训练方式:掩码扩散(masked diffusion)。
具体怎么做?随机把句子里的词遮住(mask),让模型猜被遮住的是什么。遮多少、遮哪里,都是随机的。训练时模型会看到一句话被遮住 30% 的样子,然后尝试还原全部。下一次可能遮住 70%。再下一次 50%。
这和 BERT 的"固定遮 15%"不一样。iLLaDA 的遮罩比例从 0 到 100% 均匀采样,模型必须学会处理各种"残缺程度"的文本。久而久之,它掌握了一种能力:从任何程度的混乱中重建秩序。
更关键的是,iLLaDA 用完全双向注意力(fully bidirectional attention)。自回归模型中,每个词只能"看"前面的词;而 iLLaDA 中,每个词能同时看到前后所有词。这让它在做逆向推理、长程规划时天然有优势——比如解数学题,你可以先扫一眼结论,再回头推导过程。
---
三个"作弊码"
此前的扩散语言模型(如 LLaDA)有一个问题:效果还行,但距离自回归的顶尖模型有差距。iLLaDA 做了三个关键改进,把差距缩小到了可以忽略不计的程度。
作弊码一:练得更久
12 万亿 tokens。什么概念?如果把这些文本打印成书,摞起来大概能从地球到月球打一个来回。iLLaDA-8B 在 12T tokens 上从头训练,而之前的 LLaDA 只练了大约一半的数据量。
但更关键的不是"量",而是数据复用效率。扩散模型有个奇特的性质:在数据重复训练时,它比自回归模型收益更高。想象你反复读同一本教科书——自回归模型读第二遍可能觉得"我懂了",扩散模型则能从不同遮罩比例中持续挖掘新信息。所以 iLLaDA 在 SFT(监督微调)阶段干脆把 25B 指令数据刷了 12 遍,效果还在涨。
作弊码二:考试先做有把握的题
语言模型 benchmark 里有很多多选题:MMLU、HellaSwag、ARC-Challenge。传统做法是算每个候选答案的"概率",选最高的。
iLLaDA 发明了一种更聪明的策略:confidence-based scoring(置信度评分)。
想象你拿到一张考卷,不是从第一题按顺序做,而是扫一眼,先做最有把握的那题。做完一题,你对整张试卷的"感觉"更清楚了,再挑下一个最有把握的。把最有把握的题的分加起来,就是你的总分。
技术上,iLLaDA 面对每个候选答案时,从全遮罩开始,每次"揭开"一个真实词——但挑哪个位置揭开?选模型最确信的那个位置。然后在这个新信息下继续挑下一个最确信的。最终把所有这些"最确信选择"的 log 概率加起来,作为该候选答案的分数。
就这么一个小技巧,ARC-Challenge 涨了 0.6,HellaSwag 涨了 2.3,PIQA 涨了 1.3。
作弊码三:不再硬凑长度
传统 SFT 怎么训练对话模型?把提示和回答拼在一起,回答部分用 mask 遮住。问题是,一个 batch 里回答长短不一,短的必须 pad 到最长那个的长度,浪费大量计算。
iLLaDA 的做法更简单也更激进:把所有指令数据拼成一条长河,随机切 8192 的段,然后整段随机 mask。提示、回答、EOS 结束符,一视同仁,都可能被遮住。模型不知道哪里是提示哪里是回答,它只知道:从混乱中重建文本。
这带来一个额外好处:生成时可以变长。不是一口气定死生成 512 或 1024 个 token,而是先解码一块(比如 32 个 token),如果出现了 EOS 就停,没出现就再追加一块 mask 继续解码。像搭积木,需要多长就搭多长。
---
和 Qwen2.5 正面硬刚的结果
说一千道一万,看数字。
iLLaDA 是 8B 参数,对比的 Qwen2.5 是 7B,公平。
基础模型对比(未经微调的 raw model):
| 任务 | iLLaDA-Base | Qwen2.5 7B |
|---|---|---|
| MMLU | ✅ 更优 | — |
| BBH | ✅ 大幅领先(+21.6) | — |
| ARC-Challenge | ✅ 更优(+14.9 vs LLaDA) | — |
| GSM8K(数学) | ✅ 更优 | — |
| 任务 | iLLaDA-Instruct | Qwen2.5 7B Instruct |
|---|---|---|
| GSM8K | ✅ 更优 | — |
| MATH | 接近,仍有差距 | 更优 |
| HumanEval(代码) | ✅ 大幅领先(+16.5 vs LLaDA) | 接近 |
| MMLU-Redux | ✅ 竞争 | — |
---
为什么这很重要
很多人看到"扩散模型"四个字,第一反应是 Stable Diffusion 做图片的。但语言扩散模型不只是"另一种生成方式"——它代表了一种根本不同的认知架构。
自回归模型是线性的、单向的、因果的。它符合人类说话的习惯(先说完一句再说下一句),但不符合人类思考的习惯(我们经常在脑中同时处理多个线索,反复修改)。
扩散模型是并行的、双向的、迭代的。它更像人类在草稿纸上解数学题:先写个大概,发现错了涂改,再补充条件,再调整。这种架构在需要逆向推理(从结论推原因)、长程规划(多步推理)、多模态融合(同时处理文本和图像)时,有结构性优势。
iLLaDA 证明了一件事:扩散语言模型不是自回归的廉价替代品,而是有独立竞争力的并行路径。 双向注意力 + 掩码扩散,在数据复用效率、推理灵活性、多任务适应性上,有自己的生态位。
---
一句话
> 如果自回归是打字机,扩散就是草稿纸。前者按顺序输出,后者允许全局修改。iLLaDA 把"草稿纸模式"的能力,推到了和"打字机模式"同台竞技的水平。
---
论文链接:https://arxiv.org/abs/2606.25331 代码与权重:https://github.com/ML-GSAI/LLaDA
#论文解读 #费曼风格 #AI #LLM #扩散模型 #DiffusionLM #iLLaDA #双向注意力 #人大 #字节跳动 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens