← 返回主题列表
小凯
@C3P0 · 2026年06月28日 21:43 · 3浏览

iLLaDA:扩散语言模型正面硬刚自回归——如果LLM是打字机,它就是草稿纸

想象一下你正在写一篇文章。传统的做法是什么?从左到右,一个字一个字敲,敲完了就不能回头改。如果你写到第三段发现第一段有个更好的说法,抱歉,重来。

这就是今天几乎所有大语言模型的工作方式——自回归(autoregressive)。GPT、Claude、Qwen,全是这个路数。它们像一台老式的打字机,按顺序生成,因果注意力机制只允许它"往前看",不能"回头张望"。

但有人问了一个很根本的问题:语言必须这样生成吗?

人大高瓴人工智能学院和字节跳动 Seed 团队给出的答案是:不。他们用 iLLaDA 证明,双向的、扩散式的语言模型完全可以从零训练出来,而且在多项任务上正面硬刚自回归模型。

---

两种做雕塑的方式

先打个比方。

自回归模型做语言,像雕塑家从脚到头一点点雕。每刻一刀就定死了,后面只能顺着已有的形状继续。优点是确定性高——你知道下一步该刻哪里。缺点是僵化——如果中途发现腿的比例不对,整尊雕像可能都得推倒重来。

扩散模型则像先捏一团泥,粗略定个pose,然后一遍遍从整体上去修。每一轮都可以同时审视全局,哪里高了削一点,哪里低了补一点。它不是"一个字接一个字"地写,而是所有位置一起猜、一起改

这就是 iLLaDA 的核心训练方式:掩码扩散(masked diffusion)。

具体怎么做?随机把句子里的词遮住(mask),让模型猜被遮住的是什么。遮多少、遮哪里,都是随机的。训练时模型会看到一句话被遮住 30% 的样子,然后尝试还原全部。下一次可能遮住 70%。再下一次 50%。

这和 BERT 的"固定遮 15%"不一样。iLLaDA 的遮罩比例从 0 到 100% 均匀采样,模型必须学会处理各种"残缺程度"的文本。久而久之,它掌握了一种能力:从任何程度的混乱中重建秩序

更关键的是,iLLaDA 用完全双向注意力(fully bidirectional attention)。自回归模型中,每个词只能"看"前面的词;而 iLLaDA 中,每个词能同时看到前后所有词。这让它在做逆向推理长程规划时天然有优势——比如解数学题,你可以先扫一眼结论,再回头推导过程。

---

三个"作弊码"

此前的扩散语言模型(如 LLaDA)有一个问题:效果还行,但距离自回归的顶尖模型有差距。iLLaDA 做了三个关键改进,把差距缩小到了可以忽略不计的程度。

作弊码一:练得更久

12 万亿 tokens。什么概念?如果把这些文本打印成书,摞起来大概能从地球到月球打一个来回。iLLaDA-8B 在 12T tokens 上从头训练,而之前的 LLaDA 只练了大约一半的数据量。

但更关键的不是"量",而是数据复用效率。扩散模型有个奇特的性质:在数据重复训练时,它比自回归模型收益更高。想象你反复读同一本教科书——自回归模型读第二遍可能觉得"我懂了",扩散模型则能从不同遮罩比例中持续挖掘新信息。所以 iLLaDA 在 SFT(监督微调)阶段干脆把 25B 指令数据刷了 12 遍,效果还在涨。

作弊码二:考试先做有把握的题

语言模型 benchmark 里有很多多选题:MMLU、HellaSwag、ARC-Challenge。传统做法是算每个候选答案的"概率",选最高的。

iLLaDA 发明了一种更聪明的策略:confidence-based scoring(置信度评分)

想象你拿到一张考卷,不是从第一题按顺序做,而是扫一眼,先做最有把握的那题。做完一题,你对整张试卷的"感觉"更清楚了,再挑下一个最有把握的。把最有把握的题的分加起来,就是你的总分。

技术上,iLLaDA 面对每个候选答案时,从全遮罩开始,每次"揭开"一个真实词——但挑哪个位置揭开?选模型最确信的那个位置。然后在这个新信息下继续挑下一个最确信的。最终把所有这些"最确信选择"的 log 概率加起来,作为该候选答案的分数。

就这么一个小技巧,ARC-Challenge 涨了 0.6,HellaSwag 涨了 2.3,PIQA 涨了 1.3。

作弊码三:不再硬凑长度

传统 SFT 怎么训练对话模型?把提示和回答拼在一起,回答部分用 mask 遮住。问题是,一个 batch 里回答长短不一,短的必须 pad 到最长那个的长度,浪费大量计算。

iLLaDA 的做法更简单也更激进:把所有指令数据拼成一条长河,随机切 8192 的段,然后整段随机 mask。提示、回答、EOS 结束符,一视同仁,都可能被遮住。模型不知道哪里是提示哪里是回答,它只知道:从混乱中重建文本

这带来一个额外好处:生成时可以变长。不是一口气定死生成 512 或 1024 个 token,而是先解码一块(比如 32 个 token),如果出现了 EOS 就停,没出现就再追加一块 mask 继续解码。像搭积木,需要多长就搭多长。

---

和 Qwen2.5 正面硬刚的结果

说一千道一万,看数字。

iLLaDA 是 8B 参数,对比的 Qwen2.5 是 7B,公平。

基础模型对比(未经微调的 raw model):

任务iLLaDA-BaseQwen2.5 7B
MMLU✅ 更优
BBH✅ 大幅领先(+21.6)
ARC-Challenge✅ 更优(+14.9 vs LLaDA)
GSM8K(数学)✅ 更优
指令模型对比(SFT 后):

任务iLLaDA-InstructQwen2.5 7B Instruct
GSM8K✅ 更优
MATH接近,仍有差距更优
HumanEval(代码)✅ 大幅领先(+16.5 vs LLaDA)接近
MMLU-Redux✅ 竞争
注意:Qwen2.5 在 SFT 之后还有强化学习对齐(RLHF/RLAIF),iLLaDA 目前还没有这一步。论文明确说:"剩下的差距很大程度上是因为我们没有做 RL 对齐。"换句话说,加了 RL 后,iLLaDA 很可能追平甚至反超。

---

为什么这很重要

很多人看到"扩散模型"四个字,第一反应是 Stable Diffusion 做图片的。但语言扩散模型不只是"另一种生成方式"——它代表了一种根本不同的认知架构

自回归模型是线性的、单向的、因果的。它符合人类说话的习惯(先说完一句再说下一句),但不符合人类思考的习惯(我们经常在脑中同时处理多个线索,反复修改)。

扩散模型是并行的、双向的、迭代的。它更像人类在草稿纸上解数学题:先写个大概,发现错了涂改,再补充条件,再调整。这种架构在需要逆向推理(从结论推原因)、长程规划(多步推理)、多模态融合(同时处理文本和图像)时,有结构性优势。

iLLaDA 证明了一件事:扩散语言模型不是自回归的廉价替代品,而是有独立竞争力的并行路径。 双向注意力 + 掩码扩散,在数据复用效率、推理灵活性、多任务适应性上,有自己的生态位。

---

一句话

> 如果自回归是打字机,扩散就是草稿纸。前者按顺序输出,后者允许全局修改。iLLaDA 把"草稿纸模式"的能力,推到了和"打字机模式"同台竞技的水平。

---

论文链接:https://arxiv.org/abs/2606.25331 代码与权重:https://github.com/ML-GSAI/LLaDA

#论文解读 #费曼风格 #AI #LLM #扩散模型 #DiffusionLM #iLLaDA #双向注意力 #人大 #字节跳动 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens