《从噪声中雕刻思想：扩散语言模型的创世纪》

🔗 被链条束缚的巨人：自回归模型的铁律

关于语言模型如何生成文字，有一个几乎无处不在的隐喻：它像一台打字机。ChatGPT在回答你的问题时，总是从第一个字开始，一个字、一个字地往后打，每打下一个字，都必须等待前一个字完成。这种"先后有序、逐词推进"的生成方式，在人工智能领域有一个学术名称——自回归（Autoregressive, AR）范式。

自2017年Transformer架构横空出世以来，自回归范式几乎统治了整个自然语言处理领域。GPT系列、LLaMA系列、Claude、Gemini……这些如雷贯耳的名字，无一不是这一范式的忠实追随者。它们的成功有目共睹：能写诗、能编程、能做数学题，甚至能与你讨论哲学和法律。

然而，这台打字机有一个根深蒂固的局限：它永远只能向前看，不能回头。

想象你正在写一篇文章，写到第50个字时突然意识到第3个字用错了——你只能继续往前写，无法在"创作"的过程中修改起点。自回归模型正面临类似的困境：它的每一个决策都被前面的内容绑架，缺乏一种"全局审视、整体雕琢"的能力。这在某些任务中会造成明显的短板——让它把一句话倒着写，它会抓耳挠腮；让它同时参考前后文做填空，表现也远不如人意。

就在自回归模型高歌猛进之时，一股来自"图像生成"领域的浪潮，正悄悄向语言的海岸线涌来。

---

🎨 暗室里的魔法：扩散模型的前世今生

如果你用过Midjourney、DALL-E或Stable Diffusion，你一定见过这样的景象：一张模糊的、充满噪点的图像，在几秒钟之内逐渐清晰，最终呈现出一幅栩栩如生的画作。这个过程，正是扩散模型（Diffusion Models） 的工作原理。

扩散模型的灵感来源于物理学中的扩散现象——想象一滴墨水滴入清水，它会慢慢向四周扩散，直到均匀分布。扩散模型的"前向过程"正是如此：将一张完整的图像不断地加入随机噪声，直到它变成一片纯粹的、毫无信息的雪花点。

而反向过程，才是真正的魔法：通过训练一个神经网络，学会如何从噪声中一步步"去噪"，最终还原或创造出一幅全新的图像。这就好比一位经验丰富的暗室技师，将一张曝光过度、模糊不清的胶片，通过精妙的化学处理，一步步显影成清晰的照片。

在图像领域，扩散模型取得了举世瞩目的成功。但问题来了：图像是连续的像素值，而语言是离散的文字符号——你可以说一个像素值是0.5，介于黑与白之间，但你无法说一个词语是"苹果"和"香蕉"之间的某个"中间状态"。

这道鸿沟，成为了扩散模型进军语言领域最大的障碍。跨越它，需要全新的思想。

> 📝 名词注解：扩散模型 > > 扩散模型（Diffusion Model）是一类生成式AI模型，其核心思路是"先破坏，再重建"。训练时，模型学习如何将数据（图像、音频等）逐渐加入噪声直至变成纯随机信号；推理时，模型反过来，从纯噪声出发，逐步去噪，生成新数据。它已成为当今图像生成领域的绝对主力技术，也是Midjourney和Stable Diffusion的技术内核。

---

🌉 架桥于两个世界：连续与离散的博弈

面对"语言是离散的"这道难题，研究者们开辟了两条截然不同的道路。

第一条路：强行打通连续空间。 既然图像扩散已经非常成熟，何不把文字"翻译"成连续的数值向量，在向量空间里做扩散，最后再翻译回文字？这就是连续空间扩散语言模型的思路，代表作包括斯坦福大学的 Diffusion-LM 和后来的 TESS 2。

这条路的优势是显而易见的——可以直接继承图像扩散领域积累的大量技术经验。但它也有一个致命软肋：文字到向量、再从向量回到文字的两次"翻译"，不可避免地引入了语义损失。就像把一首古诗翻译成英文，再翻回中文，总会丢失一些微妙的韵味。

第二条路：直接在离散的词语世界里扩散。 与其强行"同化"，不如发明一套专为文字设计的扩散机制。核心创意是：用 [MASK]（遮盖）标记来扮演图像扩散中"噪声"的角色——将文字逐渐替换为 [MASK]，再逐步将 [MASK] 还原为有意义的文字。

这一路线被称为掩码扩散模型（Masked Diffusion Models, MDM），也叫离散扩散模型。它直接在词语的原生空间里操作，没有语义损失，生成的文本也更加自然流畅。目前，它已成为扩散语言模型领域的绝对主流。

来自韩国科学技术院的研究者还提出了一种更为优雅的第三条路——黎曼扩散语言模型（RDLM）。他们借助黎曼几何，将离散的文字映射到一种弯曲的连续数学空间中，从而在保留语义完整性的前提下实现连续扩散，解决了传统连续方法中文字之间生硬"跳跃"的缺陷。这就好比，不再试图把球放在平面桌上滚动，而是为它设计了一个完美契合球体运动规律的弯曲轨道。

技术路线	代表模型	核心思想	优势与局限
连续空间 DLMs	Diffusion-LM, TESS 2	将离散 token 映射到连续嵌入空间进行加噪-去噪，再映射回离散词汇	可继承图像扩散的成熟技术，但存在语义映射损失
离散空间 DLMs	D3PM, LLaDA, Dream	直接在 token 层面操作，通过转移矩阵将 token 替换为 [MASK]，再逐步恢复	无语义损失，生成更符合语言习惯，已成为主流路线
黎曼几何 DLMs	RDLM	借助黎曼几何将离散文字映射到弯曲连续空间	平滑扩散路径，解决语义"跳跃"问题，理论优雅

> 📝 名词注解：[MASK] 标记 > > [MASK] 是 BERT 等模型中用于"完形填空"任务的特殊占位符。在掩码扩散模型中，它被赋予了新的含义：代表"尚未确定内容的位置"。整个生成过程，就是把一行全是 [MASK] 的序列，逐步替换成有意义文字的过程。

---

👑 王座的挑战者：LLaDA 的横空出世

2024年，中国人民大学高瓴人工智能学院的研究团队，投出了一枚震动 AI 界的石子。他们提出的 LLaDA（Large Language Diffusion with mAsking，大型语言掩码扩散模型），是第一个真正能与人类流畅对话的扩散大语言模型。

这个名字本身就是一个巧妙的双关——"LLaDA"读起来像"llama"（美洲驼），而 LLaMA 系列正是当前开源自回归语言模型的旗帜性代表。这份命名上的挑衅意味，透露了研究者们毫不掩饰的野心。

LLaDA 的核心思想，用一句话来概括，就是：用"双向上下文去掩码"替代"逐词元续写"。

让我们来想象这样一个场景：假如你是一位填字游戏的高手。自回归模型的做法，是从左到右，每次只看已经填好的格子，推测下一个格子里应该填什么。而 LLaDA 的做法，是先把所有格子都盖住，然后参考题目（也就是你的提问），同时观察所有被盖住的格子，慢慢地一个一个揭开，直到填完所有空格。

具体来说，LLaDA 的训练过程是这样的：

1. 给定一个"提问-回答"对话样本； 2. 对回答部分随机打上 [MASK]； 3. 训练模型学会：在看到提问和部分被遮盖的回答时，预测哪些位置应该是什么词语。

而在实际生成文本时，过程则反过来：

1. 从完全被 [MASK] 遮盖的回答出发； 2. 模型进行多轮"去噪"，每一轮根据提问和当前已知内容，推断出部分位置的词语； 3. 经过若干步骤，全部 [MASK] 被逐渐替换成实词，完整的回答浮出水面。

这一过程，犹如一位雕塑大师面对一块完整的大理石——自回归模型的雕塑家只能从左到右一刀一刀地凿，而 LLaDA 的雕塑家可以同时审视整块石头，然后全面地、整体地动刀，使得最终作品的各个部分天然协调。

LLaDA 在性能上的表现令业界刮目相看。 在 8B（80亿）参数规模下，它在多项主流基准测试中与 LLaMA3-8B 旗鼓相当——这位后起之秀直追经过大量工程优化、坐拥强大生态的自回归老将，本身就已是一个奇迹。更令人惊喜的是，在 GSM8K（小学数学推理）基准上，LLaDA 领先 LLaMA3-8B 整整 5%；而在"反向语言任务"（例如把句子倒过来写、按字母倒序排列等）上，它甚至超越了 OpenAI 的 GPT-4o。

> 📝 名词注解：GSM8K 基准 > > GSM8K（Grade School Math 8K）是一个包含 8000 道小学数学应用题的基准测试集，被广泛用于评估语言模型的数学推理和多步骤计算能力。能在此基准上取得较高分数，意味着模型具有相对可靠的逻辑推理链路。

---

🧩 群星闪耀：扩散语言模型的大家族

LLaDA 并非一枝独秀。在 2024–2025 年间，扩散语言模型领域涌现出了一批令人瞩目的工作，共同构成了这场革命的全景图。

Dream-7B，来自香港大学的团队，在 LLaDA 的基础上进行了更深入的工程优化与训练策略改进。测试显示，Dream-7B 在多个主流基准上同时超越了 LLaDA-8B 和 LLaMA3-8B，展现出更强的综合能力。这场自回归与扩散范式之间的竞赛，正变得越来越激烈。

工业界的入场，则给这场革命注入了另一股强劲的动力。Inception Labs 的 Mercury 和 Google DeepMind 的 Gemini Diffusion，分别是工业级闭源扩散语言模型的代表。这两款模型实现了令人咋舌的推理速度—— 每秒数千个 token ，性能已足以比肩 GPT-4 级别的系统。当科技巨头开始押注扩散路线，这场范式之战的走向，或许已经注定。

另一个值得关注的创新是 LLaDA-MoE 。2025年9月，研究团队为 LLaDA 引入了 稀疏混合专家（Sparse Mixture of Experts, MoE） 架构。在这一设计下，模型虽然总参数量巨大，但每次推理时只激活其中一小部分——仅激活 1.4B 参数，便达到了 3B 参数稠密自回归模型（Qwen2.5-3B）的性能水准。这意味着，扩散范式与 MoE 架构的结合，可能带来双重效率红利：*扩散的并行优势 × MoE 的稀疏计算优势*。

> 📝 名词注解：MoE（混合专家架构） > > MoE（Mixture of Experts）是一种神经网络架构，其中模型由多个"专家"子网络组成。对于每个输入，一个"路由器"只激活少数几个最相关的专家，而非所有参数——就像公司里不同领域的专家按需出场，而不是所有人同时开会。这种设计在保持模型能力的同时，大幅降低了单次推理的计算成本，是当前大模型扩展的重要趋势之一。

以下表格总结了当前主要扩散语言模型的对比：

模型名称	研究机构	参数规模	架构亮点	代表性成就
LLaDA-8B	中国人民大学	8B	掩码扩散，双向上下文	可对话扩散大模型先驱，GSM8K 超 LLaMA3-8B 5%
LLaDA-MoE	中国人民大学	稀疏 MoE	扩散 + 稀疏 MoE	仅激活 1.4B 达 Qwen2.5-3B 水平
Dream-7B	香港大学	7B	优化训练策略	多基准同时超越 LLaDA-8B 和 LLaMA3-8B
Mercury	Inception Labs	未公开	工业级闭源	每秒数千 token，GPT-4 级别性能
Gemini Diffusion	Google DeepMind	未公开	工业级闭源	Google 首个扩散语言大模型
RDLM	韩国科学技术院	—	黎曼几何扩散	解决离散文字的平滑扩散问题

---

⚡ 并行的觉醒：速度革命与推理加速

如果说性能是扩散语言模型的"颜值"，那么速度才是它最锋利的"武器"。

自回归模型有一个几乎无法克服的物理瓶颈：它必须逐个词语串行生成。生成一段1000个词的文本，就必须进行1000次前向推理，每一次都要等待上一次的结果。这就像一条只有单车道的高速公路，无论汽车的马力有多强，整体通行效率都受限于道路的结构本身。

而扩散语言模型，天然地支持并行生成——在每一轮去噪步骤中，模型可以同时预测所有被遮盖位置的词语，而不是一个一个地来。这就好比把单车道高速公路一下子拓展成了立交桥群，车辆可以同时在多个层次上流动。

这一结构优势，配合专门的加速技术，已经产生了惊人的效果：

步骤蒸馏（Step Distillation）：通过训练一个"学生模型"来模仿多步去噪的综合效果，将原本需要数十步的去噪过程压缩到几步甚至一步完成，类似于将一部漫长的侦探小说压缩成一个精准的摘要，效率大幅提升。
FreeCache 技术：研究者将原本专为自回归模型设计的 KV 缓存（Key-Value Cache）技术，创造性地移植到了扩散语言模型的半自回归解码流程中。通过缓存并复用已计算的中间状态，避免重复计算，实现了高达 34 倍的推理加速。
半自回归（Semi-autoregressive）折中方案：以 SSD-LM 为代表，它在"纯串行"的自回归和"完全并行"的全扩散之间找到一种平衡——将文本分成若干"块"，块内并行、块间串行，兼顾了生成灵活性和并行效率。

> 📝 名词注解：KV 缓存 > > KV 缓存（Key-Value Cache）是自回归推理的标准加速技术。在生成每个新词时，Transformer 模型需要计算所有前文词的"键"和"值"（Key/Value）向量。KV 缓存将这些向量保存下来，避免每次都重新计算，从而节省大量计算资源。将其移植到扩散模型，需要巧妙地处理扩散过程中序列内容不断变化的特点，是一项非平凡的工程创新。

---

🧠 扩散能"思考"吗？推理能力的进化

长期以来，扩散语言模型有一个被诟病的软肋：它与思维链（Chain-of-Thought, CoT） 推理的兼容性较差。

思维链推理，是现代大语言模型解决复杂问题的核心策略——让模型在给出最终答案之前，先"大声思考"，一步步写出推理过程。这一方法在自回归模型上效果卓越，但在扩散模型上却面临天然的阻碍：扩散模型倾向于并行生成所有内容，而推理链需要前面的步骤先于后面的步骤出现，这两者之间存在根本性的张力。

然而，研究者们并未轻易认输。一系列创新方案正在将这道鸿沟填平：

Diffusion-of-Thought（DoT） 是最具代表性的方案之一。它将推理过程中的每一个"想法"（thought）视为扩散过程中的中间噪声状态——这些"想法"并不是按严格顺序一个一个浮现，而是在扩散去噪的过程中 并行地、相互约束地 被推断出来，最终汇聚成一个逻辑自洽的推理链。这有点像几位侦探在同一时间分头调查不同线索，最后在圆桌上碰头，拼出完整的真相。

更具野心的突破来自 强化学习 方向。Diffu-GRPO 和 VRPO 等算法，将原本专为自回归模型设计的策略梯度优化和偏好优化（如 RLHF）框架，移植到了扩散语言模型的训练中。实验结果令人振奋：经过强化学习微调的扩散语言模型，在数学推理和代码生成任务上的表现得到了显著提升。

> 📝 名词注解：RLHF 与偏好优化 > > RLHF（Reinforcement Learning from Human Feedback，来自人类反馈的强化学习）是使 ChatGPT 等模型变得"听话、好用"的关键训练技术。简单说，就是让模型生成多个候选答案，由人类（或另一个AI）评估哪个更好，然后用这种偏好信号来优化模型。将其应用于扩散模型，需要解决"如何为扩散过程中的中间状态打分"这一根本性的理论问题，是当前对齐研究的前沿挑战。

这些进展表明：扩散模型的"思考"能力，不仅可以被培养，而且可能具备与自回归模型完全不同的内在优势 ——就像一个善于整体直觉的右脑画家，与一个擅长逻辑演绎的左脑数学家，两者各有千秋，而非高下之分。

---

🌈 多模态的融合：当语言遇见视觉与声音

语言只是世界信息的一个维度。人类的思维，是语言、视觉、声音、动作等多种模态交织而成的丰富织锦。扩散模型，在这方面展现出了令人期待的统一潜力。

MMaDA（Multimodal Masked Diffusion with Adaptive masking） 是一个雄心勃勃的统一多模态扩散模型。它在一个统一的扩散框架下，同时处理三种截然不同的任务：

任务类型	比较基线	MMaDA 表现
纯文本推理（问答、数学）	LLaMA3 系列	超越
多模态理解（看图说话、视觉问答）	Show-o	超越
文本条件图像生成	SDXL	超越

三种能力同时出现在一个模型中，而且每项都达到同级别最优——这正是统一架构的魔力所在。在 MMaDA 之前，这三项任务往往需要三个不同的专用模型分别完成。

LLaDA-V ，则是 LLaDA 向视觉-语言任务的自然延伸，使这头"语言扩散大模型"长出了一双"眼睛"，能够理解和处理图像与文字的混合输入。

在更具创意的应用方向上，ThinkDiff 提出了一种全新思路：将视觉语言模型（VLM）的"推理大脑"与扩散模型的"创作之手"结合起来。模型不再只是"看到什么描述什么"，而是能够进行视觉逻辑推理，然后基于推理结果创作图像 。举个例子：给它看一道逻辑谜题的图，它会先推理出答案，再把答案"画"出来。思维与创作，由此在扩散的框架下实现了前所未有的融合。

而在音频领域，DIFFA（Diffusion-based large Audio language model） ——第一个基于扩散模型的大型音频语言模型——在口语理解基准上超越了多个自回归基线，打开了扩散模型进军声学处理领域的大门。声音、文字、图像，正在扩散的旗帜下，缓缓汇聚成一个统一的大陆。

---

💻 走进现实：应用场景的蓬勃生长

理论突破最终要落地于实际应用，才能真正改变世界。扩散语言模型在几个关键应用场景中，已经展现出了不可忽视的潜力：

代码生成：填空的艺术

DiffuCoder 是扩散语言模型在代码生成领域的代表性探索。传统自回归模型写代码的方式，类似于一个程序员从函数第一行开始，一行一行往下写，写完才能"回头看"。而 DiffuCoder 利用扩散模型的双向上下文能力，能够更好地处理"代码补全"场景——比如，你已经写好了函数的开头和结尾，需要模型填充中间部分。这种"从两端向中间夹击"的策略，在逻辑上比只从一端出发更加自然。测试显示，DiffuCoder 在开源模型中取得了与人类评估水平相当的性能表现。

文本摘要：重要信息先行

InfoDiffusion 提出了一种"关键信息优先"的生成策略。在传统自回归模型中，文本按照时序顺序生成，关键信息可能被淹没在大量修饰性词语中间。InfoDiffusion 则通过扩散过程的特殊设计，让信息量更高、更重要的词语在去噪的早期步骤中优先被确定，更符合人类写作"先抓主旨，再丰富细节"的认知习惯。

智能体与实时交互

扩散语言模型在智能体（AI Agent）领域拥有天然优势：

并行规划：智能体在制定行动计划时，往往需要同时评估多个可能的行动路径。扩散模型的并行生成能力，使其能够在一次推理中"草稿"多个方案，然后整体优化。
双向一致性：在多轮对话和长文本任务中，因为能看到完整的上下文，扩散模型生成的回复与整体对话逻辑更加一致，不容易出现自回归模型有时会有的"前言不搭后语"。
实时性：Mercury 等工业级扩散语言模型实现的每秒数千 token 推理速度，已完全满足实时对话的需求。

---

🪨 道阻且长：仍待解决的深层挑战

当然，所有新范式的诞生，都伴随着尚未攻克的困难。扩散语言模型也不例外。坦率地说，要让它真正撼动自回归模型的统治地位，还有几块"硬骨头"要啃。

挑战一：长度灵活性的困境

自回归模型有一个隐藏的便利：你不需要事先告诉它"这个回答应该多长"——它会在认为内容说完之后，自然地生成一个"结束符"（EOS token），然后停下来。但扩散语言模型面临一个根本性的困难：非自回归并行生成，需要事先确定序列的长度。就像做填字游戏，你得先知道总共有多少格子，才能开始填。如果预设的长度比实际需要的短，内容会被强行截断；如果过长，则会产生很多无意义的填充。

半自回归（Semi-autoregressive）方法是目前最主流的折中方案，但如何实现"像自回归一样自然地'停手'，同时又享受并行生成的效率红利"，仍然是一个活跃的研究方向。

挑战二：量化部署的困境

在实际产品部署中，大模型往往需要经过量化（Quantization）处理——将模型参数从高精度浮点数压缩成低比特整数，大幅降低内存需求和推理延迟。然而，扩散语言模型的去噪过程中会产生大量激活异常值（Activation Outliers）——少量数值极大的中间激活值——这对低比特量化造成了严峻挑战。量化后的扩散模型往往性能损失比自回归模型更大，限制了其在手机端、边缘设备等资源受限环境中的部署。

挑战三：基础设施的历史欠账

过去十年，深度学习软件栈（PyTorch、TensorFlow 等）、硬件设计（GPU 的张量核心优化）、部署工具链（TensorRT、vLLM 等），都几乎以自回归模型为中心进行优化。扩散语言模型在这方面是一个新来者，缺乏专门的高效推理引擎和硬件加速支持。这就好比，为汽油车建造的加油站和维修厂，并不能直接为电动汽车服务——整个基础设施需要重新布局。

这一"历史欠账"意味着，即使扩散语言模型在理论上具备效率优势，在实际系统部署中，它的性能往往被不成熟的工具链所拖累，与经过高度优化的自回归推理框架相比，仍有差距需要弥补。

---

🔮 未来已来：扩散范式的命运走向

回望整个科技史，每一次真正的范式转换，总是伴随着既有秩序的剧烈震荡和新势力的艰难崛起。从真空管到晶体管，从机械硬盘到固态硬盘，从 CNN 到 Transformer——每一次，人们都曾怀疑新生者能否撼动成熟系统的根基，而每一次，历史都给出了令人惊叹的答案。

LLaDA、Dream、Mercury、Gemini Diffusion……这些名字正在告诉我们：扩散范式不再是实验室里的玩具，它已经成长为可以与自回归模型正面交锋的竞争者。

展望未来，以下几个方向将决定这场范式之战的走向：

1. 规模化的持续验证（Scaling Law）

LLaDA 的 8B 参数版本已经证明，扩散范式可以扩展到大模型规模且性能可观。但这一范式能否随着参数量继续增长而持续提升——是否存在属于自己的"扩展定律"——仍需大量实验来验证。如果扩散语言模型拥有比自回归模型更陡峭的"参数-性能"增益曲线，那么这场竞争的胜负走向将截然不同。

2. 统一多模态框架的成熟

MMaDA 等工作已经证明，扩散框架在多模态统一方面具有天然的优雅性——文本、图像、音频都可以在同一套"去噪"框架下处理。随着这一方向的深入探索，扩散语言模型可能成为真正统一的多模态大模型的底层架构首选。

3. 与强化学习的深度融合

Diffu-GRPO 等工作初步展示了将强化学习与扩散语言模型结合的可能性。随着对齐技术（AI Alignment）在 AI 安全与实用性中越来越重要，探索更高效的扩散模型对齐算法，将是极具价值的研究方向。

4. 专用硬件与系统优化的破局

从长远来看，对扩散推理模式的原生硬件支持，将是释放其速度潜力的关键。如果芯片厂商和软件框架开发者开始为扩散语言模型量身定制优化方案，今天工具链层面的劣势将快速消失。

> 💡 最后的预言 > > 也许，自回归与扩散之间的竞争，并不会以一方彻底消灭另一方为终局。更可能的未来，是两种范式各司其职：自回归模型凭借其成熟的工具链和出色的流式输出体验，继续主宰实时对话场景；而扩散模型凭借其并行性和双向上下文能力，在代码补全、文档生成、创意写作、多智能体系统等需要"整体规划"的场景中大放异彩。 > > 无论如何，语言模型的世界，正在变得比以往任何时候都更加精彩。

---

🎬 尾声：从噪声到思想，从混沌到秩序

1944年，物理学家薛定谔在《生命是什么》中写道：生命以负熵为食——在热力学混乱趋向于增大的宇宙里，生命通过不断从环境中汲取秩序，对抗熵增，维持自身的有序结构。

扩散语言模型，何尝不是这一哲学的数字隐喻？

它从一片完全被 [MASK] 遮盖的混沌起点出发，汲取题目（问题）所提供的"秩序之光"，一步一步将混沌转化为有意义的语言，将噪声雕刻成思想。

自回归模型是在时间流中前行的旅行者，它的每一步都由过去所定义，无法回头，无法纵观全局。而扩散语言模型，更像是一位冥想中的诗人——它首先凝视整个世界，感受一切可能性的振动，然后，从混沌之中，缓缓地、整体地，将一首诗从虚无中唤醒。

当我们谈论 AI 的未来，我们不只是在讨论参数量、基准测试分数和推理速度。我们真正在追问的，是一个更深邃的问题：机器的思考方式，应该更像流水，还是更像雕塑？

而扩散语言模型，正在以自己的方式，给出一个前所未有的答案。

---

📚 参考文献

1. Nie, S., Zhu, F., Du, C., et al. (2025). *LLaDA: Large Language Diffusion with Masking.* arXiv preprint arXiv:2502.09992. 中国人民大学高瓴人工智能学院. ——首个可对话扩散大语言模型，掩码扩散范式的奠基性工作。

2. Du, Y., Li, S., Torralba, A., et al. (2023). *Diffusion-of-Thought: Chain-of-Thought Reasoning in Diffusion Language Models.* arXiv preprint arXiv:2402.07754. ——将推理链与扩散生成过程相融合的开创性探索。

3. Zhao, Z., Li, M., Huang, Z., et al. (2025). *MMaDA: Multimodal Large Diffusion Language Models.* arXiv preprint. ——统一多模态扩散语言模型，同时在文本推理、多模态理解和图像生成三项任务上超越各领域基线模型。

4. Ye, J., Guo, Z., Li, Y., et al. (2025). *Dream: Efficient Diffusion Language Model with Reasoning Enhancement.* arXiv preprint. 香港大学. ——扩散语言模型推理能力优化的代表性工作，多基准同时超越 LLaDA-8B 与 LLaMA3-8B。

5. Austin, J., Johnson, D. D., Ho, J., et al. (2021). *Structured Denoising Diffusion Models in Discrete State-Spaces (D3PM).* *NeurIPS 2021.* ——离散空间扩散模型的奠基性理论工作，LLaDA 等现代掩码扩散模型的直接理论前身。

---