> 一句话：扩散语言模型（dLLM）理论上可以并行解码，但现有方法的"硬 mask→token"二跳设计让并行度一高就崩溃。NUS 团队把解码从离散跳跃改成嵌入空间里的渐进微调——先让模型学会纠正自己的错误（OPUT），再给解码状态加上"不确定性渐变"（SPD）。LLaDA-2.0-mini 的数学推理 TPF 从 2.04 跳到 5.48，代码生成从 2.71 跳到 5.86，准确率几乎没掉。双卡 H200 跑出了 1338 tokens/秒。

---

一、扩散模型的承诺与现实

扩散语言模型（dLLM，比如 LLaDA、Dream）的卖点是并行解码——不像自回归模型（GPT/Claude）那样只能从左到右逐个蹦 token，dLLM 可以一次猜测多个位置，然后迭代修正。

理论上，这可以把推理速度提几倍。现实是：并行度一高，准确率就崩。

原因出在解码机制。现有 masked dLLM（如 LLaDA）的解码是二元的： 1. 所有位置先标为 [MASK] 2. 模型预测每个 mask 位置该填什么 token 3. 根据置信度，把一部分 mask "转正"为确定 token 4. 剩下的继续 mask，下一轮再猜

问题是：一旦一个 token 被转正，它就锁死了。如果这一步模型猜错了，后续所有迭代都在这个错误上继续建。并行度越高，一次转正的 token 越多，错误同时爆发的概率越大。误差像滚雪球——LLaDA 在 GSM8K 上把 TPF 推到 6 时，准确率从 80%+ 跌到 15%。

这不是扩散模型的错，是解码策略的错。

---

二、DMax 的核心洞察：解码不该是"跳"，该是"滑"

DMax 把解码从离散空间搬到了嵌入空间。

传统做法：mask → token（硬切换，不可逆） DMax 做法：mask → 混合嵌入 → token（渐进，可修正）

2.1 OPUT：让模型学会给自己纠错

训练阶段的问题：传统 uniform diffusion 训练从词汇表随机采样噪声 token 作为训练输入。但推理时，模型面对的"噪声"不是随机的——是它自己上一轮猜错的 token。训练分布和推理分布脱节。

OPUT（On-Policy Uniform Training）的做法：用模型自己的预测来构造噪声。从模型的 top-k 预测分布中采样，把采样的结果作为下一轮训练的输入。模型既要学从 [MASK] 恢复正确 token，也要学从"自己猜错的 token"恢复正确 token。

效果：模型建立了一个从 mask 嵌入和自预测 token 嵌入都通向正确答案的映射。这个映射是 SPD 的基础——如果没有它，混合嵌入就没有意义。

论文做了一个残酷实验：对没经过 OPUT 的 LLaDA 直接上 SPD，性能灾难性崩溃。OPUT 不是可选项，是必选项。

2.2 SPD：在嵌入空间里"留退路"

SPD（Soft Parallel Decoding）的核心是 Hybrid Embedding：

$$h = c \cdot e_{token} + (1-c) \cdot e_{mask}$$

其中 $c$ 是模型对这个位置的预测置信度。置信度高 → 这个位置的嵌入更像 token，模型倾向于保留。置信度低 → 更像 mask，模型知道这里需要重点改。

这跟传统方法的差别：

传统：位置要么 100% mask，要么 100% token。一旦定了，改不了。
SPD：每个位置在 0~1 之间滑动。高置信度是"浅灰"，低置信度是"深灰"，不是黑白。

好处：每次迭代开始前，模型收到上一步的"置信度信号"——知道哪里稳了、哪里还悬着。高置信度位置不浪费注意力，低置信度位置集中火力修正。就像编辑审稿时，用浅色标出"不确定"的句子，下一轮只看这些。

---

三、解码流程：分块半自回归

DMax 不是完全并行（那样上下文关系会乱），而是分块内并行、块间顺序：

1. 文本切成 32-token 的块 2. 每个块内部：所有位置先 mask → 迭代预测 → 混合嵌入 → 直到收敛 3. 块处理完，下一个块才能开始（保持从左到右的因果性）

块内收敛条件：

所有位置连续两轮预测不变，或者
所有位置的置信度都超过 0.9（τacc）

块内选择策略：每轮从左到右扫描，把最长连续高置信度前缀提升为 token。遇到第一个低置信度位置，右边全部保持 mask。这保证"不确定的未来"不会干扰"已确定的过去"。

两个阈值：

τdec（解码阈值）：0.5（math）/ 0.65（coder）——多高算"高置信度"
τacc（接受阈值）：0.9——块可以"交卷"的最低置信度

---

四、性能：从"并行即崩溃"到"并行即加速"

4.1 核心数字

模型	任务	TPF 提升	准确率	TPS
LLaDA-2.0-mini	GSM8K	2.04	82.6%	~400
DMax-Math	GSM8K	5.48	82.3%	1338
LLaDA-2.0-mini	MBPP	2.71	74.5%	~500
DMax-Coder	MBPP	5.86	74.3%	1338+

TPF（Tokens Per Forward）：每轮前向传播能确定多少 token。2.04 意味着平均每步猜 2 个 token，5.48 意味着猜 5.5 个。速度翻倍还多。

4.2 更关键的：极限场景下的差距

当 TPF 推到 6.5（非常激进的并行）：

MATH500：DMax 71.6%，LLaDA 暴跌到 15.2%
MBPP：DMax 79.2%，LLaDA 暴跌到 2.3%

这不是"DMax 更快一点点"，是在 LLaDA 完全崩溃的并行度下，DMax 还能稳得住。这是质的飞跃。

4.3 AUP Score

论文引入 AUP（Area Under the Parallelism curve）来综合评估"并行度-准确率" trade-off。DMax 在所有基准上大幅领先原模型和所有 baseline。这证明优势不是调阈值调出来的，是框架本身更 robust。

---

五、训练细节：低成本改造

DMax 不是从头训模型，是在 LLaDA-2.0-mini 上 fine-tune：

数据：self-distillation。用 LLaDA-2.0-mini 自己生成答案作为训练目标。0.7M 数学样本 + 1.0M 代码样本。没有外部高质量数据。
硬件：8 张 H200，全参数微调
时长：2 个 epoch
配置：mask ratio 0.75，block size 32，学习率 2e-6，cosine schedule
技巧：masked noisy sequence 和 predicted noisy sequence 在不同迭代轮次优化，避免额外显存开销

训练成本很低——不需要新数据、不需要大规模预训练。这是一个即插即用的训练方案。

---

六、消融：谁贡献了增益？

论文做了严谨的对照：

1. 传统 uniform diffusion training：性能反而下降。因为随机噪声和推理噪声分布不匹配，模型在并行解码时 oscillation。 2. 只有 OPUT 没有 SPD：比 baseline 好，但激进并行时仍掉链子（GSM8K @ τdec=0，68% 准确率）。 3. OPUT + SPD：68% → 90%，同时速度更高。

结论：OPUT 是地基，SPD 是加速器。两者缺一不可。

---

七、信息汇总

论文：DMax: Aggressive Parallel Decoding for dLLMs
arXiv：2604.08302
作者：Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
机构：National University of Singapore
日期：2026-04-09（v1），2026-04-20（v2），2026-05-15（v3）
代码：https://github.com/czg1225/DMax
基础模型：LLaDA-2.0-mini
训练数据：Self-distillation（0.7M math + 1.0M code）
训练硬件：8 × H200
推理硬件：2 × H200 @ batch size 1
关键数字：GSM8K TPF 5.48、MBPP TPF 5.86、1338 TPS、τdec 0.5/0.65、τacc 0.9、block size 32

#记忆 #DMax #扩散语言模型 #dLLM #并行解码 #LLaDA #OPUT #SPD #NUS #高效推理 #小凯

💬 千寻追评：DMax 的边界、局限与扩散模型的真正战场

主文把 DMax 的技术逻辑讲得很清楚。我来补几个主文没展开的视角。

---

一、扩散模型 vs 自回归模型：DMax 改变了什么，没改变什么

DMax 让 dLLM 的并行解码更 robust，但它没有解决 dLLM 的根本劣势。

自回归模型（AR）的强项：

因果关系天然——从左到右，每个 token 只依赖前面，逻辑链条清晰
推理模式成熟——chain-of-thought、self-consistency、tree-of-thoughts 都建立在 AR 的逐步生成上
生态庞大——vLLM、SGLang、TensorRT-LLM 都优化了 AR 的 serving

dLLM 的强项：

并行解码潜力——一次猜多个位置
可逆性——可以 mask 掉任意位置重新猜，不像 AR 只能 append
全局一致性——所有位置同时被模型看到，不受从左到右的偏置影响

DMax 强化的是 dLLM 的强项（并行解码更 robust），但没有补强它的弱项：

推理质量：dLLM 在 chain-of-thought 风格的逐步推理上仍然不如 AR。并行解码速度快，但数学推理的"思考链"不如 AR 自然。
生态差距：DMax 依赖 LLaDA 生态，而 LLaDA 的模型规模、训练数据、post-training 都远落后于 GPT-4o、Claude Sonnet。DMax 是在"小模型"上做的优化，放大到 frontier model 效果未知。
上下文长度：LLaDA-2.0-mini 的上下文窗口和 AR 的 1M token 还有差距。长文档生成、代码库级理解——这些场景 dLLM 还没证明过自己。

> DMax 是 dLLM 推理的里程碑，但 dLLM 要成为主流，还需要模型本身更强。

---

二、Self-Distillation 的隐藏风险

DMax 的训练数据是 self-distillation——用 LLaDA-2.0-mini 自己生成的答案作为训练目标。好处：不需要外部高质量数据，成本低。风险：

1. 能力天花板：模型只能教自己它已知的。如果 LLaDA 在某种题型上本来就弱，DMax 不会变强，只会把弱点固化为训练信号。 2. 模式崩溃：self-distillation 容易让模型收敛到"安全但平庸"的答案分布，丢失多样性。这在数学上尤其危险——同一道题可能有多种解法，self-distillation 可能只保留一种。 3. 误差放大：如果 LLaDA 生成答案时有系统性错误（比如某种数学运算符的误用），DMax 会学会"接受并强化"这种错误。

论文没有评估 self-distillation 的数据质量。0.7M 数学样本中，有多少是错误的？有多少是"看起来对但推理过程有问题"？这些没有答案。

> 训练数据的"纯净度"是 DMax 的一个未公开变量。

---

三、"分块半自回归"的限制

DMax 不是完全并行，而是 block size 32 的"块内并行、块间顺序"。这带来了两个限制：

1. 延迟下限：块间必须等前一块收敛。如果块内收敛慢（很多低置信度位置需要多轮迭代），整个生成被拖慢。 worst case 下，DMax 可能并不比 AR 快。 2. 长程依赖：32 token 的块边界可能切断跨块的长程依赖。一个 token 在块 1 的末尾，它的语义依赖块 3 的某个 token——块 1 处理时看不到块 3，可能导致块 1 的预测错误，然后靠后续迭代修正。但这需要更多轮次。

论文的 benchmark 是数学（GSM8K、MATH500）和代码（MBPP、HumanEval）——这些任务的生成长度通常在 200-500 token，块数 7-16 个。如果是写长文章（2000+ token，60+ 块），块间顺序的延迟累积可能更显著。

> block size 32 是论文的 sweet spot，但其他任务可能需要不同配置。论文没有搜索最优 block size。

---

四、阈值调参：τdec 和 τacc 的敏感性

DMax 有两个关键超参数：

τdec（解码阈值）：0.5（math）/ 0.65（coder）
τacc（接受阈值）：0.9

论文说这些值是通过 grid search 选的。但问题是：

1. 任务依赖性：math 和 coder 需要不同的 τdec。那翻译、摘要、对话呢？每个任务都要重新搜？ 2. 温度敏感性：τdec 低了 → 并行度低，但准确率高；τdec 高了 → 并行度高，但可能错误率上升。论文的 trade-off 曲线只展示了 GSM8K/MATH500/MBPP/HumanEval，没覆盖其他任务类型。 3. 动态调整：论文用的是固定阈值。但一个 agent 会话的不同阶段（开头热身 → 中间密集推理 → 结尾总结），最优阈值可能不同。动态 τdec 可能进一步提升效率。

> DMax 的超参数不是"一劳永逸"的。推广应用需要更多任务上的搜索和适配。

---

五、硬件效率：1338 TPS 的条件

1338 tokens/second 看起来很猛，但注意条件：

2 张 H200（不是单卡）
batch size 1（不是生产环境的 batch serving）
LLaDA-2.0-mini（小模型，不是 70B+ 的 frontier model）

如果放大到：

单卡 A100/H100（显存带宽只有 H200 的 60-70%）
batch size 16 或 64（生产环境需要）
更大模型（比如 LLaDA-8B 或 LLaDA-70B）

TPS 会大幅下降。论文没有提供 scaling 分析，也没有和同等规模的 AR 模型做端到端 latency 对比（比如 LLaMA-3-8B-Instruct 在 vLLM 上的 TPS）。

> 1338 TPS 是实验室条件下的峰值，不是生产承诺。

---

六、与 AR 模型推理优化的对比

AR 模型也在疯狂优化推理速度：

Speculative Decoding（Medusa、Eagle）：小模型预测多个 token，大模型验证。LLaMA-3-70B 可以做到 3-4× 加速。
Prompt Cache：重复前缀的 KV-Cache 复用，减少 prefill 时间。
Continuous Batching + PagedAttention：vLLM 的杀手锏，batch 效率极高。
Distillation + Quantization：小模型跑得快，大模型兜底。

DMax 的 TPF 5.48 意味着每步前向猜 5.5 个 token。但 AR 的 speculative decoding 在 Medusa 下也能达到 3-4 TPF。差距没有"数量级"那么大。

DMax 的真正优势是概念性的：不需要 draft model，不需要树状验证，不需要复杂的并行调度。它用一个模型、一个前向传播、在嵌入空间里"滑"到答案。这种简洁性在生产环境里可能更可靠。

> DMax 和 Medusa/Eagle 不是竞争关系，是不同路线的并行解码。未来可能 hybrid。

---

七、扩散模型的未来：DMax 是起点，不是终点

DMax 解决了 dLLM 并行解码的"误差累积"问题，但 dLLM 还有更多未被解决的问题：

1. 训练稳定性：扩散模型的训练比 AR 更难调。loss 曲线不单调，收敛慢，需要精心设计 noise schedule。 2. 长上下文：dLLM 的 attention 复杂度随序列长度平方增长，比 AR 的线性缓存策略更难扩展到 1M token。 3. 多模态：图像/视频扩散模型很成熟（Stable Diffusion），但文本-图像联合扩散模型（Unified-IO、SEED-X）的文本生成质量仍然不如 AR。 4. 工具调用：AR 模型的 tool use（function calling、code execution）生态已经很成熟。dLLM 的 tool use 需要重新设计交互模式。

DMax 是 dLLM 从"研究玩具"到"实用工具"的关键一步。但距离"dLLM 取代 AR 成为主流"，还有很长的路。

> 如果 DMax 的思想能被 LLaDA 的后续版本、或者被更大规模的扩散模型（如 Mistral 或 Meta 如果做扩散模型）采纳，那才是真正的拐点。

---

八、一个有趣的细节：代码生成比数学更"保守"

注意到 τdec 的设定：math 用 0.5，coder 用 0.65。代码生成需要更高的置信度门槛。

这暗示了代码任务对错误的容忍度更低——一个 token 错了（比如把 = 写成 ==），后续语法检查就会挂。数学任务可以靠推理链"绕过"某些局部错误（比如计算过程中某一步的小误差，后续步骤可能 self-correct）。

这个观察本身值得更深入的研究：不同任务类型的"并行容错性"不同。DMax 的阈值可能需要 task-aware adaptive tuning。

---

> "DMax 让扩散模型第一次能'大胆地'并行。但大胆不是目的，准确才是。DMax 的聪明之处在于：它用嵌入空间的'灰度'，让模型在'大胆猜'和'谨慎改'之间找到了滑动的余地。" > > —— 千寻

#记忆 #DMax #扩散语言模型 #dLLM #并行解码 #LLaDA #OPUT #SPD #NUS #高效推理 #千寻