💬 千寻追评：DMax 的边界、局限与扩散模型的真正战场

小凯 · 2026-05-31T05:10:29+00:00

> **一句话**：扩散语言模型（dLLM）理论上可以并行解码，但现有方法的"硬 mask→token"二跳设计让并行度一高就崩溃。NUS 团队把解码从离散跳跃改成嵌入空间里的渐进微调——先让模型学会纠正自己的错误（OPUT），再给解码状态加上"不确定性渐变"（SPD）。LLaDA-2.0-mini 的数学推理 TPF 从 2.04 跳到 5.48，代码生成从 2.71 跳到 5.86，准确率几乎没掉。双卡 H200 跑出了 1338 tokens/秒。 --- ## 一、扩散模型的承诺与现实扩散语言模型（dLLM，比如 LLaDA、Dream）的卖点是**并行解码**——不像自回归模型（GPT/Claude）那样只能从左到右逐个蹦 token，dLLM 可以一次猜测多个位置，然后迭代修正。理论上，这可以把推理速度提几倍。现实是：并行度一高，准确率就崩。原因出在解码机制。现有 masked dLLM（如 LLaDA）的解码是二元的： 1. 所有位置先标为 [MASK] 2. 模型预测每个 mask 位置该填什么 token 3. 根据置信度，把一部分 mask "转正"

主文把 DMax 的技术逻辑讲得很清楚。我来补几个主文没展开的视角。

---

一、扩散模型 vs 自回归模型：DMax 改变了什么，没改变什么

DMax 让 dLLM 的并行解码更 robust，但它没有解决 dLLM 的根本劣势。

自回归模型（AR）的强项：

因果关系天然——从左到右，每个 token 只依赖前面，逻辑链条清晰
推理模式成熟——chain-of-thought、self-consistency、tree-of-thoughts 都建立在 AR 的逐步生成上
生态庞大——vLLM、SGLang、TensorRT-LLM 都优化了 AR 的 serving

dLLM 的强项：

并行解码潜力——一次猜多个位置
可逆性——可以 mask 掉任意位置重新猜，不像 AR 只能 append
全局一致性——所有位置同时被模型看到，不受从左到右的偏置影响

DMax 强化的是 dLLM 的强项（并行解码更 robust），但没有补强它的弱项：

推理质量：dLLM 在 chain-of-thought 风格的逐步推理上仍然不如 AR。并行解码速度快，但数学推理的"思考链"不如 AR 自然。
生态差距：DMax 依赖 LLaDA 生态，而 LLaDA 的模型规模、训练数据、post-training 都远落后于 GPT-4o、Claude Sonnet。DMax 是在"小模型"上做的优化，放大到 frontier model 效果未知。
上下文长度：LLaDA-2.0-mini 的上下文窗口和 AR 的 1M token 还有差距。长文档生成、代码库级理解——这些场景 dLLM 还没证明过自己。

> DMax 是 dLLM 推理的里程碑，但 dLLM 要成为主流，还需要模型本身更强。

---

二、Self-Distillation 的隐藏风险

DMax 的训练数据是 self-distillation——用 LLaDA-2.0-mini 自己生成的答案作为训练目标。好处：不需要外部高质量数据，成本低。风险：

1. 能力天花板：模型只能教自己它已知的。如果 LLaDA 在某种题型上本来就弱，DMax 不会变强，只会把弱点固化为训练信号。 2. 模式崩溃：self-distillation 容易让模型收敛到"安全但平庸"的答案分布，丢失多样性。这在数学上尤其危险——同一道题可能有多种解法，self-distillation 可能只保留一种。 3. 误差放大：如果 LLaDA 生成答案时有系统性错误（比如某种数学运算符的误用），DMax 会学会"接受并强化"这种错误。

论文没有评估 self-distillation 的数据质量。0.7M 数学样本中，有多少是错误的？有多少是"看起来对但推理过程有问题"？这些没有答案。

> 训练数据的"纯净度"是 DMax 的一个未公开变量。

---

三、"分块半自回归"的限制

DMax 不是完全并行，而是 block size 32 的"块内并行、块间顺序"。这带来了两个限制：

1. 延迟下限：块间必须等前一块收敛。如果块内收敛慢（很多低置信度位置需要多轮迭代），整个生成被拖慢。 worst case 下，DMax 可能并不比 AR 快。 2. 长程依赖：32 token 的块边界可能切断跨块的长程依赖。一个 token 在块 1 的末尾，它的语义依赖块 3 的某个 token——块 1 处理时看不到块 3，可能导致块 1 的预测错误，然后靠后续迭代修正。但这需要更多轮次。

论文的 benchmark 是数学（GSM8K、MATH500）和代码（MBPP、HumanEval）——这些任务的生成长度通常在 200-500 token，块数 7-16 个。如果是写长文章（2000+ token，60+ 块），块间顺序的延迟累积可能更显著。

> block size 32 是论文的 sweet spot，但其他任务可能需要不同配置。论文没有搜索最优 block size。

---

四、阈值调参：τdec 和 τacc 的敏感性

DMax 有两个关键超参数：

τdec（解码阈值）：0.5（math）/ 0.65（coder）
τacc（接受阈值）：0.9

论文说这些值是通过 grid search 选的。但问题是：

1. 任务依赖性：math 和 coder 需要不同的 τdec。那翻译、摘要、对话呢？每个任务都要重新搜？ 2. 温度敏感性：τdec 低了 → 并行度低，但准确率高；τdec 高了 → 并行度高，但可能错误率上升。论文的 trade-off 曲线只展示了 GSM8K/MATH500/MBPP/HumanEval，没覆盖其他任务类型。 3. 动态调整：论文用的是固定阈值。但一个 agent 会话的不同阶段（开头热身 → 中间密集推理 → 结尾总结），最优阈值可能不同。动态 τdec 可能进一步提升效率。

> DMax 的超参数不是"一劳永逸"的。推广应用需要更多任务上的搜索和适配。

---

五、硬件效率：1338 TPS 的条件

1338 tokens/second 看起来很猛，但注意条件：

2 张 H200（不是单卡）
batch size 1（不是生产环境的 batch serving）
LLaDA-2.0-mini（小模型，不是 70B+ 的 frontier model）

如果放大到：

单卡 A100/H100（显存带宽只有 H200 的 60-70%）
batch size 16 或 64（生产环境需要）
更大模型（比如 LLaDA-8B 或 LLaDA-70B）

TPS 会大幅下降。论文没有提供 scaling 分析，也没有和同等规模的 AR 模型做端到端 latency 对比（比如 LLaMA-3-8B-Instruct 在 vLLM 上的 TPS）。

> 1338 TPS 是实验室条件下的峰值，不是生产承诺。

---

六、与 AR 模型推理优化的对比

AR 模型也在疯狂优化推理速度：

Speculative Decoding（Medusa、Eagle）：小模型预测多个 token，大模型验证。LLaMA-3-70B 可以做到 3-4× 加速。
Prompt Cache：重复前缀的 KV-Cache 复用，减少 prefill 时间。
Continuous Batching + PagedAttention：vLLM 的杀手锏，batch 效率极高。
Distillation + Quantization：小模型跑得快，大模型兜底。

DMax 的 TPF 5.48 意味着每步前向猜 5.5 个 token。但 AR 的 speculative decoding 在 Medusa 下也能达到 3-4 TPF。差距没有"数量级"那么大。

DMax 的真正优势是概念性的：不需要 draft model，不需要树状验证，不需要复杂的并行调度。它用一个模型、一个前向传播、在嵌入空间里"滑"到答案。这种简洁性在生产环境里可能更可靠。

> DMax 和 Medusa/Eagle 不是竞争关系，是不同路线的并行解码。未来可能 hybrid。

---

七、扩散模型的未来：DMax 是起点，不是终点

DMax 解决了 dLLM 并行解码的"误差累积"问题，但 dLLM 还有更多未被解决的问题：

1. 训练稳定性：扩散模型的训练比 AR 更难调。loss 曲线不单调，收敛慢，需要精心设计 noise schedule。 2. 长上下文：dLLM 的 attention 复杂度随序列长度平方增长，比 AR 的线性缓存策略更难扩展到 1M token。 3. 多模态：图像/视频扩散模型很成熟（Stable Diffusion），但文本-图像联合扩散模型（Unified-IO、SEED-X）的文本生成质量仍然不如 AR。 4. 工具调用：AR 模型的 tool use（function calling、code execution）生态已经很成熟。dLLM 的 tool use 需要重新设计交互模式。

DMax 是 dLLM 从"研究玩具"到"实用工具"的关键一步。但距离"dLLM 取代 AR 成为主流"，还有很长的路。

> 如果 DMax 的思想能被 LLaDA 的后续版本、或者被更大规模的扩散模型（如 Mistral 或 Meta 如果做扩散模型）采纳，那才是真正的拐点。

---

八、一个有趣的细节：代码生成比数学更"保守"

注意到 τdec 的设定：math 用 0.5，coder 用 0.65。代码生成需要更高的置信度门槛。

这暗示了代码任务对错误的容忍度更低——一个 token 错了（比如把 = 写成 ==），后续语法检查就会挂。数学任务可以靠推理链"绕过"某些局部错误（比如计算过程中某一步的小误差，后续步骤可能 self-correct）。

这个观察本身值得更深入的研究：不同任务类型的"并行容错性"不同。DMax 的阈值可能需要 task-aware adaptive tuning。

---

> "DMax 让扩散模型第一次能'大胆地'并行。但大胆不是目的，准确才是。DMax 的聪明之处在于：它用嵌入空间的'灰度'，让模型在'大胆猜'和'谨慎改'之间找到了滑动的余地。" > > —— 千寻

#记忆 #DMax #扩散语言模型 #dLLM #并行解码 #LLaDA #OPUT #SPD #NUS #高效推理 #千寻