扩散语言模型的效率革命：FreeCache 技术深度解读

*—— 当扩散模型学会"记住"过去*

---

扩散语言模型（DLM）一直有个尴尬的身份：理论上很强，实际用起来很慢。

就像一辆概念车——外观炫酷，性能指标惊人，但真要上路，油耗高得吓人。

问题出在哪？

扩散模型的生成方式是"全序列多次去噪"。每一步都要对整个序列（prompt + 已生成部分）做一次完整的 forward pass。生成 100 个 token？可能需要 50 步 × 100 个位置 = 5000 次完整的 attention 计算。

相比之下，自回归模型（如 GPT）虽然也是逐个生成，但它有个杀手锏：KV Cache。一旦生成了第 N 个 token，它的 key 和 value 就被缓存起来，后续生成永远不用再算。

FreeCache 的核心创新：把 KV Cache 的思想"移植"到扩散模型。

---

一、观察：已确定 token 的 KV 很稳定

FlashDLM 的研究者发现了一个关键现象：

> 在扩散模型的去噪过程中，已确定 token（或 block）的 KV 投影在后续步骤中非常稳定。

换句话说，future tokens 对 earlier positions 的影响会快速衰减。

这就像你在写一篇文章：

开头已经写好的段落，不太会因为后面要写什么而改变
当前正在写的句子，受上下文影响最大
还没写的部分，暂时不需要考虑

这个观察是 FreeCache 的基石。

---

二、核心机制：Block 级别的 KV 复用

FreeCache 把生成序列分成固定大小的 block（比如每块 32 或 64 个 token），采用类似半自回归的分块处理策略。

初始步骤：全量计算

第一步，对整个序列做一次完整的 forward pass，计算所有位置的 KV。

后续步骤：增量计算 + KV 冻结

从第二步开始，采用"增量计算"策略：

1. 已完成 block：KV 被"冻结"，直接复用，不再重新计算 2. 当前活跃 block：重新计算 attention 和 FFN 3. 未完成 block：继续参与计算，但只计算必要的部分

随着 block 逐步完成，活跃计算窗口不断缩小，计算量从 O(L) 逐步下降。

可视化

步骤 1: [Block1][Block2][Block3][Block4][Block5]  ← 全量计算
步骤 2: [Block1][Block2][Block3][Block4][Block5]  ← Block1 冻结，其余重算
步骤 3: [Block1][Block2][Block3][Block4][Block5]  ← Block1-2 冻结，其余重算
步骤 4: [Block1][Block2][Block3][Block4][Block5]  ← Block1-3 冻结，其余重算
...

这就像砌墙：

底层砖块一旦固定，就不需要再动
你只需要关注当前正在砌的那一层
随着墙越来越高，需要关注的地方越来越少

---

三、技术细节：如何实现 KV 冻结？

3.1 稳定性条件

FreeCache 设定了一个简单的启发式规则：

> 如果某个 token 在连续 K 个去噪步骤中保持不变（unmasking 过程中一直是确定状态），则认为它"稳定"了，可以冻结其 KV。

这个 K 通常取 2-3，在实践中效果很好。

3.2 注意力掩码设计

冻结 KV 后，注意力计算需要特殊处理：

Query：来自当前活跃区域
Key/Value：来自冻结区域（缓存）+ 活跃区域（重新计算）

这需要一个动态的注意力掩码，确保：

活跃 token 可以看到所有上下文（包括冻结的）
冻结 token 不再参与计算（节省算力）

3.3 与半自回归生成的结合

FreeCache 天然适合半自回归（semi-autoregressive）生成：

半自回归：把序列分成块，块内并行，块间串行
FreeCache：块完成后冻结 KV，后续步骤只处理未完成块

两者结合，实现了 semi-autoregressive-like efficiency。

---

四、实验结果：速度飞跃，精度无损

4.1 单独 FreeCache 的效果

模型	最高加速比	精度损失
Dream-7B-Instruct	4.42×	GSM8K 等基准下降 1-2%
LLaDA-8B-Instruct	6.32×	几乎无损

关键发现：

加速比随序列长度增加而提升（长文本收益更大）
精度损失极小，在很多任务上甚至无感知

4.2 FreeCache + Guided Diffusion 的组合拳

Guided Diffusion 是另一个训练-free 的优化技术：

用一个轻量级 AR 模型（如 Qwen2.5-0.5B）指导 DLM 的 unmasking 过程
AR 模型快速生成草稿，DLM 在此基础上 refine

两者结合的效果：

任务	平均加速比	最长上下文加速
MMLU-PRO / GSM8K / PiQA 等	12.14×	-
GSM8K 8-shot（生成长度 256）	-	34.1×

具体数据：

延迟从 14.62s 降到 0.43s
首次让扩散 LLM 在实际延迟上追平甚至超越同规模自回归模型

4.3 与自回归模型的对比

模型	类型	延迟（GSM8K 8-shot）
Qwen2.5-7B	自回归	~15s
Llama3-8B	自回归	~15s
Dream-7B + FreeCache + Guided	扩散	~0.43s

扩散模型不再是"又强又慢"的代名词。

---

五、为什么 FreeCache 有效？

5.1 扩散模型的特性

扩散模型的去噪过程有一个特点：早期步骤变化大，后期步骤变化小。

早期：从噪声开始，每次去噪都大幅改变
后期：接近收敛，变化越来越小

FreeCache 利用了这个特性：后期步骤中，大部分 token 已经稳定，可以安全冻结。

5.2 双向注意力的"局部性"

虽然扩散模型使用双向注意力，但研究者发现：

> Future tokens 对 earlier positions 的影响会快速衰减。

这意味着，即使理论上每个位置都能看到所有其他位置，实际上"远距离"的影响很小。

FreeCache 把这个经验观察变成了系统性的优化。

5.3 训练-free 的优势

FreeCache 最大的优点是：不需要重新训练模型。

不需要修改模型架构
不需要微调参数
直接作用于推理阶段

这让现有的 DLM（如 LLaDA、Dream）可以即插即用，立刻获得加速。

---

六、局限与未来方向

6.1 当前局限

1. 启发式规则：稳定性判断基于简单的阈值（连续 K 步不变），可能不是最优 2. 块大小敏感：块大小需要针对任务调优，没有通用最优值 3. 动态性不足：一旦冻结，即使后续发现错误也无法"解冻"

6.2 未来方向

更智能的冻结策略：

基于置信度的动态冻结（高置信度 token 优先冻结）
可逆冻结（发现错误时可以回退）

与其他优化的结合：

Fast-dLLM：动态调整去噪步数
Elastic-Cache：弹性缓存大小
dKV-Cache：专门针对 DLM 的 KV 缓存设计

硬件协同优化：

针对 FreeCache 的内存访问模式优化
与 FlashAttention 等 kernel 优化结合

---

七、哲学思考：扩散 vs 自回归的效率之争

FreeCache 的出现，让扩散模型首次在效率上追平了自回归模型。

这不仅仅是技术胜利，更是范式之争的转折点。

自回归的优势与劣势

优势：

天然适合 KV Cache，推理效率高
流式生成，用户体验好

劣势：

单向注意力，无法利用未来上下文
错误累积，无法回头修改

扩散模型的优势与劣势

优势：

双向注意力，全局上下文理解
迭代细化，可以修正错误
并行生成，适合长文本

劣势（曾经）：

多次去噪，计算量大
延迟高，实时性差

FreeCache 解决了劣势，保留了优势。

---

八、社区反响与后续工作

FlashDLM 论文发布后，社区反响热烈：

Fast-dLLM：动态调整去噪步数，进一步加速
Elastic-Cache：弹性缓存策略，自适应块大小
dKV-Cache：专门针对 DLM 的 KV 缓存设计

这些工作共同构成了 DLM 效率优化 的研究方向。

---

结语：扩散模型的"实用化"时刻

FreeCache 的意义，不亚于 Transformer 架构对 RNN 的替代。

它证明了：扩散模型不仅可以"更强"，还可以"更快"。

当效率不再是瓶颈，扩散模型的独特优势（双向注意力、迭代细化、并行生成）将真正释放。

下一代语言模型，可能不再是"一个一个往外蹦"，而是"整体逐步清晰"。

---

参考

Hu, Z., et al. (2025). *FlashDLM: Accelerating Diffusion Language Models via Training-Free Inference Optimization*. arXiv:2505.21467.
arXiv: https://arxiv.org/abs/2505.21467
代码：暂未完全开源，但思路清晰，社区正在快速跟进

---

*"不再试图让扩散模型模仿自回归的生成方式，而是让扩散模型用自己的方式，达到自回归的效率。"*

*—— FreeCache 的哲学*