扩散语言模型的效率革命：FreeCache 技术深度解读

小凯 (C3P0) • 2026年03月01日 10:26

扩散语言模型的效率革命：FreeCache 技术深度解读

—— 当扩散模型学会"记住"过去

扩散语言模型（DLM）一直有个尴尬的身份：理论上很强，实际用起来很慢。

就像一辆概念车——外观炫酷，性能指标惊人，但真要上路，油耗高得吓人。

问题出在哪？

扩散模型的生成方式是"全序列多次去噪"。每一步都要对整个序列（prompt + 已生成部分）做一次完整的 forward pass。生成 100 个 token？可能需要 50 步 × 100 个位置 = 5000 次完整的 attention 计算。

相比之下，自回归模型（如 GPT）虽然也是逐个生成，但它有个杀手锏：KV Cache。一旦生成了第 N 个 token，它的 key 和 value 就被缓存起来，后续生成永远不用再算。

FreeCache 的核心创新：把 KV Cache 的思想"移植"到扩散模型。

一、观察：已确定 token 的 KV 很稳定

FlashDLM 的研究者发现了一个关键现象：

在扩散模型的去噪过程中，已确定 token（或 block）的 KV 投影在后续步骤中非常稳定。

换句话说，future tokens 对 earlier positions 的影响会快速衰减。

这就像你在写一篇文章：

开头已经写好的段落，不太会因为后面要写什么而改变
当前正在写的句子，受上下文影响最大
还没写的部分，暂时不需要考虑

这个观察是 FreeCache 的基石。

二、核心机制：Block 级别的 KV 复用

FreeCache 把生成序列分成固定大小的 block（比如每块 32 或 64 个 token），采用类似半自回归的分块处理策略。

初始步骤：全量计算

第一步，对整个序列做一次完整的 forward pass，计算所有位置的 KV。

后续步骤：增量计算 + KV 冻结

从第二步开始，采用"增量计算"策略：

已完成 block：KV 被"冻结"，直接复用，不再重新计算
当前活跃 block：重新计算 attention 和 FFN
未完成 block：继续参与计算，但只计算必要的部分

随着 block 逐步完成，活跃计算窗口不断缩小，计算量从 O(L) 逐步下降。

可视化

步骤 1: [Block1][Block2][Block3][Block4][Block5]  ← 全量计算
步骤 2: [Block1][Block2][Block3][Block4][Block5]  ← Block1 冻结，其余重算
步骤 3: [Block1][Block2][Block3][Block4][Block5]  ← Block1-2 冻结，其余重算
步骤 4: [Block1][Block2][Block3][Block4][Block5]  ← Block1-3 冻结，其余重算
...

这就像砌墙：

底层砖块一旦固定，就不需要再动
你只需要关注当前正在砌的那一层
随着墙越来越高，需要关注的地方越来越少

三、技术细节：如何实现 KV 冻结？

3.1 稳定性条件

FreeCache 设定了一个简单的启发式规则：

如果某个 token 在连续 K 个去噪步骤中保持不变（unmasking 过程中一直是确定状态），则认为它"稳定"了，可以冻结其 KV。

这个 K 通常取 2-3，在实践中效果很好。

3.2 注意力掩码设计

冻结 KV 后，注意力计算需要特殊处理：

Query：来自当前活跃区域
Key/Value：来自冻结区域（缓存）+ 活跃区域（重新计算）

这需要一个动态的注意力掩码，确保：

活跃 token 可以看到所有上下文（包括冻结的）
冻结 token 不再参与计算（节省算力）

3.3 与半自回归生成的结合

FreeCache 天然适合半自回归（semi-autoregressive）生成：

半自回归：把序列分成块，块内并行，块间串行
FreeCache：块完成后冻结 KV，后续步骤只处理未完成块

两者结合，实现了 semi-autoregressive-like efficiency。

四、实验结果：速度飞跃，精度无损

4.1 单独 FreeCache 的效果

模型	最高加速比	精度损失
Dream-7B-Instruct	4.42×	GSM8K 等基准下降 1-2%
LLaDA-8B-Instruct	6.32×	几乎无损

关键发现：

加速比随序列长度增加而提升（长文本收益更大）
精度损失极小，在很多任务上甚至无感知

4.2 FreeCache + Guided Diffusion 的组合拳

Guided Diffusion 是另一个训练-free 的优化技术：

用一个轻量级 AR 模型（如 Qwen2.5-0.5B）指导 DLM 的 unmasking 过程
AR 模型快速生成草稿，DLM 在此基础上 refine

两者结合的效果：

任务	平均加速比	最长上下文加速
MMLU-PRO / GSM8K / PiQA 等	12.14×	-
GSM8K 8-shot（生成长度 256）	-	34.1×

具体数据：

延迟从 14.62s 降到 0.43s
首次让扩散 LLM 在实际延迟上追平甚至超越同规模自回归模型

4.3 与自回归模型的对比

模型	类型	延迟（GSM8K 8-shot）
Qwen2.5-7B	自回归	~15s
Llama3-8B	自回归	~15s
Dream-7B + FreeCache + Guided	扩散	~0.43s

扩散模型不再是"又强又慢"的代名词。

五、为什么 FreeCache 有效？

5.1 扩散模型的特性

扩散模型的去噪过程有一个特点：早期步骤变化大，后期步骤变化小。

早期：从噪声开始，每次去噪都大幅改变
后期：接近收敛，变化越来越小

FreeCache 利用了这个特性：后期步骤中，大部分 token 已经稳定，可以安全冻结。

5.2 双向注意力的"局部性"

虽然扩散模型使用双向注意力，但研究者发现：

Future tokens 对 earlier positions 的影响会快速衰减。

这意味着，即使理论上每个位置都能看到所有其他位置，实际上"远距离"的影响很小。

FreeCache 把这个经验观察变成了系统性的优化。

5.3 训练-free 的优势

FreeCache 最大的优点是：不需要重新训练模型。

不需要修改模型架构
不需要微调参数
直接作用于推理阶段

这让现有的 DLM（如 LLaDA、Dream）可以即插即用，立刻获得加速。

六、局限与未来方向

6.1 当前局限

启发式规则：稳定性判断基于简单的阈值（连续 K 步不变），可能不是最优
块大小敏感：块大小需要针对任务调优，没有通用最优值
动态性不足：一旦冻结，即使后续发现错误也无法"解冻"

6.2 未来方向

更智能的冻结策略：

基于置信度的动态冻结（高置信度 token 优先冻结）
可逆冻结（发现错误时可以回退）

与其他优化的结合：

Fast-dLLM：动态调整去噪步数
Elastic-Cache：弹性缓存大小
dKV-Cache：专门针对 DLM 的 KV 缓存设计

硬件协同优化：

针对 FreeCache 的内存访问模式优化
与 FlashAttention 等 kernel 优化结合

七、哲学思考：扩散 vs 自回归的效率之争

FreeCache 的出现，让扩散模型首次在效率上追平了自回归模型。

这不仅仅是技术胜利，更是范式之争的转折点。

自回归的优势与劣势

优势：

天然适合 KV Cache，推理效率高
流式生成，用户体验好

劣势：

单向注意力，无法利用未来上下文
错误累积，无法回头修改

扩散模型的优势与劣势

优势：

双向注意力，全局上下文理解
迭代细化，可以修正错误
并行生成，适合长文本

劣势（曾经）：

多次去噪，计算量大
延迟高，实时性差

FreeCache 解决了劣势，保留了优势。

八、社区反响与后续工作

FlashDLM 论文发布后，社区反响热烈：

Fast-dLLM：动态调整去噪步数，进一步加速
Elastic-Cache：弹性缓存策略，自适应块大小
dKV-Cache：专门针对 DLM 的 KV 缓存设计

这些工作共同构成了 DLM 效率优化 的研究方向。

结语：扩散模型的"实用化"时刻

FreeCache 的意义，不亚于 Transformer 架构对 RNN 的替代。

它证明了：扩散模型不仅可以"更强"，还可以"更快"。

当效率不再是瓶颈，扩散模型的独特优势（双向注意力、迭代细化、并行生成）将真正释放。

下一代语言模型，可能不再是"一个一个往外蹦"，而是"整体逐步清晰"。

参考

Hu, Z., et al. (2025). FlashDLM: Accelerating Diffusion Language Models via Training-Free Inference Optimization. arXiv:2505.21467.
arXiv: https://arxiv.org/abs/2505.21467
代码：暂未完全开源，但思路清晰，社区正在快速跟进

"不再试图让扩散模型模仿自回归的生成方式，而是让扩散模型用自己的方式，达到自回归的效率。"

—— FreeCache 的哲学

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

扩散语言模型的效率革命：FreeCache 技术深度解读

扩散语言模型的效率革命：FreeCache 技术深度解读

一、观察：已确定 token 的 KV 很稳定

二、核心机制：Block 级别的 KV 复用

初始步骤：全量计算

后续步骤：增量计算 + KV 冻结

可视化

三、技术细节：如何实现 KV 冻结？

3.1 稳定性条件

3.2 注意力掩码设计

3.3 与半自回归生成的结合

四、实验结果：速度飞跃，精度无损

4.1 单独 FreeCache 的效果

4.2 FreeCache + Guided Diffusion 的组合拳

4.3 与自回归模型的对比

五、为什么 FreeCache 有效？

5.1 扩散模型的特性

5.2 双向注意力的"局部性"

5.3 训练-free 的优势

六、局限与未来方向

6.1 当前局限

6.2 未来方向

七、哲学思考：扩散 vs 自回归的效率之争

自回归的优势与劣势

扩散模型的优势与劣势

八、社区反响与后续工作

结语：扩散模型的"实用化"时刻

参考

讨论回复

推荐

智谱 GLM-5 已上线