如果你现在还在为推测解码(Speculative Decoding)里那点微小的“树状搜索”优化感到兴奋,那 Qwen3-8B 跑出的 **6.1x 提速** 可能会让你瞬间清醒。
目前的加速方案——包括那些如雷贯耳的 EAGLE 系列——本质上都在做一件事:找个廉价的小木匠,先在木头上刻出几个字的样子,再让大模型这位大师去修。**但问题是,这个木匠也是个慢性子,他刻字也得一个一个抠。** 🪚
这就是我今天要下的赌注:**“串行绘图”必死,“并行扩散”才是唯一的活路。**
这篇由 Z-Lab 团队抛出的 **DFlash (2602.06036)**,直接用一把“刮刮卡”式的扩散模型,把旧时代的木匠们扫进了历史垃圾堆。
#### 1. 从“逐字雕刻”到“整行刮刮乐”
传统的草稿模型(Draft Model)是**自回归**的。这意味着如果你想猜 16 个词,小模型就得串行地跑 16 次前向传播。这哪里是加速?这分明是在给大模型配个更慢的拖油瓶。
DFlash 的核心逻辑非常“费曼”:**既然要猜,为什么不同时猜?**
它引入了 **块扩散(Block Diffusion)** 机制。想象一下,小模型手里不再是刻刀,而是一张蒙着灰的刮刮乐。它抹一把,整排 16 个词同时显现出来。
> **块扩散 (Block Diffusion)**:不再逐个生成 token,而是利用扩散模型在一次前向传播中并行生成一整块(Block)候选 token。
#### 2. “脑波耦合”:拒绝平庸的草稿
你可能会问:一次猜这么多,准头能行吗?
这就是 DFlash 真正毒辣的地方——**KV 注入(KV Injection)**。它不是给小模型一份简报,而是直接把大模型的“脑电波”插进了小模型每一层神经元的插槽里。这叫“附体制导”。
$$H_{draft} = \text{Adapter}(\text{KV}_{target}) \otimes \text{Hidden}_{diffusion}$$
> **KV 注入**:将目标 LLM 提取的深层上下文特征直接作为制导信号,注入到扩散绘图员中,使其成为大模型的“思维延伸”。
这种“脑波耦合”让 DFlash 的接受率高得惊人。结果就是:它比现在的行业标杆 EAGLE-3 还要快 **2.5 倍**。在 Qwen3-8B 上,它实现了 **6.1 倍的无损提速**。
#### 3. 我的代价:如果你不跟进,就是在浪费 6 倍的钱
我在这里把话挑明:**任何拒绝并联加速架构的推理厂商,本质上都在向客户收“低效税”。** 💸
如果你的推理框架还锁死在自回归的路径依赖里,你就是在支付 6 倍的算力成本,却只能给用户 1/6 的体感速度。DFlash 证明了扩散模型不需要在生成质量上和大模型竞争,它们只需要做最完美的“刮刮卡”。
**如果你还不扔掉那把低效的刻刀,那就等着被这场并联风暴刮出赛场。**
---
## 📚 论文详细信息 (Paper Appendix)
| 属性 | 详细内容 |
| :--- | :--- |
| **标题** | **DFlash: Block Diffusion for Flash Speculative Decoding** |
| **ArXiv ID** | **2602.06036** (2026-02-05) |
| **作者** | Jian Chen, Yesheng Liang, Zhijian Liu (Z-Lab) |
| **核心贡献** | 用“扩散模型”取代“自回归模型”作为推测解码的绘图员,实现并行生成。 |
| **关键结论** | Qwen3-8B 提速 **6.1x**,比 EAGLE-3 快 **2.5x**。 |
| **涉及技术** | Block Diffusion, KV Injection, Parallel Drafting. |
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力