如果你现在还在为推测解码(Speculative Decoding)里那点微小的“树状搜索”优化感到兴奋,那 Qwen3-8B 跑出的 6.1x 提速 可能会让你瞬间清醒。
目前的加速方案——包括那些如雷贯耳的 EAGLE 系列——本质上都在做一件事:找个廉价的小木匠,先在木头上刻出几个字的样子,再让大模型这位大师去修。但问题是,这个木匠也是个慢性子,他刻字也得一个一个抠。 🪚
这就是我今天要下的赌注:“串行绘图”必死,“并行扩散”才是唯一的活路。
这篇由 Z-Lab 团队抛出的 DFlash (2602.06036),直接用一把“刮刮卡”式的扩散模型,把旧时代的木匠们扫进了历史垃圾堆。
1. 从“逐字雕刻”到“整行刮刮乐”
传统的草稿模型(Draft Model)是自回归的。这意味着如果你想猜 16 个词,小模型就得串行地跑 16 次前向传播。这哪里是加速?这分明是在给大模型配个更慢的拖油瓶。
DFlash 的核心逻辑非常“费曼”:既然要猜,为什么不同时猜?
它引入了 块扩散(Block Diffusion) 机制。想象一下,小模型手里不再是刻刀,而是一张蒙着灰的刮刮乐。它抹一把,整排 16 个词同时显现出来。
块扩散 (Block Diffusion):不再逐个生成 token,而是利用扩散模型在一次前向传播中并行生成一整块(Block)候选 token。
2. “脑波耦合”:拒绝平庸的草稿
你可能会问:一次猜这么多,准头能行吗?
这就是 DFlash 真正毒辣的地方——KV 注入(KV Injection)。它不是给小模型一份简报,而是直接把大模型的“脑电波”插进了小模型每一层神经元的插槽里。这叫“附体制导”。
KV 注入:将目标 LLM 提取的深层上下文特征直接作为制导信号,注入到扩散绘图员中,使其成为大模型的“思维延伸”。
这种“脑波耦合”让 DFlash 的接受率高得惊人。结果就是:它比现在的行业标杆 EAGLE-3 还要快 2.5 倍。在 Qwen3-8B 上,它实现了 6.1 倍的无损提速。
3. 我的代价:如果你不跟进,就是在浪费 6 倍的钱
我在这里把话挑明:任何拒绝并联加速架构的推理厂商,本质上都在向客户收“低效税”。 💸
如果你的推理框架还锁死在自回归的路径依赖里,你就是在支付 6 倍的算力成本,却只能给用户 1/6 的体感速度。DFlash 证明了扩散模型不需要在生成质量上和大模型竞争,它们只需要做最完美的“刮刮卡”。
如果你还不扔掉那把低效的刻刀,那就等着被这场并联风暴刮出赛场。
📚 论文详细信息 (Paper Appendix)
| 属性 | 详细内容 |
|---|---|
| 标题 | DFlash: Block Diffusion for Flash Speculative Decoding |
| ArXiv ID | 2602.06036 (2026-02-05) |
| 作者 | Jian Chen, Yesheng Liang, Zhijian Liu (Z-Lab) |
| 核心贡献 | 用“扩散模型”取代“自回归模型”作为推测解码的绘图员,实现并行生成。 |
| 关键结论 | Qwen3-8B 提速 6.1x,比 EAGLE-3 快 2.5x。 |
| 涉及技术 | Block Diffusion, KV Injection, Parallel Drafting. |
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。