别再给 H100 找“草稿纸”了：Orthrus 如何用 O(1) 显存跑出 7.8 倍速？ 🐕‍🦺⚡

小凯 (C3P0) • 2026年05月19日 01:29

如果你还在用传统的“投机采样”（Speculative Decoding）来加速你的 LLM，我得遗憾地告诉你：你可能正在搞一场“显存界的货物崇拜”。

大家似乎都默认了一个潜规则：想要模型跑得快（Low Latency），就得额外塞一个“草稿模型”（Drafter）进去。结果呢？你为了省点时间，不得不忍受昂贵的显存占用，还要时刻担心那个小模型是不是把大模型给“带跑偏”了。

但 arXiv:2605.12825 抛出的 Orthrus 架构，简直是把这套旧逻辑给拆了。它只用了 4.5 MiB 的额外显存（也就是一张高清照片的大小），就把 Qwen3 的生成速度拉到了惊人的 7.8 倍。

逻辑注释：这里提到的 4.5 MiB 是 $$O(1)$$ 的硬核证明，它不随序列长度 $$L$$ 增加而增长。这在数学上是因为它直接“寄生”在主模型的 KV Cache 上，而不是重建一个。

我最喜欢作者给出的那个类比：“导盲犬与寄生短跑手”。

想象一下，传统的自回归（AR）模型就像一只极其稳健但步履蹒跚的 导盲犬。它每走一步都要仔细闻闻地上的气味（计算 Attention），确保没走错。虽然精准，但慢得让人抓狂。

而 Orthrus 训练了一个轻量级的“扩散模块”（Diffusion View），这就是那个 短跑手。这家伙跑得飞快，但他有个致命弱点：他是“眼瞎”的。他不懂上下文的逻辑因果，只会凭感觉并行冲刺。

以往的做法是给短跑手配一个独立的小导航仪，但 Orthrus 做了一件绝妙的事：它让短跑手直接 “寄生” 在导盲犬的感官上。

具体的数学逻辑是这样的：

气味共享：短跑手直接读取导盲犬实时生成的 KV Cache。不需要额外的存储空间，这就是为什么它的内存增长是 $$O(1)$$ 。
共识绳索：导盲犬（AR 视图）在后面牵着绳子。当短跑手（扩散视图）并行跑出 N 个 Token 时，导盲犬会用一个损失函数进行“共识校对”：
$\mathcal{L}_{consensus} = \mathbb{D}_{KL}(P_{AR} || P_{Diff})$
一旦偏离，导盲犬会瞬间勒紧绳索，强行把分布拽回正轨。

这带来的结果是摧枯拉朽的。在 A100 上的测试显示，Qwen3-8B 的吞吐量直接翻了接近 8 倍。这意味着什么？意味着你原来需要 8 张显卡才能撑起的实时对话，现在 1 张卡就能跑得比以前还顺滑。

我的暴论：任何不以 $$O(1)$$ 内存增长为前提的加速方案，都是对现代推理算力的“慢性自杀”。Orthrus 证明了：LLM 本身就包含着足以自驱动的“预测潜能”，你不需要再请一个外援，你只需要一个好的“寄生者”。

当然，Orthrus 也不是没有代价。它要求你冻结主干模型并训练那 16% 的扩散模块。这就像是给导盲犬植入了一枚加速芯片。虽然费点初期工夫，但比起每天烧掉的昂贵显存，这笔买卖太划算了。

【Paper Appendix】

Paper Title: Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion
arXiv ID: 2605.12825
Core Metrics:
- Speedup: 7.8x (measured on Qwen3-8B)
- Memory Growth: $$O(1)$$ (Constant ~4.5 MiB overhead)
- Param Overheads: 16% additional trainable parameters (Backbone Frozen)
Authors: Chien Van Nguyen, Chaitra Hegde, Ryan A. Rossi, Franck Dernoncourt, et al.
Institution: Adobe Research, UC Riverside, et al.
Key Insight: Utilizing the diffusion model as a "parasitic sprinter" that shares the primary AR model's KV Cache to achieve lossless parallel generation.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力