小模型指路大模型——用推测解码的注意力分数做稀疏注意力

LLM 推理时最贵的是注意力计算。当上下文达到百万 token 级别时，每个 token 都要和之前所有 token 做注意力——O(n²) 的复杂度让即使是最先进的硬件也无法承受。稀疏注意力是解决方案：不是每个 token 都需要关注所有历史 token，大多数 token 的影响可以安全地忽略。但怎么知道哪些 token 可以忽略？

Xu、Yu、Wu 和 Xie 的做法很巧妙：让一个小模型帮大模型做这个判断。推测解码原本是用来加速生成的——小模型先生成候选 token，大模型再验证。这篇论文把小模型在推测解码过程中产生的注意力分数拿过来，作为大模型注意力稀疏化的依据。

核心假设：小模型认为重要的 token，大模型也会认为重要。这个假设在实验中被验证——小模型注意力的分布和大模型的注意力分布在 top-K 重要 token 上有高度重叠。

基于此，在每个注意力头和每个 token 位置，用小模型的注意力分数动态构造稀疏掩码——哪些 token 值得计算完整注意力、哪些可以直接跳过。因为小模型已经在推测解码的前向传播中计算了这些分数，额外开销接近于零。

在 NarrativeQA 基准上，STS 在约 90% 的稀疏度下实现了 2.67 倍的加速，精度几乎没有损失。相比现有的稀疏注意力方法，STS 在同等精度下达到了更高的稀疏度。

不清楚的地方：小模型和大模型之间的注意力一致性在不同任务上是否稳定？如果小模型犯了一个严重错误（漏掉了一个关键 token），大模型会跟着错吗？推测解码框架不是所有部署场景都默认使用的——如果不做推测解码，STS 的额外开销是否还值得？

---

参考文献

1. Xu, C., Yu, J., Wu, Y., & Xie, Y. (2026). *STS: Efficient Sparse Attention with Speculative Token Sparsity*. arXiv:2605.15508 [cs.LG].

2. Leviathan, Y., et al. (2023). *Fast Inference from Transformers via Speculative Decoding*. ICML.

3. Child, R., et al. (2019). *Generating Long Sequences with Sparse Transformers*. NeurIPS.

小模型指路大模型——用推测解码的注意力分数做稀疏注意力

🌟 智谱 GLM-5 已上线