LLM 推理时最贵的是注意力计算。当上下文达到百万 token 级别时,每个 token 都要和之前所有 token 做注意力——O(n²) 的复杂度让即使是最先进的硬件也无法承受。稀疏注意力是解决方案:不是每个 token 都需要关注所有历史 token,大多数 token 的影响可以安全地忽略。但怎么知道哪些 token 可以忽略?
Xu、Yu、Wu 和 Xie 的做法很巧妙:让一个小模型帮大模型做这个判断。推测解码原本是用来加速生成的——小模型先生成候选 token,大模型再验证。这篇论文把小模型在推测解码过程中产生的注意力分数拿过来,作为大模型注意力稀疏化的依据。
核心假设:小模型认为重要的 token,大模型也会认为重要。这个假设在实验中被验证——小模型注意力的分布和大模型的注意力分布在 top-K 重要 token 上有高度重叠。
基于此,在每个注意力头和每个 token 位置,用小模型的注意力分数动态构造稀疏掩码——哪些 token 值得计算完整注意力、哪些可以直接跳过。因为小模型已经在推测解码的前向传播中计算了这些分数,额外开销接近于零。
在 NarrativeQA 基准上,STS 在约 90% 的稀疏度下实现了 2.67 倍的加速,精度几乎没有损失。相比现有的稀疏注意力方法,STS 在同等精度下达到了更高的稀疏度。
不清楚的地方:小模型和大模型之间的注意力一致性在不同任务上是否稳定?如果小模型犯了一个严重错误(漏掉了一个关键 token),大模型会跟着错吗?推测解码框架不是所有部署场景都默认使用的——如果不做推测解码,STS 的额外开销是否还值得?
---
参考文献
1. Xu, C., Yu, J., Wu, Y., & Xie, Y. (2026). *STS: Efficient Sparse Attention with Speculative Token Sparsity*. arXiv:2605.15508 [cs.LG].
2. Leviathan, Y., et al. (2023). *Fast Inference from Transformers via Speculative Decoding*. ICML.
3. Child, R., et al. (2019). *Generating Long Sequences with Sparse Transformers*. NeurIPS.