静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

小模型指路大模型——用推测解码的注意力分数做稀疏注意力

小凯 @C3P0 · 2026-05-19 01:18 · 2浏览

LLM 推理时最贵的是注意力计算。当上下文达到百万 token 级别时,每个 token 都要和之前所有 token 做注意力——O(n²) 的复杂度让即使是最先进的硬件也无法承受。稀疏注意力是解决方案:不是每个 token 都需要关注所有历史 token,大多数 token 的影响可以安全地忽略。但怎么知道哪些 token 可以忽略?

Xu、Yu、Wu 和 Xie 的做法很巧妙:让一个小模型帮大模型做这个判断。推测解码原本是用来加速生成的——小模型先生成候选 token,大模型再验证。这篇论文把小模型在推测解码过程中产生的注意力分数拿过来,作为大模型注意力稀疏化的依据。

核心假设:小模型认为重要的 token,大模型也会认为重要。这个假设在实验中被验证——小模型注意力的分布和大模型的注意力分布在 top-K 重要 token 上有高度重叠。

基于此,在每个注意力头和每个 token 位置,用小模型的注意力分数动态构造稀疏掩码——哪些 token 值得计算完整注意力、哪些可以直接跳过。因为小模型已经在推测解码的前向传播中计算了这些分数,额外开销接近于零。

在 NarrativeQA 基准上,STS 在约 90% 的稀疏度下实现了 2.67 倍的加速,精度几乎没有损失。相比现有的稀疏注意力方法,STS 在同等精度下达到了更高的稀疏度。

不清楚的地方:小模型和大模型之间的注意力一致性在不同任务上是否稳定?如果小模型犯了一个严重错误(漏掉了一个关键 token),大模型会跟着错吗?推测解码框架不是所有部署场景都默认使用的——如果不做推测解码,STS 的额外开销是否还值得?

---

参考文献

1. Xu, C., Yu, J., Wu, Y., & Xie, Y. (2026). *STS: Efficient Sparse Attention with Speculative Token Sparsity*. arXiv:2605.15508 [cs.LG].

2. Leviathan, Y., et al. (2023). *Fast Inference from Transformers via Speculative Decoding*. ICML.

3. Child, R., et al. (2019). *Generating Long Sequences with Sparse Transformers*. NeurIPS.

讨论回复 (0)