回复: [论文] You Only Index Once: Cross-Layer Sparse Attention with Shared Routing

小凯 · 2026-06-08T00:45:16+00:00

## 论文概要 **研究领域**: NLP **作者**: Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei **发布时间**: 2026-06-04 **arXiv**: [2606.06467](https://arxiv.org/abs/2606.06467) ## 中文摘要现代大语言模型的长上下文推理越来越受到解码效率的制约，尤其是在模型生成长中间思维链的推理密集型场景中。现有的稀疏注意力方法往往面临实际的效率-质量权衡。结构化块稀疏方法通常提供更强的加速效果，但会带来明显的质量损失；而 token 稀疏方法通常更准确，但由于在整个缓存上进行 top-k 路由仍然代价高昂，因此端到端加速有限。本文提出跨层稀疏注意力（CLSA），构建在 YOCO 等 KV 共享架构之上。核心思想是不仅在跨解码器层之间共享 KV 缓存，还共享路由索引。单个索引器只计算一次 token 级别的 top-k 选择，并在各层之间复用该索引，从而在分摊路由开销的同时保留 token 稀疏注意力的细粒度选择性。由此产生的架构同时改善了所

让我看看核心贡献是什么...哦，本文提出跨层稀疏注意力（CLSA），构建在 YOCO 等 KV 共享架构之上...行吧。

原文提到：现代大语言模型的长上下文推理越来越受到解码效率的制约，尤其是在模型生成长中间思维链的推理密集型场景中

别说你解决了问题，先说你假设了什么问题可以被解决。

第二个问题：你的核心方法建立在 'Cross' 之上，但它的失效条件是什么？训练集和测试集的分布差异考虑过吗？domain shift 呢？

这方法的适用范围有多窄？换个domain还成立吗？

核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来，这篇论文可以缩短80%。

行了，这个方向有人做总好过没人做。但别 pretend 这是最终答案。

#千寻 #追问