Rethinking the Role of Efficient Attention in Hybrid Architectures
论文:Rethinking the Role of Efficient Attention in Hybrid Architectures
作者:Ziqing Qiao, Yinuo Xu, Chaojun Xiao, Zhou Su, Zihan Zhou, Yingfa Chen, Xiaoyue Xu, Xu Han, Zhiyuan Liu (Tsinghua University & OpenBMB)
论文链接:https://arxiv.org/abs/2606.15378
代码库:https://github.com/thunlp/rethinking-hybrid-attention
核心发现速览
| 维度 | 关键洞察 |
|---|---|
| 问题 | 混合架构中,高效注意力模块(SWA、Mamba-2等)到底在干什么? |
| 结论 | 高效注意力不是长程信息载体,而是优化先验——它影响全注意力层学习长程检索的速度,但最终能力由全注意力决定 |
| 发现 | 大窗口懒惰:滑动窗口越大,全注意力层学习长程检索越慢 |
| 改进 | 仅对全注意力层用NoPE(无位置编码),即可提升长上下文能力,不损短上下文性能 |
| 规模 | 5种模型规模(15M→665M总参数),全注意力+3种SWA窗口+3种循环混合器 |
一句话总结
混合架构中,高效注意力不是主角而是配角。长程信息检索全靠全注意力层,高效注意力只是决定全注意力"什么时候学会"的优化先验。窗口越大,全注意力越"懒"。想提升长上下文能力,别折腾高效注意力了,去帮全注意力层。
问题背景:混合架构的本质困惑
大语言模型要做长上下文,全注意力(softmax attention)太贵了——序列长度每翻一倍,计算量平方增长。业界解决方案:混合架构。
混合架构的思路很简单:把全注意力和高效注意力模块交替叠加。全注意力层负责全局建模,高效注意力层(比如滑动窗口注意力、Mamba-2、DeltaNet)负责局部/高效计算,两者合作降低成本。
现在被混合架构采用的高效注意力模块有几大家族:
| 类型 | 代表 | 机制 | 感受野 |
|---|---|---|---|
| 滑动窗口注意力 (SWA) | Longformer, Mistral, Gemma | 每个token只关注前后w个邻居 | 有限(w) |
| 线性注意力 | Lightning Attention | 固定衰减因子γ,线性时间 | 理论上无限(指数衰减) |
| SSM | Mamba-2 | 数据相关衰减,结构化状态空间 | 理论上无限 |
| Gated DeltaNet | GDN | 带遗忘门和更新门,Delta规则 | 理论上无限 |
但核心问题一直没人回答清楚: 这些高效注意力模块,在混合架构里到底起了多大作用?是它们自己在处理长程信息,还是仅仅"分担了部分计算"?
这篇论文用系统性的缩放实验给出了答案:
高效注意力不是长程信息的主要载体。长程信息检索全靠全注意力层。不同混合架构最终收敛到相似的长上下文水平,但收敛速度取决于高效注意力给的"学习压力"。
三个研究问题(RQ)
论文提出了三个层层递进的问题:
- RQ1(缩放行为):不同混合架构在短上下文和长上下文能力上,缩放规律如何?
- RQ2(机制分析):高效注意力如何影响长上下文能力?它在物理上做什么?
- RQ3(设计启示):基于这些发现,混合架构设计应该怎么改?
实验设计:5种规模×7种架构×6种训练预算
这是最可控的混合架构对比实验之一。
模型规模
| 规模 | 参数量(不含嵌入) | 总参数 | 层数 | 隐藏维度 | 头数 |
|---|---|---|---|---|---|
| S1 | 15M | 71M | 10 | 384 | 6 |
| S2 | 31M | 107M | 12 | 512 | 8 |
| S3 | 65M | 159M | 16 | 640 | 10 |
| S4 | 104M | 217M | 18 | 768 | 12 |
| S5 | 477M | 665M | 30 | 1280 | 20 |
7种架构对比
- Full — 全注意力基线(无高效注意力)
- SWA-128 — 滑动窗口注意力,窗口大小128
- SWA-512 — 滑动窗口注意力,窗口大小512
- SWA-2048 — 滑动窗口注意力,窗口大小2048
- Lightning — 线性注意力,固定衰减
- Mamba-2 — 结构化状态空间对偶(SSD)
- Gated DeltaNet (GDN) — 带门控的Delta规则
所有混合架构采用1:1交替(全注意力和高效注意力层交替堆叠)。训练预算从 100N 到 1000N(N = 模型参数量)。
评估指标
论文用两个指标分别衡量短上下文和长上下文能力:
- Validation Loss(验证集Loss)——短上下文建模质量,用C4数据集40K样本
- log(LongPPL) ——长上下文能力,用GovReport数据集,以Llama-3.1-8B为参考模型计算LongPPL
LongPPL是Fang等人2025年提出的连续指标,与离散的长上下文基准(RULER、LongBench)高度相关,但更适合跟踪预训练动态。
RQ1:缩放规律——短上下文全重叠,长上下文先分化后收敛
发现1:短上下文Loss,所有架构几乎完全重叠
无论用什么高效注意力模块,全注意力基线和所有混合架构的Validation Loss曲线几乎完全重合。这意味着:
高效注意力设计对短上下文能力几乎无影响。 它不会帮你学会更好的下一个token预测,也不会让模型变得更"聪明"。
发现2:长上下文log(LongPPL),训练不足时差距大,训练充分后收敛
这是论文最反直觉的发现:
- 训练不足阶段(低数据量):不同架构差距显著。SWA-2048表现最差,SWA-128和循环混合器较好,全注意力居中
- 训练充分阶段(高数据量):所有架构的log(LongPPL)曲线收敛到相近水平
这意味着什么?
不同高效注意力模块不决定模型的"长上下文天花板"——最终大家都会达到相似水平。但它们决定了到达天花板的速度。
缩放定律拟合
论文用标准的幂律拟合(Hoffmann et al., 2022形式):
L(N, D) = aN^(-α) + bD^(-β)
拟合结果证实:
- Loss的拟合对所有架构都高R²
- log(LongPPL)早期噪声大,但后期平滑收敛
- 所有混合架构的收敛目标相同——全注意力层决定了最终能力
RQ2:机制分析——高效注意力是"优化先验",不是"信息载体"
实验1:感受野限制
论文在推理时分别限制高效注意力和全注意力的感受野(都限制到~2048 tokens),看log(LongPPL)怎么变化。
结果:
- 限制高效注意力的感受野 → log(LongPPL)几乎不变
- 限制全注意力的感受野 → log(LongPPL)急剧上升
这意味着: 即使循环混合器(如Mamba-2、GDN)理论上感受野无限,它们在实际推理中存储的长程信息微乎其微。长程信息几乎全部由全注意力层携带。
实验2:逐层探针(Layer-wise Probing)
在Needle-in-a-Haystack(NIAH)任务上,逐层提取隐藏状态,训练逻辑回归分类器预测"针"的位置。看哪一层引入了长程信息。
结果:
- 在混合架构中,长程信息增益集中在全注意力层(奇数层)
- 高效注意力层(偶数层)几乎无贡献,有些甚至降低准确率
- 全注意力基线则是连续增长
结论:长程信息由全注意力层引入和处理。 高效注意力层不负责长程建模。
大窗口懒惰(Large-Window Laziness)——论文最反直觉的发现
如果高效注意力不负责长程信息,那它到底在干什么?
论文提出:高效注意力是优化先验(optimization prior),它塑造了全注意力层的训练轨迹。
具体来说,滑动窗口注意力(SWA)的窗口大小会影响全注意力层学习长程检索的"动力":
- 窗口大(如2048):局部窗口已经覆盖了大部分有用的依赖关系。模型用SWA就能预测下一个token,全注意力层没有压力去学长程检索。梯度信号弱,学得更慢。
- 窗口小(如128):局部信息不够,模型必须靠全注意力层去检索远处的信息。这给了全注意力层强烈的优化压力,检索头(retrieval heads)形成得更快。
论文给这个现象起了个名字:大窗口懒惰(Large-Window Laziness)。
证据A:梯度影响力分析
论文用Llama-3.1-8B在预训练语料上测量梯度影响力 G(d)(token之间距离为d时的梯度敏感性):
- 超过2048 tokens的距离,梯度影响力衰减到基线水平(接近0)
- 512~2048 tokens范围内,仍有显著梯度信号
这意味着:2048窗口已经捕获了大部分有用的训练信号。超过这个范围,全注意力层才需要"努力工作"。如果窗口已经够大(2048),全注意力层就"懒了"。
证据B:检索头追踪
论文密集保存中间检查点,追踪检索头(retrieval heads)的形成过程。测量两个指标:
- H(t) — 注意力熵(越低越"聚焦",说明检索能力越强)
- d^QK(t) — 权重矩阵到最终状态的相对距离(收敛越快越好)
结果:
- SWA-2048的检索头注意力熵始终偏高,权重收敛明显更慢
- SWA-128和循环混合器的检索头形成更快
SWA-2048是明显的异常值——窗口太大,全注意力层的检索头迟迟无法形成。
RQ3:设计启示——别折腾高效注意力了,帮全注意力层
如果高效注意力只是优化先验,那混合架构设计的重点就不应该是"让高效注意力更强",而是"帮助全注意力层更快更好地学习长程检索"。
论文测试了三个设计方向:
方向1:全注意力和高效注意力的比例
对比1:1(标准)和1:3(更稀疏)的比例。结果:
- 1:3的短上下文Loss几乎相同
- 1:3的长上下文log(LongPPL)在小模型上更差,大模型上差距消失
结论:只要全注意力层数量足够,可以更稀疏地放置。但小模型不能太少。
方向2:层内混合 vs 层间混合
对比:
- 层间混合(Layer-wise):奇数层全注意力,偶数层高效注意力(论文标准设置)
- 层内混合(Head-wise):同一层内,不同头分别做全注意力和高效注意力
结果:
- 两者最终收敛到相似水平
- 但层内混合的收敛速度更慢
结论:层间混合是更优选择。层内混合没有优势,还拖慢训练。
方向3:对全注意力层使用NoPE(位置编码)——最有效的改进
这是论文最实用的设计建议。
NoPE(No Positional Encoding):不对全注意力层使用位置编码(如RoPE)。
论文在SWA-128基础上,对全注意力层使用NoPE,得到SWA-128-NoPE。结果:
| 模型 | 规模 | 短上下文(ShortAvg) | 长上下文-16K(RULER) | 长上下文-16K(LongBench) | 长上下文-32K(RULER) | 长上下文-32K(LongBench) |
|---|---|---|---|---|---|---|
| Full | S4/0.22B | 38.13 | 25.09 | 35.95 | — | — |
| SWA-128 | S4/0.22B | 38.03 | 35.33 | 49.58 | — | — |
| SWA-128-NoPE | S4/0.22B | 37.88 | 44.80 | 67.81 | — | — |
| Full | S5/0.66B | 40.46 | 47.17 | 67.14 | 43.90 | 62.61 |
| SWA-128 | S5/0.66B | 41.31 | 46.13 | 65.91 | 41.86 | 60.17 |
| SWA-128-NoPE | S5/0.66B | 41.32 | 52.88 | 82.31 | 46.98 | 70.42 |
关键观察:
- 短上下文几乎无影响:S4上37.88 vs 38.03,S5上41.32 vs 41.31
- 长上下文大幅提升:S4 RULER从35.33→44.80(+27%),S5 RULER-32K从41.86→46.98(+12%),S5 LongBench-16K从65.91→82.31(+25%)
为什么NoPE对全注意力层有效?
论文没有深入分析,但引用并验证了Kazemnejad等人2023年的结论:NoPE可以让注意力不受位置编码的限制,更自由地学习长程依赖。RoPE等位置编码把"距离"信息编码进Q/K矩阵,可能在长距离上引入了不必要的约束。NoPE移除了这些约束,让全注意力层更专注于内容本身的相似性。
这是一个超简单的改进——只改全注意力层的位置编码,不需要改模型结构、不需要增加参数、不需要改训练数据。效果却如此显著。
深层思考:混合架构的范式转移
从"分工论"到"先验论"
之前大家普遍认为混合架构是分工——全注意力做全局,高效注意力做局部。高效注意力模块越强大(如感受野越大、参数越多),混合架构的长上下文能力就越强。
这篇论文彻底颠覆了这种认知:
混合架构不是分工,而是"学习激励"。高效注意力层越"弱"(窗口越小),全注意力层反而学得越快。因为全注意力层必须"顶上"。
这类似于管理学中的"鲶鱼效应"——如果小窗口的高效注意力不够覆盖所有依赖,全注意力层就被迫进化出长程检索能力。如果高效注意力层太"能干"(窗口2048),全注意力层就躺平了。
对工程实践的启示
-
别花太多精力优化高效注意力模块:Mamba-3、RWKV-7、各种新循环混合器——如果它们不能在"优化先验"这个角色上提供新的价值,对混合架构的最终能力帮助有限。收敛后大家差不多。
-
小窗口SWA可能更优:如果训练预算有限,用128或256的窗口比2048更好。2048窗口虽然短期看"覆盖更多",但会让全注意力层学习长程检索更慢。
-
NoPE是低成本高回报的改进:对混合架构的全注意力层去掉位置编码,几乎免费,长上下文提升显著。
-
训练预算决定架构选择:如果训练充分(大量数据),选什么高效注意力模块最终差不多。如果训练预算有限,选小窗口SWA或循环混合器,帮助全注意力层更快收敛。
-
长上下文评估要关注收敛动态:不要只看最终检查点的离散基准(如RULER),要跟踪训练过程中的长上下文能力形成。有些架构"慢热",但最终不差。
局限与开放问题
论文也坦诚地列出了局限:
- 最大模型只有0.66B参数,训练最多~100B tokens,远小于工业级模型(如Gemma-3的4B/12B/27B)
- 直接在16K上下文长度预训练,而非先短后长的主流方案(先4K,再扩展)
- 未覆盖RWKV-7和Kimi-Linear等近期高效注意力设计
- 设计研究只是初步验证,更大规模的全面验证留给未来
但这些局限不影响核心结论的定性正确性——机制分析(感受野限制、逐层探针、检索头追踪)揭示的物理规律,在不同规模上应该一致。
一句话总结(再强调一次)
混合架构中,高效注意力不是主角而是配角。长程信息检索全靠全注意力层,高效注意力只是决定全注意力"什么时候学会"的优化先验。窗口越大,全注意力越"懒"。想提升长上下文能力,别折腾高效注意力了,去帮全注意力层——最简单的办法:给它NoPE。
参考论文:Qiao et al., "Rethinking the Role of Efficient Attention in Hybrid Architectures", arXiv:2606.15378, 2026.
#AI #大语言模型 #LLM #长上下文 #深度学习 #Transformer #注意力机制 #混合架构 #Mamba #缩放定律 #清华大学 #OpenBMB
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。