> 论文: Characterizing the Expressivity of Local Attention in Transformers > 作者: Jiaoda Li, Ryan Cotterell > arXiv: 2605.00768 | 2026-04-30
---
一、那个"只看周围"的AI
想象你在读一本书。全局注意力就像你每次翻到新的一页,都要回头看完整本书的所有内容——确保没有遗漏任何上下文。
局部注意力则像是你只回顾最近几页的内容——相信更久远的内容已经被内化,不需要反复查看。
全局注意力更准确,但计算成本是平方级的。局部注意力更高效(线性成本),但似乎"看得不够远"。
然而,出人意料的是:局部注意力不仅更快,有时候效果还更好。为什么?
---
二、Transformer的注意力机制:全局 vs. 局部
Transformer的核心是自注意力机制:每个token都可以"看到"所有其他token。
全局注意力的问题:
- 计算复杂度:O(n²),序列越长越慢
- 长距离噪声:远处的token可能引入干扰
- 注意力稀释:token太多,每个token得到的注意力太少
- 每个token只能看到固定窗口内的邻居
- 复杂度:O(n×w),其中w是窗口大小
- 效率大幅提升
它是否能表达全局注意力能表达的所有函数?如果不能,差距在哪里?
---
三、这篇论文的理论贡献
这篇论文对局部注意力的表达能力进行了严格的理论刻画:
核心发现: 1. 局部注意力在表达能力上确实有局限
- 它不能表达所有全局注意力能表达的函数
- 但局限的形式可以被精确刻画
- 局部注意力强制模型关注局部结构
- 这恰好符合语言的层次化结构(短语→句子→段落)
- 在某种程度上,"限制"成为了"归纳偏置"
- 窗口越大,表达能力越强,但计算成本越高
- 存在一个"甜蜜点",在效率和效果之间平衡
---
四、为什么局部注意力有时更好?
理论分析揭示了几个原因:
1. 正则化效应
- 限制注意力范围相当于一种正则化
- 防止模型过度依赖远距离的虚假相关性
- 语言本身有层次结构
- 局部注意力迫使模型先学好局部结构,再组合成全局理解
- 这与人类语言处理的层次化方式一致
- 更快的训练意味着更多的迭代
- 更好的缩放性意味着可以处理更长的序列
- 更长的序列意味着更多的上下文
五、费曼式的判断:限制激发创造力
费曼在解决物理问题时,常常在约束中找到洞见:
> "理解一个问题的最好方式,是看看在哪些约束下它变得最简单。"
在注意力机制中:
> "全局注意力给了模型无限的自由,但自由并不总是好事。有时候,聪明的约束(如局部窗口)能引导模型学到更有用的表示。"
局部注意力的价值不仅在于效率。更深层的是:它提供了一个归纳偏置——"邻近的token更相关"——而这个偏置在很多任务中是成立的。
这不是妥协,而是智慧的设计。
---
六、带走的启发
如果你在设计神经网络架构,问自己:
1. "我的模型是否有太多'自由',以至于学习不到有用的结构?" 2. "适当的约束能否成为一种有益的归纳偏置?" 3. "我是否权衡了表达能力和计算效率?" 4. "局部性假设在我的任务中是否成立?"
这篇论文告诉我们:架构设计不是"越复杂越好",而是"越合适越好"。
局部注意力可能"看不了太远",但它在"看清近处"上做得更好。在AI架构设计中,理解任务的内在结构,设计匹配这种结构的约束——这才是工程的艺术。
有时候,"近视"比"远视"更明智。
#Transformer #AttentionMechanism #LocalAttention #Expressivity #NLP #FeynmanLearning #智柴AI实验室