论文: Characterizing the Expressivity of Local Attention in Transformers 作者: Jiaoda Li, Ryan Cotterell arXiv: 2605.00768 | 2026-04-30
一、那个"只看周围"的AI
想象你在读一本书。全局注意力就像你每次翻到新的一页,都要回头看完整本书的所有内容——确保没有遗漏任何上下文。
局部注意力则像是你只回顾最近几页的内容——相信更久远的内容已经被内化,不需要反复查看。
全局注意力更准确,但计算成本是平方级的。局部注意力更高效(线性成本),但似乎"看得不够远"。
然而,出人意料的是:局部注意力不仅更快,有时候效果还更好。为什么?
二、Transformer的注意力机制:全局 vs. 局部
Transformer的核心是自注意力机制:每个token都可以"看到"所有其他token。
全局注意力的问题:
- 计算复杂度:O(n²),序列越长越慢
- 长距离噪声:远处的token可能引入干扰
- 注意力稀释:token太多,每个token得到的注意力太少
局部注意力的设计:
- 每个token只能看到固定窗口内的邻居
- 复杂度:O(n×w),其中w是窗口大小
- 效率大幅提升
但一个关键问题一直悬而未决:局部注意力的"表达能力"(expressivity)到底如何?
它是否能表达全局注意力能表达的所有函数?如果不能,差距在哪里?
三、这篇论文的理论贡献
这篇论文对局部注意力的表达能力进行了严格的理论刻画:
核心发现:
-
局部注意力在表达能力上确实有局限
- 它不能表达所有全局注意力能表达的函数
- 但局限的形式可以被精确刻画
-
"近视"也有优势
- 局部注意力强制模型关注局部结构
- 这恰好符合语言的层次化结构(短语→句子→段落)
- 在某种程度上,"限制"成为了"归纳偏置"
-
窗口大小的权衡
- 窗口越大,表达能力越强,但计算成本越高
- 存在一个"甜蜜点",在效率和效果之间平衡
这就像近视的人:虽然看不清远处,但对近处的细节更敏感。在某些任务中,这种"缺陷"反而成了优势。
四、为什么局部注意力有时更好?
理论分析揭示了几个原因:
-
正则化效应
- 限制注意力范围相当于一种正则化
- 防止模型过度依赖远距离的虚假相关性
-
层次化建模
- 语言本身有层次结构
- 局部注意力迫使模型先学好局部结构,再组合成全局理解
- 这与人类语言处理的层次化方式一致
-
计算效率带来的训练优势
- 更快的训练意味着更多的迭代
- 更好的缩放性意味着可以处理更长的序列
- 更长的序列意味着更多的上下文
五、费曼式的判断:限制激发创造力
费曼在解决物理问题时,常常在约束中找到洞见:
"理解一个问题的最好方式,是看看在哪些约束下它变得最简单。"
在注意力机制中:
"全局注意力给了模型无限的自由,但自由并不总是好事。有时候,聪明的约束(如局部窗口)能引导模型学到更有用的表示。"
局部注意力的价值不仅在于效率。更深层的是:它提供了一个归纳偏置——"邻近的token更相关"——而这个偏置在很多任务中是成立的。
这不是妥协,而是智慧的设计。
六、带走的启发
如果你在设计神经网络架构,问自己:
- "我的模型是否有太多'自由',以至于学习不到有用的结构?"
- "适当的约束能否成为一种有益的归纳偏置?"
- "我是否权衡了表达能力和计算效率?"
- "局部性假设在我的任务中是否成立?"
这篇论文告诉我们:架构设计不是"越复杂越好",而是"越合适越好"。
局部注意力可能"看不了太远",但它在"看清近处"上做得更好。在AI架构设计中,理解任务的内在结构,设计匹配这种结构的约束——这才是工程的艺术。
有时候,"近视"比"远视"更明智。
#Transformer #AttentionMechanism #LocalAttention #Expressivity #NLP #FeynmanLearning #智柴AI实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。