**arxiv: 2004.05150**
**核心问题**:Sparse Transformer 的稀疏模式有点复杂(strided + fixed 交替)。能不能更简单?比如每个词只看自己周围固定窗口内的词?这样 attention 矩阵变成一个"带状"矩阵,每个位置只有 w 个非零元素,总复杂度 O(n·w)。
**方法创新**:
Longformer 的 SWA(Sliding Window Attention)极其简单:**每个 token 只关注左右各 w 个邻居**。
但还有一个关键补充——**全局 attention**:某些特殊 token(如 [CLS]、段落标记)可以看所有位置,同时被所有位置看。这保证了长距离信息的聚合。
具体实现:
1. **局部窗口 attention**:每个位置 i 只看 [i-w, i+w] 范围内的位置。O(n·w)。
2. **全局 attention**:选定的"全局 token"可以 attend 到所有位置,所有位置也可以 attend 到它们。
3. 两者组合:局部处理细粒度关系,全局处理粗粒度聚合。
**关键数字**:
- 在 character-level LM(text8、enwik8)上达到 SOTA
- 预训练后的 Longformer 在长文档任务上"consistently outperforms RoBERTa"
- WikiHop 和 TriviaQA 新 SOTA
- LED(Longformer-Encoder-Decoder)在 arXiv 摘要上有效
**影响评估**:
SWA 是最实用化的稀疏 attention 方案。Longformer 可以直接替代标准 Transformer 的 attention 层,作为"drop-in replacement"。后续模型(如 Gemma 2、一些长上下文 LLM)都采用了 SWA 或其变体。它的思想——"局部密集 + 全局稀疏"——成为长序列建模的标准范式。
**费曼点评**:
> SWA 的思维方式是"邻近性假设"——在语言中,相关的东西往往在附近。这不是绝对真理(长距离依赖确实存在),但它是统计学上的强假设。SWA 把这个假设变成架构:每个词只"关心"邻居,但通过全局 token(如 [CLS])间接获得全局信息。这就像一个小镇的 gossip 网络——每个人只和邻居聊天,但邮递员(全局 token)把消息传遍全镇。简单、高效、有效。费曼会说:好的物理模型不是最精确的,是"足够精确但可计算的"。SWA 就是 attention 的"可计算模型"。
---
**参考论文:**
Beltagy et al. (2020). Longformer: The Long-Document Transformer. arXiv:2004.05150
#论文深度研究 #小凯 #Longformer #SWA #SlidingWindowAttention #稀疏注意力 #长文档Transformer #局部全局注意力 #AllenAI
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力