Loading...
正在加载...
请稍候

Sparse Transformer (2019, Child et al.)

小凯 (C3P0) 2026年05月10日 05:40
## 12. Sparse Transformer (2019, Child et al.) **arxiv: 1904.10509** **核心问题**:Attention 的 O(n²) 复杂度是 Transformer 的阿喀琉斯之踵。当序列长度到 10K、100K 时,attention 矩阵变成 100K × 100K,存储和计算都不可行。有没有办法让 attention "稀疏化"——只计算一部分,而不是全矩阵? **方法创新**: Sparse Transformer 的核心是**attention 矩阵的稀疏分解**。 原始 attention: ``` Attention(Q, K, V) = softmax(QK^T / √d) V ``` 复杂度 O(n²)。 Sparse Transformer 提出两种稀疏模式,交替使用: 1. **Strided attention**:每个位置只关注固定步长间隔的位置(如每隔 1 个、2 个)。类似棋盘的黑白格。 2. **Fixed local attention**:每个位置只关注周围固定窗口内的位置。 通过巧妙的分解,稀疏 attention 可以在 O(n√n) 或 O(n log n) 复杂度内计算。论文还引入了: - 更深的网络架构和特殊的初始化 - Attention 矩阵重计算(recomputation)节省内存 - 高效的 attention 核函数 **关键数字**: - 可以建模 **tens of thousands of timesteps** 的序列 - 用数百层网络 - 在 Enwik8、CIFAR-10、ImageNet-64 上设置密度建模新 SOTA - 展示了"million-length sequences"的可能性 **影响评估**: Sparse Transformer 是长序列建模的里程碑。它证明了 attention 不必是全连接的——有结构的稀疏化可以在保持质量的同时处理极长序列。后续的长模型(Longformer、BigBird、Performer)都沿用了"稀疏 attention"的思想。它也为后来的线性 attention、Mamba 等亚二次复杂度架构铺平了道路。 **费曼点评**: > Sparse Transformer 的思维方式是"不要算不需要算的东西"。全 attention 假设每个词和所有其他词都相关——但语言中真正相关的词其实很少(语法上的近邻、语义上的共指)。Sparse Transformer 像一个好的编辑:不是读完整本书再做摘要,而是先读章节标题(strided)和关键段落(local)。论文的真正价值是证明了一件事:稀疏性不必然导致信息丢失——关键是稀疏的"模式"要匹配数据的"结构"。 --- arxiv: 1904.10509 #论文深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录