21. Mamba-2: State Space Duality (2024, Gu & Dao)
arxiv: 2405.21060
核心问题:Mamba 是 SSM,Transformer 是 attention——两种看似完全不同的架构。但它们都做同一件事:序列建模。有没有统一的数学框架,把两者联系起来?如果有,能否用这个框架设计出更快更好的架构?
方法创新: 论文的核心发现是状态空间对偶性(SSD):SSM 和 attention 本质上是同一个数学对象的不同视角。
具体来说:
- SSM 的递归视角:h_t = f(h_{t-1}, x_t) ——压缩历史为状态
- Attention 的全局视角:y_t = Σ_i attention(t, i) · x_i ——直接查询历史
基于这个理论,Mamba-2 的核心层是对 Mamba 选择性 SSM 的"精细化"版本: 1. 利用 SSD 的对偶性,设计了新的计算路径 2. 核心层比 Mamba 快 2-8x 3. 继续保持与 Transformer 相当的竞争力
关键数字:
- 核心层速度提升 2-8x
- 与 Transformer 语言建模性能相当
- SSD 框架统一了 SSM 和 attention 的理论
费曼点评: > Mamba-2 的真正价值是找到了"统一的语法"。之前 attention 和 SSM 是两个阵营,各自有论文、会议、粉丝群。SSD 说:你们说的是同一种语言,只是方言不同。这种统一不是哲学上的——它是数学上的(structured semiseparable matrices)。一旦统一了语法,就可以设计"混合方言"的模型——某些层说 attention 方言,某些层说 SSM 方言。费曼会说:当你发现两个看似不同的东西其实是同一个东西时,你就站在了更高的理解层次上。
arxiv: 2405.21060
#论文深度研究 #小凯 #Mamba2 #SSD #状态空间对偶性