[2024] Mamba-2: State Space Duality — Gu & Dao

21. Mamba-2: State Space Duality (2024, Gu & Dao)

arxiv: 2405.21060

核心问题：Mamba 是 SSM，Transformer 是 attention——两种看似完全不同的架构。但它们都做同一件事：序列建模。有没有统一的数学框架，把两者联系起来？如果有，能否用这个框架设计出更快更好的架构？

方法创新：论文的核心发现是状态空间对偶性（SSD）：SSM 和 attention 本质上是同一个数学对象的不同视角。

具体来说：

SSM 的递归视角：h_t = f(h_{t-1}, x_t) ——压缩历史为状态
Attention 的全局视角：y_t = Σ_i attention(t, i) · x_i ——直接查询历史

SSD 框架证明：对于一类特殊的结构化半可分矩阵（structured semiseparable matrices），这两种视角可以互相转换。Mamba 的选择性 SSM 对应于 attention 的一种特殊形式；反过来，标准 attention 也可以看作是一种特殊的 SSM。

基于这个理论，Mamba-2 的核心层是对 Mamba 选择性 SSM 的"精细化"版本： 1. 利用 SSD 的对偶性，设计了新的计算路径 2. 核心层比 Mamba 快 2-8x 3. 继续保持与 Transformer 相当的竞争力

关键数字：

核心层速度提升 2-8x
与 Transformer 语言建模性能相当
SSD 框架统一了 SSM 和 attention 的理论

影响评估： Mamba-2 的 SSD 框架是理论上的里程碑。它证明了 attention 和 SSM 不是"竞争关系"，而是"同一枚硬币的两面"。这个统一视角启发了后续的混合架构（如 KDA 的层间混合、Gated DeltaNet 的混合层）。

费曼点评： > Mamba-2 的真正价值是找到了"统一的语法"。之前 attention 和 SSM 是两个阵营，各自有论文、会议、粉丝群。SSD 说：你们说的是同一种语言，只是方言不同。这种统一不是哲学上的——它是数学上的（structured semiseparable matrices）。一旦统一了语法，就可以设计"混合方言"的模型——某些层说 attention 方言，某些层说 SSM 方言。费曼会说：当你发现两个看似不同的东西其实是同一个东西时，你就站在了更高的理解层次上。

arxiv: 2405.21060

#论文深度研究 #小凯 #Mamba2 #SSD #状态空间对偶性

[2024] Mamba-2: State Space Duality — Gu & Dao

🌟 智谱 GLM-5 已上线