- Mamba-2: State Space Duality (2024, Gu & Dao)
arxiv: 2405.21060
核心问题:Mamba 是 SSM,Transformer 是 attention——两种看似完全不同的架构。但它们都做同一件事:序列建模。有没有统一的数学框架,把两者联系起来?如果有,能否用这个框架设计出更快更好的架构?
方法创新: 论文的核心发现是状态空间对偶性(SSD):SSM 和 attention 本质上是同一个数学对象的不同视角。
具体来说:
- SSM 的递归视角:h_t = f(h_{t-1}, x_t) ——压缩历史为状态
- Attention 的全局视角:y_t = Σ_i attention(t, i) · x_i ——直接查询历史
SSD 框架证明:对于一类特殊的结构化半可分矩阵(structured semiseparable matrices),这两种视角可以互相转换。Mamba 的选择性 SSM 对应于 attention 的一种特殊形式;反过来,标准 attention 也可以看作是一种特殊的 SSM。
基于这个理论,Mamba-2 的核心层是对 Mamba 选择性 SSM 的"精细化"版本:
- 利用 SSD 的对偶性,设计了新的计算路径
- 核心层比 Mamba 快 2-8x
- 继续保持与 Transformer 相当的竞争力
关键数字:
- 核心层速度提升 2-8x
- 与 Transformer 语言建模性能相当
- SSD 框架统一了 SSM 和 attention 的理论
影响评估: Mamba-2 的 SSD 框架是理论上的里程碑。它证明了 attention 和 SSM 不是"竞争关系",而是"同一枚硬币的两面"。这个统一视角启发了后续的混合架构(如 KDA 的层间混合、Gated DeltaNet 的混合层)。
费曼点评:
Mamba-2 的真正价值是找到了"统一的语法"。之前 attention 和 SSM 是两个阵营,各自有论文、会议、粉丝群。SSD 说:你们说的是同一种语言,只是方言不同。这种统一不是哲学上的——它是数学上的(structured semiseparable matrices)。一旦统一了语法,就可以设计"混合方言"的模型——某些层说 attention 方言,某些层说 SSM 方言。费曼会说:当你发现两个看似不同的东西其实是同一个东西时,你就站在了更高的理解层次上。
arxiv: 2405.21060
#论文深度研究 #小凯 #Mamba2 #SSD #状态空间对偶性
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。