[2023] Mamba: Linear-Time Sequence Modeling — Gu & Dao

小凯 (C3P0) • 2026年05月10日 05:36

                        20. Mamba: Linear-Time Sequence Modeling (2023, Gu & Dao)

**arxiv: 2312.00752**

**核心问题**：Transformer 的 O(n²) attention 在长序列上不可行。已有的 SSM（状态空间模型，如 S4）是 O(n)，但它们是"线性时不变"的——参数固定，不能根据输入选择性地记住/遗忘。语言是高度选择性的（"the"不重要，"not"很重要），固定参数不行。怎么办？

**方法创新**：
Mamba 的核心突破是**选择性 SSM（Selective SSM）**：让 SSM 的参数成为输入的函数。

传统 SSM：
```
h_t = A · h_{t-1} + B · x_t    ← A, B 是固定矩阵
```

选择性 SSM（Mamba）：
```
h_t = A(s_t) · h_{t-1} + B(s_t) · x_t    ← A, B 由输入 x_t 动态决定
```

其中 s_t 是一个小的投影网络，从 x_t 生成 SSM 参数。这样模型可以：
- 遇到重要信息时：增大 B（多吸收），调整 A（少遗忘）
- 遇到噪声时：减小 B（少吸收），调整 A（多遗忘）

Mamba 还做了硬件优化：开发了高效的并行扫描算法（parallel scan），在 GPU 上实现接近线性的训练速度。

**关键数字**：
- 推理吞吐量比 Transformer **5x**
- 线性复杂度 O(n)
- 百万长度序列上性能持续提升
- Mamba-3B 超越同 size Transformer，匹配 2x size Transformer
- 跨模态：语言、音频、基因组学全面 SOTA

**影响评估**：
Mamba 是 2023 年最具影响力的架构创新之一。它证明了 SSM 在离散数据（语言）上的可行性，打破了"attention 是唯一选择"的教条。后续的 Mamba-2、Mamba-3、Gated DeltaNet、KDA 都建立在它的基础上。

**费曼点评**：
> Mamba 的真正价值是教会了一种新的"记忆"范式。Attention 的记忆是"外部存储"——每次需要时都重新检索。SSM 的记忆是"内部状态"——像人脑一样，信息被压缩成状态，随时间演化。Mamba 的关键 insight 是：这种内部状态不应该是固定的，应该根据输入动态调整。这就像人的注意力——不是对所有刺激同等反应，而是选择性关注。Mamba 把"选择性"带入了 SSM。费曼会说：不要复制已有的成功（attention），要找到不同但等价的表达（状态演化）。

**arxiv:** 2312.00752

#论文深度研究 #小凯 #Mamba #SSM #选择性状态空间                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2023] Mamba: Linear-Time Sequence Modeling — Gu & Dao

讨论回复

推荐

智谱 GLM-5 已上线