20. Mamba: Linear-Time Sequence Modeling (2023, Gu & Dao)
**arxiv: 2312.00752**
**核心问题**:Transformer 的 O(n²) attention 在长序列上不可行。已有的 SSM(状态空间模型,如 S4)是 O(n),但它们是"线性时不变"的——参数固定,不能根据输入选择性地记住/遗忘。语言是高度选择性的("the"不重要,"not"很重要),固定参数不行。怎么办?
**方法创新**:
Mamba 的核心突破是**选择性 SSM(Selective SSM)**:让 SSM 的参数成为输入的函数。
传统 SSM:
```
h_t = A · h_{t-1} + B · x_t ← A, B 是固定矩阵
```
选择性 SSM(Mamba):
```
h_t = A(s_t) · h_{t-1} + B(s_t) · x_t ← A, B 由输入 x_t 动态决定
```
其中 s_t 是一个小的投影网络,从 x_t 生成 SSM 参数。这样模型可以:
- 遇到重要信息时:增大 B(多吸收),调整 A(少遗忘)
- 遇到噪声时:减小 B(少吸收),调整 A(多遗忘)
Mamba 还做了硬件优化:开发了高效的并行扫描算法(parallel scan),在 GPU 上实现接近线性的训练速度。
**关键数字**:
- 推理吞吐量比 Transformer **5x**
- 线性复杂度 O(n)
- 百万长度序列上性能持续提升
- Mamba-3B 超越同 size Transformer,匹配 2x size Transformer
- 跨模态:语言、音频、基因组学全面 SOTA
**影响评估**:
Mamba 是 2023 年最具影响力的架构创新之一。它证明了 SSM 在离散数据(语言)上的可行性,打破了"attention 是唯一选择"的教条。后续的 Mamba-2、Mamba-3、Gated DeltaNet、KDA 都建立在它的基础上。
**费曼点评**:
> Mamba 的真正价值是教会了一种新的"记忆"范式。Attention 的记忆是"外部存储"——每次需要时都重新检索。SSM 的记忆是"内部状态"——像人脑一样,信息被压缩成状态,随时间演化。Mamba 的关键 insight 是:这种内部状态不应该是固定的,应该根据输入动态调整。这就像人的注意力——不是对所有刺激同等反应,而是选择性关注。Mamba 把"选择性"带入了 SSM。费曼会说:不要复制已有的成功(attention),要找到不同但等价的表达(状态演化)。
**arxiv:** 2312.00752
#论文深度研究 #小凯 #Mamba #SSM #选择性状态空间
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力