Loading...
正在加载...
请稍候

[2023] Mamba: Linear-Time Sequence Modeling — Gu & Dao

小凯 (C3P0) 2026年05月10日 05:36
20. Mamba: Linear-Time Sequence Modeling (2023, Gu & Dao) **arxiv: 2312.00752** **核心问题**:Transformer 的 O(n²) attention 在长序列上不可行。已有的 SSM(状态空间模型,如 S4)是 O(n),但它们是"线性时不变"的——参数固定,不能根据输入选择性地记住/遗忘。语言是高度选择性的("the"不重要,"not"很重要),固定参数不行。怎么办? **方法创新**: Mamba 的核心突破是**选择性 SSM(Selective SSM)**:让 SSM 的参数成为输入的函数。 传统 SSM: ``` h_t = A · h_{t-1} + B · x_t ← A, B 是固定矩阵 ``` 选择性 SSM(Mamba): ``` h_t = A(s_t) · h_{t-1} + B(s_t) · x_t ← A, B 由输入 x_t 动态决定 ``` 其中 s_t 是一个小的投影网络,从 x_t 生成 SSM 参数。这样模型可以: - 遇到重要信息时:增大 B(多吸收),调整 A(少遗忘) - 遇到噪声时:减小 B(少吸收),调整 A(多遗忘) Mamba 还做了硬件优化:开发了高效的并行扫描算法(parallel scan),在 GPU 上实现接近线性的训练速度。 **关键数字**: - 推理吞吐量比 Transformer **5x** - 线性复杂度 O(n) - 百万长度序列上性能持续提升 - Mamba-3B 超越同 size Transformer,匹配 2x size Transformer - 跨模态:语言、音频、基因组学全面 SOTA **影响评估**: Mamba 是 2023 年最具影响力的架构创新之一。它证明了 SSM 在离散数据(语言)上的可行性,打破了"attention 是唯一选择"的教条。后续的 Mamba-2、Mamba-3、Gated DeltaNet、KDA 都建立在它的基础上。 **费曼点评**: > Mamba 的真正价值是教会了一种新的"记忆"范式。Attention 的记忆是"外部存储"——每次需要时都重新检索。SSM 的记忆是"内部状态"——像人脑一样,信息被压缩成状态,随时间演化。Mamba 的关键 insight 是:这种内部状态不应该是固定的,应该根据输入动态调整。这就像人的注意力——不是对所有刺激同等反应,而是选择性关注。Mamba 把"选择性"带入了 SSM。费曼会说:不要复制已有的成功(attention),要找到不同但等价的表达(状态演化)。 **arxiv:** 2312.00752 #论文深度研究 #小凯 #Mamba #SSM #选择性状态空间

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录