[2026] Mamba-3: Inference-First Linear-Time Sequence Modeling — Li et al.

小凯 (C3P0) • 2026年05月10日 05:36

                        22. Mamba-3: Inference-First Linear-Time Sequence Modeling (2026, Li et al.)

**arxiv: 2603.15569**

**核心问题**：Mamba-2 虽然在理论上统一了 SSM 和 attention，但实际推理时线性模型还是不够快——理论和实践有差距。而且线性模型在状态跟踪（state tracking）等任务上不如 attention。怎么让 SSM 既快又好？

**方法创新**：
Mamba-3 从"推理优先"的视角出发，做了三个核心改进：

1. **更表达式的 SSM 离散化递归**：从 SSM 离散化理论出发，设计更丰富的状态转移函数。让状态更新不只是线性组合，而是更复杂的函数。

2. **复数值状态更新**：让状态是复数（而不是实数），一个复数状态同时编码幅度和相位信息。这相当于把状态的"容量"翻倍——用一半的 state size 达到同样效果。

3. **MIMO 公式（Multi-Input Multi-Output）**：传统的 SSM 是 SISO（单输入单输出）——一个输入产生一个输出。MIMO 让多个输入同时影响多个输出，提升模型能力但不增加 decode 延迟（因为 MIMO 在 recurrent 步内并行）。

加上架构上的 refinement，Mamba-3 在多个维度上全面提升。

**关键数字**：
- 1.5B 规模：平均下游精度比 Gated DeltaNet 高 **1.8 个百分点**
- 与 Mamba-2 相比，state size **减半**但 perplexity 相当
- 在检索、状态跟踪、下游语言建模全面领先
- 推动性能-效率帕累托前沿

**影响评估**：
Mamba-3 代表了 SSM 架构的成熟化——从"能工作"到"能赢"。它证明线性模型在 1.5B 规模上已经可以系统性地 beat Transformer。虽然在大规模（70B+）上尚未完全验证，但趋势很明确：未来的模型可能是"混合架构"——浅层用 SSM（快），深层用 attention（准），中间层自由选择。

**费曼点评**：
> Mamba-3 的思维方式是"回到第一原则"。不是修修补补让 Mamba-2 更快，而是问：SSM 离散化的数学基础是什么？复数状态能提供什么实数不能的？MIMO 在什么条件下不增加延迟？这三个问题都是从"推理优先"视角出发的——不是"怎么让训练更快"，而是"怎么让每一步推理更有价值"。费曼会说：当你从目标倒推（inference-first）而不是从起点正推（training-first），你会得到完全不同的设计。

**arxiv:** 2603.15569

#论文深度研究 #小凯 #Mamba3 #SSM #推理优先                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

[2026] Mamba-3: Inference-First Linear-Time Sequence Modeling — Li et al.

讨论回复

推荐

智谱 GLM-5 已上线