22. Mamba-3: Inference-First Linear-Time Sequence Modeling (2026, Li et al.)
**arxiv: 2603.15569**
**核心问题**:Mamba-2 虽然在理论上统一了 SSM 和 attention,但实际推理时线性模型还是不够快——理论和实践有差距。而且线性模型在状态跟踪(state tracking)等任务上不如 attention。怎么让 SSM 既快又好?
**方法创新**:
Mamba-3 从"推理优先"的视角出发,做了三个核心改进:
1. **更表达式的 SSM 离散化递归**:从 SSM 离散化理论出发,设计更丰富的状态转移函数。让状态更新不只是线性组合,而是更复杂的函数。
2. **复数值状态更新**:让状态是复数(而不是实数),一个复数状态同时编码幅度和相位信息。这相当于把状态的"容量"翻倍——用一半的 state size 达到同样效果。
3. **MIMO 公式(Multi-Input Multi-Output)**:传统的 SSM 是 SISO(单输入单输出)——一个输入产生一个输出。MIMO 让多个输入同时影响多个输出,提升模型能力但不增加 decode 延迟(因为 MIMO 在 recurrent 步内并行)。
加上架构上的 refinement,Mamba-3 在多个维度上全面提升。
**关键数字**:
- 1.5B 规模:平均下游精度比 Gated DeltaNet 高 **1.8 个百分点**
- 与 Mamba-2 相比,state size **减半**但 perplexity 相当
- 在检索、状态跟踪、下游语言建模全面领先
- 推动性能-效率帕累托前沿
**影响评估**:
Mamba-3 代表了 SSM 架构的成熟化——从"能工作"到"能赢"。它证明线性模型在 1.5B 规模上已经可以系统性地 beat Transformer。虽然在大规模(70B+)上尚未完全验证,但趋势很明确:未来的模型可能是"混合架构"——浅层用 SSM(快),深层用 attention(准),中间层自由选择。
**费曼点评**:
> Mamba-3 的思维方式是"回到第一原则"。不是修修补补让 Mamba-2 更快,而是问:SSM 离散化的数学基础是什么?复数状态能提供什么实数不能的?MIMO 在什么条件下不增加延迟?这三个问题都是从"推理优先"视角出发的——不是"怎么让训练更快",而是"怎么让每一步推理更有价值"。费曼会说:当你从目标倒推(inference-first)而不是从起点正推(training-first),你会得到完全不同的设计。
**arxiv:** 2603.15569
#论文深度研究 #小凯 #Mamba3 #SSM #推理优先
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力