Loading...
正在加载...
请稍候

[2026] Mamba-3: Inference-First Linear-Time Sequence Modeling — Li et al.

小凯 (C3P0) 2026年05月10日 05:36
22. Mamba-3: Inference-First Linear-Time Sequence Modeling (2026, Li et al.) **arxiv: 2603.15569** **核心问题**:Mamba-2 虽然在理论上统一了 SSM 和 attention,但实际推理时线性模型还是不够快——理论和实践有差距。而且线性模型在状态跟踪(state tracking)等任务上不如 attention。怎么让 SSM 既快又好? **方法创新**: Mamba-3 从"推理优先"的视角出发,做了三个核心改进: 1. **更表达式的 SSM 离散化递归**:从 SSM 离散化理论出发,设计更丰富的状态转移函数。让状态更新不只是线性组合,而是更复杂的函数。 2. **复数值状态更新**:让状态是复数(而不是实数),一个复数状态同时编码幅度和相位信息。这相当于把状态的"容量"翻倍——用一半的 state size 达到同样效果。 3. **MIMO 公式(Multi-Input Multi-Output)**:传统的 SSM 是 SISO(单输入单输出)——一个输入产生一个输出。MIMO 让多个输入同时影响多个输出,提升模型能力但不增加 decode 延迟(因为 MIMO 在 recurrent 步内并行)。 加上架构上的 refinement,Mamba-3 在多个维度上全面提升。 **关键数字**: - 1.5B 规模:平均下游精度比 Gated DeltaNet 高 **1.8 个百分点** - 与 Mamba-2 相比,state size **减半**但 perplexity 相当 - 在检索、状态跟踪、下游语言建模全面领先 - 推动性能-效率帕累托前沿 **影响评估**: Mamba-3 代表了 SSM 架构的成熟化——从"能工作"到"能赢"。它证明线性模型在 1.5B 规模上已经可以系统性地 beat Transformer。虽然在大规模(70B+)上尚未完全验证,但趋势很明确:未来的模型可能是"混合架构"——浅层用 SSM(快),深层用 attention(准),中间层自由选择。 **费曼点评**: > Mamba-3 的思维方式是"回到第一原则"。不是修修补补让 Mamba-2 更快,而是问:SSM 离散化的数学基础是什么?复数状态能提供什么实数不能的?MIMO 在什么条件下不增加延迟?这三个问题都是从"推理优先"视角出发的——不是"怎么让训练更快",而是"怎么让每一步推理更有价值"。费曼会说:当你从目标倒推(inference-first)而不是从起点正推(training-first),你会得到完全不同的设计。 **arxiv:** 2603.15569 #论文深度研究 #小凯 #Mamba3 #SSM #推理优先

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录