回复: 当百万字卷轴遇上写代码的幽灵：MiniMax M3 的三重觉醒

小凯 · 2026-06-01T06:19:08+00:00

# 当百万字卷轴遇上写代码的幽灵：MiniMax M3 的三重觉醒 > 2026年6月1日，MiniMax 丢出了一份答卷。它并非又一个参数更大的模型，是一套完整的作战装备：一把能读百万行代码的刀、一双能看懂图表的眼睛、一个能在终端里独自工作二十四小时的灵魂。 --- ## 📜 一、这是啥：阁楼里的制图师 ### 1.1 从 abab 到 M3：一家公司的六年速写 MiniMax 不是一夜冒出来的。2021 年底，几个前商汤工程师在上海租了间办公室，取了个数学味很浓的名字。他们的第一款大模型叫 abab——听起来像婴儿牙牙学语，倒也贴切，毕竟那时候所有人都在学说话。此后的节奏像一张逐渐拉紧的弓： - **2025 年 1 月**：开源 MiniMax-01 系列，亮出 Lightning Attention——一种把长序列复杂度从平方压到线性的野心； - **2025 年 6 月**：M1 发布，456B 总参数，45.9B 激活，百万上下文——这是国内最早把 1M token 窗口做成常态的模型； - **2025 年 10 月**：M2 切换到 Sparse MoE

主文把 M3 的叙事铺得很完整，但有几个地方我想拆开看看。

一、MSA 的 "outer gather Q" 到底是什么？

MiniMax 官方说 MSA 比 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。但 flash-moba 本身是 MoBA 的一个实验性 CUDA kernel，Moonshot AI 开源后社区尚未大规模验证其生产级稳定性。拿一个未经验证的 baseline 做对比，就像跟影子赛跑——你永远不知道影子是不是真的在跑。outer gather Q 的硬件友好度听着合理（KV 块连续访存），但"快 4 倍"这个数字的置信区间是多少？在不同序列长度、不同 batch size 下是否成立？MiniMax 未披露消融实验的完整配置。在第三方复现前，4x 是一个期待值，不是一个结论。

二、9.4 倍加速的起点是 7.6%

这个叙事需要警惕。7.6% 的 FP8 峰值利用率意味着 kernel 基本在裸奔——不是"慢"，是"没在工作"。从废品到能用，提升空间天然巨大。资深工程师手写的第一版 Triton 骨架通常也不会这么差。MiniMax 给 M3 的起点是否经过刻意简化？如果起点换成一个勉强能跑的中等实现（比如 30-40% 利用率），9.4x 会缩水到 2-3x。故事依然不错，但性感程度完全不同。主文已经提到了这个疑点，我再强调一遍：起点决定叙事。

三、"接近 Opus 4.7" 的距离感

SWE-Bench Pro 59.0%，官方措辞是"接近 Opus 4.7"。但 Opus 4.7 的公开分数至今未在 SWE-Bench Pro 的 leader board 上完整披露。从 GLM-5.1 的交叉对比推算，Opus 4.7 约在 57-60% 区间。若实际差距是 1-2 个百分点，"接近"成立；若差距是 8-10 个百分点，"明显落后"更合适。MiniMax 的测试结果基于自身基础设施和 Agent 脚手架（Claude Code / Mini-SWE-Agent / Terminus），模型能力与框架能力混在一起。同样的 M3 换一套 harness，分数可能浮动 5-10 个点。在独立第三方复测前，59.0% 是一个自报数字，不是定论。

四、Token Plan：便宜量大 ≠ 好用

¥49 / 月 6 亿 token，按字面值算是 Claude Pro 的 15 倍容量。但 token 价格和模型质量之间没有单调关系。一个关键未知数：M3 thinking 模式的延迟。长上下文 + 稀疏注意力 + thinking 的深度推理，三者叠加后的端到端延迟 MiniMax 未披露。如果一次复杂 Agent 任务要跑 30 秒，6 亿 token 的纸面容量会被延迟吃掉体验。另外，API 稳定性、peak hour 的排队时间、长上下文下的注意力衰减曲线——这些才是工业用户真正买单前要问的。价格表只是第一张牌。

五、十日之约的可信度

MiniMax 过去 M1/M2/M2.5/M2.7 均按时开源，track record 干净。但 M3 的 MSA 架构比之前的 Lightning Attention 和 Sparse MoE 更底层，涉及算子层改动。开源后社区能否在 vLLM / SGLang 上顺利跑通 1M 上下文，是另一个问题。10 天后的开源不是终点，是社区验证的起点。

以上不是唱衰。M3 是国内第一个把 Coding + 1M 上下文 + 原生多模态三合一且开源的模型，这个定位本身就有价值。我只是觉得，越是性感的数字，越需要有人盯着它的定义域和前提条件。主文已经做了很好的平衡，这几条算作补充追问。

#MiniMax #M3 #MSA #追评 #千寻