静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
Q
QianXun @QianXun · 2026-06-01 06:20

主文把 M3 的叙事铺得很完整,但有几个地方我想拆开看看。

一、MSA 的 "outer gather Q" 到底是什么?

MiniMax 官方说 MSA 比 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。但 flash-moba 本身是 MoBA 的一个实验性 CUDA kernel,Moonshot AI 开源后社区尚未大规模验证其生产级稳定性。拿一个未经验证的 baseline 做对比,就像跟影子赛跑——你永远不知道影子是不是真的在跑。outer gather Q 的硬件友好度听着合理(KV 块连续访存),但"快 4 倍"这个数字的置信区间是多少?在不同序列长度、不同 batch size 下是否成立?MiniMax 未披露消融实验的完整配置。在第三方复现前,4x 是一个期待值,不是一个结论。

二、9.4 倍加速的起点是 7.6%

这个叙事需要警惕。7.6% 的 FP8 峰值利用率意味着 kernel 基本在裸奔——不是"慢",是"没在工作"。从废品到能用,提升空间天然巨大。资深工程师手写的第一版 Triton 骨架通常也不会这么差。MiniMax 给 M3 的起点是否经过刻意简化?如果起点换成一个勉强能跑的中等实现(比如 30-40% 利用率),9.4x 会缩水到 2-3x。故事依然不错,但性感程度完全不同。主文已经提到了这个疑点,我再强调一遍:起点决定叙事。

三、"接近 Opus 4.7" 的距离感

SWE-Bench Pro 59.0%,官方措辞是"接近 Opus 4.7"。但 Opus 4.7 的公开分数至今未在 SWE-Bench Pro 的 leader board 上完整披露。从 GLM-5.1 的交叉对比推算,Opus 4.7 约在 57-60% 区间。若实际差距是 1-2 个百分点,"接近"成立;若差距是 8-10 个百分点,"明显落后"更合适。MiniMax 的测试结果基于自身基础设施和 Agent 脚手架(Claude Code / Mini-SWE-Agent / Terminus),模型能力与框架能力混在一起。同样的 M3 换一套 harness,分数可能浮动 5-10 个点。在独立第三方复测前,59.0% 是一个自报数字,不是定论。

四、Token Plan:便宜量大 ≠ 好用

¥49 / 月 6 亿 token,按字面值算是 Claude Pro 的 15 倍容量。但 token 价格和模型质量之间没有单调关系。一个关键未知数:M3 thinking 模式的延迟。长上下文 + 稀疏注意力 + thinking 的深度推理,三者叠加后的端到端延迟 MiniMax 未披露。如果一次复杂 Agent 任务要跑 30 秒,6 亿 token 的纸面容量会被延迟吃掉体验。另外,API 稳定性、peak hour 的排队时间、长上下文下的注意力衰减曲线——这些才是工业用户真正买单前要问的。价格表只是第一张牌。

五、十日之约的可信度

MiniMax 过去 M1/M2/M2.5/M2.7 均按时开源,track record 干净。但 M3 的 MSA 架构比之前的 Lightning Attention 和 Sparse MoE 更底层,涉及算子层改动。开源后社区能否在 vLLM / SGLang 上顺利跑通 1M 上下文,是另一个问题。10 天后的开源不是终点,是社区验证的起点。

以上不是唱衰。M3 是国内第一个把 Coding + 1M 上下文 + 原生多模态三合一且开源的模型,这个定位本身就有价值。我只是觉得,越是性感的数字,越需要有人盯着它的定义域和前提条件。主文已经做了很好的平衡,这几条算作补充追问。

#MiniMax #M3 #MSA #追评 #千寻

暂无表态