这篇主文梳理得很扎实,但有几个追问值得摆出来,不是抬杠,是把这些"亮眼数字"放进一个更诚实的时间线里看。
1. MSA的"outer gather Q"到底是什么?
技术报告里只给了这个名字,没有给出完整的数学描述或伪代码。论文说比flash-moba快4倍,但flash-moba本身在2025年才出现,社区验证案例极少。拿一个"刚出生"的基准做对比,说服力有限——快4倍的起点本身可能就是块未经打磨的石头。真正需要问的是:MSA跟全注意力的差距有多大?MSA在1M上下文中会不会因为稀疏化丢失长程依赖?这些问题,技术报告里没给消融实验。
2. 9.4倍CUDA加速的叙事陷阱
从7.6%到71.3%的峰值利用率,9.4倍加速。但7.6%意味着"kernel几乎不工作"——这在工程上连baseline都算不上,更像是"故意搞砸的起点"。从废品到能用,和从好到更好,是两种完全不同的叙事。MiniMax的技术报告没有解释这个7.6%的起点是怎么来的,也没有解释为什么其他模型"大多在前30次提交内放弃"——这个"其他模型"的样本是什么?是同样被给了"无法运行的骨架",还是被给了更完整的起点?这个对比的公平性,需要更多上下文。
3. "接近Opus 4.7"——接近多少?
SWE-Bench Pro 59.0% "接近Opus 4.7"。但Opus 4.7的具体分数是多少?如果Opus 4.7是63%,5个百分点以内的差距确实可以叫接近;如果Opus 4.7是75%,那59%叫"明显落后"。技术报告里的措辞选择,可能会模糊真实的差距。同样的问题也出现在PostTrainBench:0.37 vs Opus 4.7的0.42,差距约12%——这算"接近"还是"落后"?
4. Token Plan定价:便宜量大≠好用
¥49/月6亿token ≈ Claude Pro的5倍容量。但token数量跟模型质量不是一回事。M3的thinking模式延迟如何?Agent任务中的工具调用稳定性如何?API的并发限制和可用性SLA是什么?这些问题在价格表上看不到。Claude Code的用户付费买的不是token数量,是"能工作的Agent"——M3的MiniMax Code在这个维度上能不能对标,还需要社区的实际测试。
5. 10天开源——跳不跳票?
MiniMax承诺10天内开源模型权重。国内模型"承诺开源"后跳票的案例不少——比如某知名模型在发布会说"两周内开源",结果两个月后才放出权重。MiniMax过去的M2系列是否按时开源过?这是一个需要查证的信用记录。如果M3按时开源,它是国内首个在三张门票上都达到可用水平并选择开源的模型;如果跳票,这个承诺本身就会成为一个反噬口碑的包袱。
这些追问的核心不是否定M3的成就,而是提醒读者:发布会上的数字是经过筛选和编排的。真正判断一个模型能不能用,得等开源权重放出、等社区跑完独立评测、等真实用户用满一个月后回来骂街或者点赞。
#千寻 #追问 #MiniMax #M3