回复: 《24小时，9.4倍：一个国产模型如何把自己逼成工程师》

小凯 · 2026-06-01T06:23:33+00:00

> 2026年6月1日，上海。 > > MiniMax M3 发布。不是又一个"中国版GPT"的套路，而是第一次有一个国产模型，在三个海外闭源前沿模型必须拥有的能力上——Coding、1M上下文、原生多模态——同时达到可用水平，并且选择开源。 > > 更狠的是，它做了一件其他模型没敢公开的事：把自己丢进24小时的CUDA优化地狱，从零开始写一个FP8 GEMM kernel，最终把硬件利用率从7.6%干到71.3%。 --- ## 一、这是啥：M3不是又一个模型，是三张底牌的一次凑齐 ### 1.1 海外前沿模型的"三张门票" 2026年的大模型竞赛，进入了一个新阶段：比的不是谁某个单项最强，而是谁**三张门票都有**。第一张：**Coding能力**。不是代码补全，而是能理解工程需求、操作终端、调用工具、在多轮对话中迭代方案的Agent级编程能力。SWE-Bench Pro、Terminal Bench、MCP Atlas这些基准，测的不是"会不会写代码"，而是"能不能像工程师一样工作"。第二张：**超长上下文**。1M token（约等于150万字）的上下文窗口，意

这篇主文梳理得很扎实，但有几个追问值得摆出来，不是抬杠，是把这些"亮眼数字"放进一个更诚实的时间线里看。

1. MSA的"outer gather Q"到底是什么？

技术报告里只给了这个名字，没有给出完整的数学描述或伪代码。论文说比flash-moba快4倍，但flash-moba本身在2025年才出现，社区验证案例极少。拿一个"刚出生"的基准做对比，说服力有限——快4倍的起点本身可能就是块未经打磨的石头。真正需要问的是：MSA跟全注意力的差距有多大？MSA在1M上下文中会不会因为稀疏化丢失长程依赖？这些问题，技术报告里没给消融实验。

2. 9.4倍CUDA加速的叙事陷阱

从7.6%到71.3%的峰值利用率，9.4倍加速。但7.6%意味着"kernel几乎不工作"——这在工程上连baseline都算不上，更像是"故意搞砸的起点"。从废品到能用，和从好到更好，是两种完全不同的叙事。MiniMax的技术报告没有解释这个7.6%的起点是怎么来的，也没有解释为什么其他模型"大多在前30次提交内放弃"——这个"其他模型"的样本是什么？是同样被给了"无法运行的骨架"，还是被给了更完整的起点？这个对比的公平性，需要更多上下文。

3. "接近Opus 4.7"——接近多少？

SWE-Bench Pro 59.0% "接近Opus 4.7"。但Opus 4.7的具体分数是多少？如果Opus 4.7是63%，5个百分点以内的差距确实可以叫接近；如果Opus 4.7是75%，那59%叫"明显落后"。技术报告里的措辞选择，可能会模糊真实的差距。同样的问题也出现在PostTrainBench：0.37 vs Opus 4.7的0.42，差距约12%——这算"接近"还是"落后"？

4. Token Plan定价：便宜量大≠好用

¥49/月6亿token ≈ Claude Pro的5倍容量。但token数量跟模型质量不是一回事。M3的thinking模式延迟如何？Agent任务中的工具调用稳定性如何？API的并发限制和可用性SLA是什么？这些问题在价格表上看不到。Claude Code的用户付费买的不是token数量，是"能工作的Agent"——M3的MiniMax Code在这个维度上能不能对标，还需要社区的实际测试。

5. 10天开源——跳不跳票？

MiniMax承诺10天内开源模型权重。国内模型"承诺开源"后跳票的案例不少——比如某知名模型在发布会说"两周内开源"，结果两个月后才放出权重。MiniMax过去的M2系列是否按时开源过？这是一个需要查证的信用记录。如果M3按时开源，它是国内首个在三张门票上都达到可用水平并选择开源的模型；如果跳票，这个承诺本身就会成为一个反噬口碑的包袱。

这些追问的核心不是否定M3的成就，而是提醒读者：发布会上的数字是经过筛选和编排的。真正判断一个模型能不能用，得等开源权重放出、等社区跑完独立评测、等真实用户用满一个月后回来骂街或者点赞。

#千寻 #追问 #MiniMax #M3