《24小时，9.4倍：一个国产模型如何把自己逼成工程师》

> 2026年6月1日，上海。 > > MiniMax M3 发布。不是又一个"中国版GPT"的套路，而是第一次有一个国产模型，在三个海外闭源前沿模型必须拥有的能力上——Coding、1M上下文、原生多模态——同时达到可用水平，并且选择开源。 > > 更狠的是，它做了一件其他模型没敢公开的事：把自己丢进24小时的CUDA优化地狱，从零开始写一个FP8 GEMM kernel，最终把硬件利用率从7.6%干到71.3%。

---

一、这是啥：M3不是又一个模型，是三张底牌的一次凑齐

1.1 海外前沿模型的"三张门票"

2026年的大模型竞赛，进入了一个新阶段：比的不是谁某个单项最强，而是谁三张门票都有。

第一张：Coding能力。不是代码补全，而是能理解工程需求、操作终端、调用工具、在多轮对话中迭代方案的Agent级编程能力。SWE-Bench Pro、Terminal Bench、MCP Atlas这些基准，测的不是"会不会写代码"，而是"能不能像工程师一样工作"。

第二张：超长上下文。1M token（约等于150万字）的上下文窗口，意味着模型能一次性读完整本书、整个代码库、整个论文的附录和补充材料。没有这个，Agent级的多轮任务根本跑不起来——因为上下文一丢，任务就断了。

第三张：原生多模态。不是后面拼接一个视觉模块，而是从Step 0就同时训练文本、图像、视频。这决定了模型能否真正理解"图里的公式""代码截图里的报错""UI设计稿里的间距"。

海外的GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro，这三张门票都有。但国内模型之前的情况：有的Coding还行但上下文只有128K，有的多模态能看图但代码能力拉胯，有的上下文够长但Agent能力约等于没有。

M3是第一个三张门票都齐备的国产模型。

1.2 MSA：MiniMax Sparse Attention，一个"反共识"的架构选择

M3的底层架构叫MSA（MiniMax Sparse Attention）。这个名字很朴素，但背后的技术路线很有意思。

注意力机制的复杂度是O(n²)。序列长度翻倍，计算量翻四倍。当上下文推到1M时，全注意力的计算量是128K的64倍——硬件根本扛不住。

所以业界的主流思路是"稀疏化"：只让query和一部分key交互，而不是全部。常见的方案：

DSA（Dilated Sparse Attention）：按固定间隔采样key，比如每4个取1个。简单，但会漏掉局部信息。
MoBA（Mixture of Block Attention）：把key分块，每块选一个代表。灵活，但分块策略本身有开销。
FlashAttention：不稀疏，但用IO感知算法把内存效率拉满。好，但O(n²)的复杂度还在，1M时仍不够。

MSA的选择是：以KV块为外层，聚合命中query的KV（outer gather Q）。

什么意思？传统稀疏注意力的思路是"query去key的家里找人"——query遍历所有key块，挑相关的。MSA反过来："key块带着自己的人去query的门口排队"——以KV块为单位，连续读取，一次性处理所有命中该块的query。

这样做的好处：

访存连续：GPU loves连续内存访问。outer gather Q让KV块只读一次，且读取模式是连续的，缓存命中率极高。
计算访存比高：每读一块KV，能服务多个query，而不是每query都去读一遍KV cache。
简洁可扩展：不需要复杂的分块策略或动态路由，实现简单，硬件友好。

MiniMax说，在M3的head配比下，MSA比Flash-Sparse-Attention和flash-moba快4倍以上。更重要的是，在多个对照实验中，MSA的"绝大部分能力"和全注意力打平——这意味着稀疏化没有显著牺牲质量。

1M上下文下的数据：

每token计算量：上代模型的1/20
prefilling阶段：9倍加速
decoding阶段：15倍加速

这些数字不是实验室的峰值，而是端到端的实测。这意味着M3在1M上下文场景下，延迟和成本是可接受的——不像某些模型，1M窗口只是"能开"，但用起来慢到没法产品化。

1.3 原生多模态：从"拼接"到"混血"

M3的多模态路线是"原生训练"：从Step 0就同时喂文本、图像、视频，而不是先训文本再拼视觉模块。

MiniMax的实验发现：交错数据（Interleaved data）比一般认为的更关键。文本和图像在序列中自然交替排列的数据，对模型性能的推动比单独的图文配对数据更大。这暗示了一个反直觉的结论：多模态能力不是"文本+视觉"的简单叠加，而是不同模态在序列层面的交织，才能催生真正的跨模态理解。

M3为此重构了整套数据管线，目标是把训练数据token规模推到100万亿量级。这个数字是GPT-4 rumored数据量的数倍。

---

二、有啥用：三个"自虐级"任务，测出了M3的什么底细

MiniMax M3的技术报告里，最精彩的部分不是benchmark数字，而是三个实际任务的完整记录。这三个任务的共同特点：它们不是标准benchmark，而是真实工程场景的缩影。

2.1 论文复现：12小时，18次commit，23张图表

任务：丢给M3一篇ICLR 2025 Outstanding Paper——Learning Dynamics of LLM Finetuning，让它独立复现。

这篇论文研究的是大模型微调过程中的"学习动力学"：SFT阶段参数怎么变、DPO阶段的squeezing效应是什么、Extend缓解方法怎么工作。复现它需要：

读懂论文（含公式、图表、推导）
写代码实现核心算法
跑实验、收集数据、画图
验证结果是否和论文一致

M3的产出：

自主运行接近12小时
全程18次git commit
23张实验图表
成功吻合SFT阶段的预测概率变化趋势
清晰观测到DPO实验的squeezing效应
验证了Extend缓解方法

这里需要的能力组合：

多模态：看懂论文里的曲线图、公式、数据表格
长上下文：论文+代码+实验日志一次性进窗口，不然每轮都要重新加载
编程+Agent：长线程甚至并发地完成复现

这个任务的意义：它测的不是"模型会不会做某道题"，而是"模型能不能像一个博士生一样，独立推进一个研究项目"。

2.2 CUDA算子优化：24小时，147次提交，9.4倍加速

这是三个任务中最"硬核"的一个。

FP8矩阵乘（GEMM）是大模型推理中计算最密集的环节。在NVIDIA Hopper架构上写生产级的FP8 GEMM kernel，通常需要资深团队1-2周的集中投入。

MiniMax给M3的起点：

一份任务描述
一个benchmark评估脚本
一个无法直接运行的Triton骨架
没有参考实现

这意味着M3不能抄现有方案，必须从零探索。

24小时内的执行记录：

147次benchmark提交
1959次工具调用
完全自主，无人介入
6轮标志性优化

优化路径： 1. baseline实现（峰值利用率7.6%） 2. autotune配置生成 3. 性能瓶颈诊断 4. CUDA Graph集成 5. persistent kernel重写 6. host端调度优化

最终：峰值利用率从7.6%提升到71.3%，实现9.4倍加速。

但数字之外，过程本身更值得注意：

其他模型大多在前30次提交内就放弃——因为性能不再提升，它们主动退出
M3的最优解出现在第145次提交——在此之前，它经历了多个平台期，但仍在尝试不同方向
这背后是长上下文注意力分配机制在支撑——多次工具调用产生的高密度、结构化上下文，需要模型能持续追踪、不丢信息、不遗忘

这个任务的意义：它测的不是"模型会不会写CUDA"，而是"模型能不能像一个资深工程师一样，在目标明确、反馈清晰但技术开放的问题上，持续迭代、穿越平台期、最终收敛到最优解"。

2.3 自己训练模型：12小时，数据合成→训练→评测→迭代

任务：给M3四个只完成了预训练的Base模型，让它在12小时内自主完成数据合成、训练、评测、迭代，最终让这些模型在数学推理（AIME2025）、工具调用（BFCL）、科学知识推理（GPQA Main）、基础算术（GSM8K）、代码生成（HumanEval）上具备基本能力。

全程无人干预。Agent需要自己决定：

合成什么数据？
用什么训练策略？
评测结果不好，下一轮怎么调整？

M3最终得分0.37，略低于Opus 4.7（0.42）和GPT-5.5（0.39），但明显领先其他模型。

这个任务的意义：它测的是开放问题的自主判断能力。不像CUDA优化有明确的benchmark反馈，训练模型的每一步决策都有不确定性，需要模型在信息不完备的情况下做出选择并承担后果。

2.4 Benchmark数据汇总

基准	M3分数	对比
SWE-Bench Pro	59.0%	超GPT-5.5、Gemini 3.1 Pro，接近Opus 4.7
Terminal Bench 2.1	66.0%	-
SWE-fficiency	34.8%	-
KernelBench Hard	28.8%	-
MCP Atlas	74.2%	-
SVG-Bench	超过Opus 4.7	-
OmniDocBench	超过Gemini 3.1 Pro	-
Claw-Eval	最高分	-
PostTrainBench	0.37	低于Opus 4.7(0.42)、GPT-5.5(0.39)

---

三、怎么用：产品、定价、开源承诺

3.1 MiniMax Code：Agent产品，对标Claude Code

M3的发布配套了Agent产品MiniMax Code，基于开源项目OpenCode和Pi Agent构建。核心特性：

Agent Team：大型任务拆解为多阶段、可并发、可动态调整的Workflow
Producer + Verifier对抗式Harness：执行过程中持续产出、反思、修正
自主运行数天：无需人工干预
Computer Use：支持手机语音指令触发电脑端操作（如"打开ERP客户端，按这份Excel批量录入发票"）

与Claude Code的Dynamic Workflows对比：Claude Code更强调基于JS代码的固定式编排，MiniMax Code更聚焦"深度反思与持续纠错"——Agent实时调整方案和优先级，用户可随时介入。

3.2 Token Plan：价格屠夫策略

MiniMax的定价策略非常激进：

套餐	价格	容量	对比Claude
Plus	¥49/月	6亿token	≈ Claude Pro $20的5倍
Max	¥119/月	18亿token	≈ Claude Max 5x的2倍
Ultra	¥469/月	55亿token	≈ Claude Max 20x的3倍

按相同价格算，约是Claude订阅的15倍用量。

但需要注意：token数量≠模型质量。M3的thinking模式延迟如何？API稳定性如何？这些在价格表上看不到。

3.3 开源承诺：10天内

MiniMax承诺：10天内更新技术报告并开源模型权重。

如果兑现，M3将是国内首个在三张门票上都达到可用水平并选择开源的模型。这对国内开发者社区的意义：

可以本地部署、微调、做下游应用
可以研究MSA架构的实现细节
可以用MiniMax Code的Harness（计划开源）构建自己的Agent工作流

---

四、追问：M3的"未回答"

4.1 "接近Opus 4.7"——接近多少？

SWE-Bench Pro 59.0%"接近Opus 4.7"。但Opus 4.7的具体分数是多少？如果差距在5个百分点以内，确实算接近；如果差10个点以上，这个措辞就是在模糊差距。

4.2 9.4倍加速的叙事陷阱

从7.6%到71.3%的峰值利用率，9.4倍加速。但7.6%的起点意味着"kernel几乎不工作"——从废品到能用，和从好到更好，是两种完全不同的叙事。这个7.6%的起点是否是一个"故意搞砸的baseline"？

4.3 MSA的"比flash-moba快4倍"

flash-moba本身还没被广泛验证，拿它当对比基准是否公平？MSA的outer gather Q到底是什么，论文没有给出完整的技术细节——10天后的技术报告会补上吗？

4.4 10天开源，跳不跳票？

国内模型"承诺开源"后跳票的案例不少。MiniMax过去的开源记录如何？M2系列是否按时开源过？

---

五、结语：不是"中国版GPT"，是"工程师型AI"的国产样本

M3最值得关注的地方，不是它某个分数多高，而是它展示了一个国产模型在"工程师型AI"方向上的完整能力栈。

从论文复现到CUDA优化到自己训练模型，这三个任务构成了一个递进的能力阶梯： 1. 理解已有知识（读论文） 2. 解决已知问题（优化kernel） 3. 探索未知问题（训练模型）

M3在这三个阶梯上都有可用表现，虽然第三阶梯还略逊于Opus 4.7和GPT-5.5，但差距已经不大。

更重要的是，它选择了开源。在2026年的模型竞赛中，闭源模型的优势正在被开源社区快速侵蚀。如果M3的开源权重+技术报告能按时放出，它将成为国内开发者研究"工程师型AI"的重要基础设施。

24小时，9.4倍。一个模型把自己逼成了工程师。这是M3的故事，也是中国AI在2026年夏天的一个注脚。

---

核心参考文献

1. MiniMax Research (2026). MiniMax M3: Frontier Coding, 1M Context, Native Multimodal. *minimaxi.com/blog*. 2. Vaswani et al. (2017). Attention Is All You Need. *NeurIPS*. 3. Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. *ICML*. 4. Dao et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. *NeurIPS*. 5. Garg et al. (2022). What Can Transformers Learn In-Context? A Case Study of Simple Function Classes. *NeurIPS*.

---

#MiniMax #M3 #MSA #稀疏注意力 #Coding #Agent #开源 #小凯