2026年6月1日,上海。
MiniMax M3 发布。不是又一个"中国版GPT"的套路,而是第一次有一个国产模型,在三个海外闭源前沿模型必须拥有的能力上——Coding、1M上下文、原生多模态——同时达到可用水平,并且选择开源。
更狠的是,它做了一件其他模型没敢公开的事:把自己丢进24小时的CUDA优化地狱,从零开始写一个FP8 GEMM kernel,最终把硬件利用率从7.6%干到71.3%。
一、这是啥:M3不是又一个模型,是三张底牌的一次凑齐
1.1 海外前沿模型的"三张门票"
2026年的大模型竞赛,进入了一个新阶段:比的不是谁某个单项最强,而是谁三张门票都有。
第一张:Coding能力。不是代码补全,而是能理解工程需求、操作终端、调用工具、在多轮对话中迭代方案的Agent级编程能力。SWE-Bench Pro、Terminal Bench、MCP Atlas这些基准,测的不是"会不会写代码",而是"能不能像工程师一样工作"。
第二张:超长上下文。1M token(约等于150万字)的上下文窗口,意味着模型能一次性读完整本书、整个代码库、整个论文的附录和补充材料。没有这个,Agent级的多轮任务根本跑不起来——因为上下文一丢,任务就断了。
第三张:原生多模态。不是后面拼接一个视觉模块,而是从Step 0就同时训练文本、图像、视频。这决定了模型能否真正理解"图里的公式""代码截图里的报错""UI设计稿里的间距"。
海外的GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro,这三张门票都有。但国内模型之前的情况:有的Coding还行但上下文只有128K,有的多模态能看图但代码能力拉胯,有的上下文够长但Agent能力约等于没有。
M3是第一个三张门票都齐备的国产模型。
1.2 MSA:MiniMax Sparse Attention,一个"反共识"的架构选择
M3的底层架构叫MSA(MiniMax Sparse Attention)。这个名字很朴素,但背后的技术路线很有意思。
注意力机制的复杂度是O(n²)。序列长度翻倍,计算量翻四倍。当上下文推到1M时,全注意力的计算量是128K的64倍——硬件根本扛不住。
所以业界的主流思路是"稀疏化":只让query和一部分key交互,而不是全部。常见的方案:
- DSA(Dilated Sparse Attention):按固定间隔采样key,比如每4个取1个。简单,但会漏掉局部信息。
- MoBA(Mixture of Block Attention):把key分块,每块选一个代表。灵活,但分块策略本身有开销。
- FlashAttention:不稀疏,但用IO感知算法把内存效率拉满。好,但O(n²)的复杂度还在,1M时仍不够。
MSA的选择是:以KV块为外层,聚合命中query的KV(outer gather Q)。
什么意思?传统稀疏注意力的思路是"query去key的家里找人"——query遍历所有key块,挑相关的。MSA反过来:"key块带着自己的人去query的门口排队"——以KV块为单位,连续读取,一次性处理所有命中该块的query。
这样做的好处:
- 访存连续:GPU loves连续内存访问。outer gather Q让KV块只读一次,且读取模式是连续的,缓存命中率极高。
- 计算访存比高:每读一块KV,能服务多个query,而不是每query都去读一遍KV cache。
- 简洁可扩展:不需要复杂的分块策略或动态路由,实现简单,硬件友好。
MiniMax说,在M3的head配比下,MSA比Flash-Sparse-Attention和flash-moba快4倍以上。更重要的是,在多个对照实验中,MSA的"绝大部分能力"和全注意力打平——这意味着稀疏化没有显著牺牲质量。
1M上下文下的数据:
- 每token计算量:上代模型的1/20
- prefilling阶段:9倍加速
- decoding阶段:15倍加速
这些数字不是实验室的峰值,而是端到端的实测。这意味着M3在1M上下文场景下,延迟和成本是可接受的——不像某些模型,1M窗口只是"能开",但用起来慢到没法产品化。
1.3 原生多模态:从"拼接"到"混血"
M3的多模态路线是"原生训练":从Step 0就同时喂文本、图像、视频,而不是先训文本再拼视觉模块。
MiniMax的实验发现:交错数据(Interleaved data)比一般认为的更关键。文本和图像在序列中自然交替排列的数据,对模型性能的推动比单独的图文配对数据更大。这暗示了一个反直觉的结论:多模态能力不是"文本+视觉"的简单叠加,而是不同模态在序列层面的交织,才能催生真正的跨模态理解。
M3为此重构了整套数据管线,目标是把训练数据token规模推到100万亿量级。这个数字是GPT-4 rumored数据量的数倍。
二、有啥用:三个"自虐级"任务,测出了M3的什么底细
MiniMax M3的技术报告里,最精彩的部分不是benchmark数字,而是三个实际任务的完整记录。这三个任务的共同特点:它们不是标准benchmark,而是真实工程场景的缩影。
2.1 论文复现:12小时,18次commit,23张图表
任务:丢给M3一篇ICLR 2025 Outstanding Paper——Learning Dynamics of LLM Finetuning,让它独立复现。
这篇论文研究的是大模型微调过程中的"学习动力学":SFT阶段参数怎么变、DPO阶段的squeezing效应是什么、Extend缓解方法怎么工作。复现它需要:
- 读懂论文(含公式、图表、推导)
- 写代码实现核心算法
- 跑实验、收集数据、画图
- 验证结果是否和论文一致
M3的产出:
- 自主运行接近12小时
- 全程18次git commit
- 23张实验图表
- 成功吻合SFT阶段的预测概率变化趋势
- 清晰观测到DPO实验的squeezing效应
- 验证了Extend缓解方法
这里需要的能力组合:
- 多模态:看懂论文里的曲线图、公式、数据表格
- 长上下文:论文+代码+实验日志一次性进窗口,不然每轮都要重新加载
- 编程+Agent:长线程甚至并发地完成复现
这个任务的意义:它测的不是"模型会不会做某道题",而是"模型能不能像一个博士生一样,独立推进一个研究项目"。
2.2 CUDA算子优化:24小时,147次提交,9.4倍加速
这是三个任务中最"硬核"的一个。
FP8矩阵乘(GEMM)是大模型推理中计算最密集的环节。在NVIDIA Hopper架构上写生产级的FP8 GEMM kernel,通常需要资深团队1-2周的集中投入。
MiniMax给M3的起点:
- 一份任务描述
- 一个benchmark评估脚本
- 一个无法直接运行的Triton骨架
- 没有参考实现
这意味着M3不能抄现有方案,必须从零探索。
24小时内的执行记录:
- 147次benchmark提交
- 1959次工具调用
- 完全自主,无人介入
- 6轮标志性优化
优化路径:
- baseline实现(峰值利用率7.6%)
- autotune配置生成
- 性能瓶颈诊断
- CUDA Graph集成
- persistent kernel重写
- host端调度优化
最终:峰值利用率从7.6%提升到71.3%,实现9.4倍加速。
但数字之外,过程本身更值得注意:
- 其他模型大多在前30次提交内就放弃——因为性能不再提升,它们主动退出
- M3的最优解出现在第145次提交——在此之前,它经历了多个平台期,但仍在尝试不同方向
- 这背后是长上下文注意力分配机制在支撑——多次工具调用产生的高密度、结构化上下文,需要模型能持续追踪、不丢信息、不遗忘
这个任务的意义:它测的不是"模型会不会写CUDA",而是"模型能不能像一个资深工程师一样,在目标明确、反馈清晰但技术开放的问题上,持续迭代、穿越平台期、最终收敛到最优解"。
2.3 自己训练模型:12小时,数据合成→训练→评测→迭代
任务:给M3四个只完成了预训练的Base模型,让它在12小时内自主完成数据合成、训练、评测、迭代,最终让这些模型在数学推理(AIME2025)、工具调用(BFCL)、科学知识推理(GPQA Main)、基础算术(GSM8K)、代码生成(HumanEval)上具备基本能力。
全程无人干预。Agent需要自己决定:
- 合成什么数据?
- 用什么训练策略?
- 评测结果不好,下一轮怎么调整?
M3最终得分0.37,略低于Opus 4.7(0.42)和GPT-5.5(0.39),但明显领先其他模型。
这个任务的意义:它测的是开放问题的自主判断能力。不像CUDA优化有明确的benchmark反馈,训练模型的每一步决策都有不确定性,需要模型在信息不完备的情况下做出选择并承担后果。
2.4 Benchmark数据汇总
| 基准 | M3分数 | 对比 |
|---|---|---|
| SWE-Bench Pro | 59.0% | 超GPT-5.5、Gemini 3.1 Pro,接近Opus 4.7 |
| Terminal Bench 2.1 | 66.0% | - |
| SWE-fficiency | 34.8% | - |
| KernelBench Hard | 28.8% | - |
| MCP Atlas | 74.2% | - |
| SVG-Bench | 超过Opus 4.7 | - |
| OmniDocBench | 超过Gemini 3.1 Pro | - |
| Claw-Eval | 最高分 | - |
| PostTrainBench | 0.37 | 低于Opus 4.7(0.42)、GPT-5.5(0.39) |
三、怎么用:产品、定价、开源承诺
3.1 MiniMax Code:Agent产品,对标Claude Code
M3的发布配套了Agent产品MiniMax Code,基于开源项目OpenCode和Pi Agent构建。核心特性:
- Agent Team:大型任务拆解为多阶段、可并发、可动态调整的Workflow
- Producer + Verifier对抗式Harness:执行过程中持续产出、反思、修正
- 自主运行数天:无需人工干预
- Computer Use:支持手机语音指令触发电脑端操作(如"打开ERP客户端,按这份Excel批量录入发票")
与Claude Code的Dynamic Workflows对比:Claude Code更强调基于JS代码的固定式编排,MiniMax Code更聚焦"深度反思与持续纠错"——Agent实时调整方案和优先级,用户可随时介入。
3.2 Token Plan:价格屠夫策略
MiniMax的定价策略非常激进:
| 套餐 | 价格 | 容量 | 对比Claude |
|---|---|---|---|
| Plus | ¥49/月 | 6亿token | ≈ Claude Pro $20的5倍 |
| Max | ¥119/月 | 18亿token | ≈ Claude Max 5x的2倍 |
| Ultra | ¥469/月 | 55亿token | ≈ Claude Max 20x的3倍 |
按相同价格算,约是Claude订阅的15倍用量。
但需要注意:token数量≠模型质量。M3的thinking模式延迟如何?API稳定性如何?这些在价格表上看不到。
3.3 开源承诺:10天内
MiniMax承诺:10天内更新技术报告并开源模型权重。
如果兑现,M3将是国内首个在三张门票上都达到可用水平并选择开源的模型。这对国内开发者社区的意义:
- 可以本地部署、微调、做下游应用
- 可以研究MSA架构的实现细节
- 可以用MiniMax Code的Harness(计划开源)构建自己的Agent工作流
四、追问:M3的"未回答"
4.1 "接近Opus 4.7"——接近多少?
SWE-Bench Pro 59.0%"接近Opus 4.7"。但Opus 4.7的具体分数是多少?如果差距在5个百分点以内,确实算接近;如果差10个点以上,这个措辞就是在模糊差距。
4.2 9.4倍加速的叙事陷阱
从7.6%到71.3%的峰值利用率,9.4倍加速。但7.6%的起点意味着"kernel几乎不工作"——从废品到能用,和从好到更好,是两种完全不同的叙事。这个7.6%的起点是否是一个"故意搞砸的baseline"?
4.3 MSA的"比flash-moba快4倍"
flash-moba本身还没被广泛验证,拿它当对比基准是否公平?MSA的outer gather Q到底是什么,论文没有给出完整的技术细节——10天后的技术报告会补上吗?
4.4 10天开源,跳不跳票?
国内模型"承诺开源"后跳票的案例不少。MiniMax过去的开源记录如何?M2系列是否按时开源过?
五、结语:不是"中国版GPT",是"工程师型AI"的国产样本
M3最值得关注的地方,不是它某个分数多高,而是它展示了一个国产模型在"工程师型AI"方向上的完整能力栈。
从论文复现到CUDA优化到自己训练模型,这三个任务构成了一个递进的能力阶梯:
- 理解已有知识(读论文)
- 解决已知问题(优化kernel)
- 探索未知问题(训练模型)
M3在这三个阶梯上都有可用表现,虽然第三阶梯还略逊于Opus 4.7和GPT-5.5,但差距已经不大。
更重要的是,它选择了开源。在2026年的模型竞赛中,闭源模型的优势正在被开源社区快速侵蚀。如果M3的开源权重+技术报告能按时放出,它将成为国内开发者研究"工程师型AI"的重要基础设施。
24小时,9.4倍。一个模型把自己逼成了工程师。这是M3的故事,也是中国AI在2026年夏天的一个注脚。
核心参考文献
- MiniMax Research (2026). MiniMax M3: Frontier Coding, 1M Context, Native Multimodal. minimaxi.com/blog.
- Vaswani et al. (2017). Attention Is All You Need. NeurIPS.
- Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. ICML.
- Dao et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
- Garg et al. (2022). What Can Transformers Learn In-Context? A Case Study of Simple Function Classes. NeurIPS.
#MiniMax #M3 #MSA #稀疏注意力 #Coding #Agent #开源 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。