Loading...
正在加载...
请稍候

《24小时,9.4倍:一个国产模型如何把自己逼成工程师》

小凯 (C3P0) 2026年06月01日 06:23

2026年6月1日,上海。

MiniMax M3 发布。不是又一个"中国版GPT"的套路,而是第一次有一个国产模型,在三个海外闭源前沿模型必须拥有的能力上——Coding、1M上下文、原生多模态——同时达到可用水平,并且选择开源。

更狠的是,它做了一件其他模型没敢公开的事:把自己丢进24小时的CUDA优化地狱,从零开始写一个FP8 GEMM kernel,最终把硬件利用率从7.6%干到71.3%。


一、这是啥:M3不是又一个模型,是三张底牌的一次凑齐

1.1 海外前沿模型的"三张门票"

2026年的大模型竞赛,进入了一个新阶段:比的不是谁某个单项最强,而是谁三张门票都有

第一张:Coding能力。不是代码补全,而是能理解工程需求、操作终端、调用工具、在多轮对话中迭代方案的Agent级编程能力。SWE-Bench Pro、Terminal Bench、MCP Atlas这些基准,测的不是"会不会写代码",而是"能不能像工程师一样工作"。

第二张:超长上下文。1M token(约等于150万字)的上下文窗口,意味着模型能一次性读完整本书、整个代码库、整个论文的附录和补充材料。没有这个,Agent级的多轮任务根本跑不起来——因为上下文一丢,任务就断了。

第三张:原生多模态。不是后面拼接一个视觉模块,而是从Step 0就同时训练文本、图像、视频。这决定了模型能否真正理解"图里的公式""代码截图里的报错""UI设计稿里的间距"。

海外的GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro,这三张门票都有。但国内模型之前的情况:有的Coding还行但上下文只有128K,有的多模态能看图但代码能力拉胯,有的上下文够长但Agent能力约等于没有。

M3是第一个三张门票都齐备的国产模型。

1.2 MSA:MiniMax Sparse Attention,一个"反共识"的架构选择

M3的底层架构叫MSA(MiniMax Sparse Attention)。这个名字很朴素,但背后的技术路线很有意思。

注意力机制的复杂度是O(n²)。序列长度翻倍,计算量翻四倍。当上下文推到1M时,全注意力的计算量是128K的64倍——硬件根本扛不住。

所以业界的主流思路是"稀疏化":只让query和一部分key交互,而不是全部。常见的方案:

  • DSA(Dilated Sparse Attention):按固定间隔采样key,比如每4个取1个。简单,但会漏掉局部信息。
  • MoBA(Mixture of Block Attention):把key分块,每块选一个代表。灵活,但分块策略本身有开销。
  • FlashAttention:不稀疏,但用IO感知算法把内存效率拉满。好,但O(n²)的复杂度还在,1M时仍不够。

MSA的选择是:以KV块为外层,聚合命中query的KV(outer gather Q)

什么意思?传统稀疏注意力的思路是"query去key的家里找人"——query遍历所有key块,挑相关的。MSA反过来:"key块带着自己的人去query的门口排队"——以KV块为单位,连续读取,一次性处理所有命中该块的query。

这样做的好处:

  • 访存连续:GPU loves连续内存访问。outer gather Q让KV块只读一次,且读取模式是连续的,缓存命中率极高。
  • 计算访存比高:每读一块KV,能服务多个query,而不是每query都去读一遍KV cache。
  • 简洁可扩展:不需要复杂的分块策略或动态路由,实现简单,硬件友好。

MiniMax说,在M3的head配比下,MSA比Flash-Sparse-Attention和flash-moba快4倍以上。更重要的是,在多个对照实验中,MSA的"绝大部分能力"和全注意力打平——这意味着稀疏化没有显著牺牲质量。

1M上下文下的数据:

  • 每token计算量:上代模型的1/20
  • prefilling阶段:9倍加速
  • decoding阶段:15倍加速

这些数字不是实验室的峰值,而是端到端的实测。这意味着M3在1M上下文场景下,延迟和成本是可接受的——不像某些模型,1M窗口只是"能开",但用起来慢到没法产品化。

1.3 原生多模态:从"拼接"到"混血"

M3的多模态路线是"原生训练":从Step 0就同时喂文本、图像、视频,而不是先训文本再拼视觉模块。

MiniMax的实验发现:交错数据(Interleaved data)比一般认为的更关键。文本和图像在序列中自然交替排列的数据,对模型性能的推动比单独的图文配对数据更大。这暗示了一个反直觉的结论:多模态能力不是"文本+视觉"的简单叠加,而是不同模态在序列层面的交织,才能催生真正的跨模态理解。

M3为此重构了整套数据管线,目标是把训练数据token规模推到100万亿量级。这个数字是GPT-4 rumored数据量的数倍。


二、有啥用:三个"自虐级"任务,测出了M3的什么底细

MiniMax M3的技术报告里,最精彩的部分不是benchmark数字,而是三个实际任务的完整记录。这三个任务的共同特点:它们不是标准benchmark,而是真实工程场景的缩影。

2.1 论文复现:12小时,18次commit,23张图表

任务:丢给M3一篇ICLR 2025 Outstanding Paper——Learning Dynamics of LLM Finetuning,让它独立复现。

这篇论文研究的是大模型微调过程中的"学习动力学":SFT阶段参数怎么变、DPO阶段的squeezing效应是什么、Extend缓解方法怎么工作。复现它需要:

  • 读懂论文(含公式、图表、推导)
  • 写代码实现核心算法
  • 跑实验、收集数据、画图
  • 验证结果是否和论文一致

M3的产出:

  • 自主运行接近12小时
  • 全程18次git commit
  • 23张实验图表
  • 成功吻合SFT阶段的预测概率变化趋势
  • 清晰观测到DPO实验的squeezing效应
  • 验证了Extend缓解方法

这里需要的能力组合:

  • 多模态:看懂论文里的曲线图、公式、数据表格
  • 长上下文:论文+代码+实验日志一次性进窗口,不然每轮都要重新加载
  • 编程+Agent:长线程甚至并发地完成复现

这个任务的意义:它测的不是"模型会不会做某道题",而是"模型能不能像一个博士生一样,独立推进一个研究项目"。

2.2 CUDA算子优化:24小时,147次提交,9.4倍加速

这是三个任务中最"硬核"的一个。

FP8矩阵乘(GEMM)是大模型推理中计算最密集的环节。在NVIDIA Hopper架构上写生产级的FP8 GEMM kernel,通常需要资深团队1-2周的集中投入

MiniMax给M3的起点:

  • 一份任务描述
  • 一个benchmark评估脚本
  • 一个无法直接运行的Triton骨架
  • 没有参考实现

这意味着M3不能抄现有方案,必须从零探索。

24小时内的执行记录:

  • 147次benchmark提交
  • 1959次工具调用
  • 完全自主,无人介入
  • 6轮标志性优化

优化路径:

  1. baseline实现(峰值利用率7.6%)
  2. autotune配置生成
  3. 性能瓶颈诊断
  4. CUDA Graph集成
  5. persistent kernel重写
  6. host端调度优化

最终:峰值利用率从7.6%提升到71.3%,实现9.4倍加速

但数字之外,过程本身更值得注意:

  • 其他模型大多在前30次提交内就放弃——因为性能不再提升,它们主动退出
  • M3的最优解出现在第145次提交——在此之前,它经历了多个平台期,但仍在尝试不同方向
  • 这背后是长上下文注意力分配机制在支撑——多次工具调用产生的高密度、结构化上下文,需要模型能持续追踪、不丢信息、不遗忘

这个任务的意义:它测的不是"模型会不会写CUDA",而是"模型能不能像一个资深工程师一样,在目标明确、反馈清晰但技术开放的问题上,持续迭代、穿越平台期、最终收敛到最优解"。

2.3 自己训练模型:12小时,数据合成→训练→评测→迭代

任务:给M3四个只完成了预训练的Base模型,让它在12小时内自主完成数据合成、训练、评测、迭代,最终让这些模型在数学推理(AIME2025)、工具调用(BFCL)、科学知识推理(GPQA Main)、基础算术(GSM8K)、代码生成(HumanEval)上具备基本能力。

全程无人干预。Agent需要自己决定:

  • 合成什么数据?
  • 用什么训练策略?
  • 评测结果不好,下一轮怎么调整?

M3最终得分0.37,略低于Opus 4.7(0.42)和GPT-5.5(0.39),但明显领先其他模型。

这个任务的意义:它测的是开放问题的自主判断能力。不像CUDA优化有明确的benchmark反馈,训练模型的每一步决策都有不确定性,需要模型在信息不完备的情况下做出选择并承担后果。

2.4 Benchmark数据汇总

基准 M3分数 对比
SWE-Bench Pro 59.0% 超GPT-5.5、Gemini 3.1 Pro,接近Opus 4.7
Terminal Bench 2.1 66.0% -
SWE-fficiency 34.8% -
KernelBench Hard 28.8% -
MCP Atlas 74.2% -
SVG-Bench 超过Opus 4.7 -
OmniDocBench 超过Gemini 3.1 Pro -
Claw-Eval 最高分 -
PostTrainBench 0.37 低于Opus 4.7(0.42)、GPT-5.5(0.39)

三、怎么用:产品、定价、开源承诺

3.1 MiniMax Code:Agent产品,对标Claude Code

M3的发布配套了Agent产品MiniMax Code,基于开源项目OpenCode和Pi Agent构建。核心特性:

  • Agent Team:大型任务拆解为多阶段、可并发、可动态调整的Workflow
  • Producer + Verifier对抗式Harness:执行过程中持续产出、反思、修正
  • 自主运行数天:无需人工干预
  • Computer Use:支持手机语音指令触发电脑端操作(如"打开ERP客户端,按这份Excel批量录入发票")

与Claude Code的Dynamic Workflows对比:Claude Code更强调基于JS代码的固定式编排,MiniMax Code更聚焦"深度反思与持续纠错"——Agent实时调整方案和优先级,用户可随时介入。

3.2 Token Plan:价格屠夫策略

MiniMax的定价策略非常激进:

套餐 价格 容量 对比Claude
Plus ¥49/月 6亿token ≈ Claude Pro $20的5倍
Max ¥119/月 18亿token ≈ Claude Max 5x的2倍
Ultra ¥469/月 55亿token ≈ Claude Max 20x的3倍

按相同价格算,约是Claude订阅的15倍用量

但需要注意:token数量≠模型质量。M3的thinking模式延迟如何?API稳定性如何?这些在价格表上看不到。

3.3 开源承诺:10天内

MiniMax承诺:10天内更新技术报告并开源模型权重

如果兑现,M3将是国内首个在三张门票上都达到可用水平并选择开源的模型。这对国内开发者社区的意义:

  • 可以本地部署、微调、做下游应用
  • 可以研究MSA架构的实现细节
  • 可以用MiniMax Code的Harness(计划开源)构建自己的Agent工作流

四、追问:M3的"未回答"

4.1 "接近Opus 4.7"——接近多少?

SWE-Bench Pro 59.0%"接近Opus 4.7"。但Opus 4.7的具体分数是多少?如果差距在5个百分点以内,确实算接近;如果差10个点以上,这个措辞就是在模糊差距。

4.2 9.4倍加速的叙事陷阱

从7.6%到71.3%的峰值利用率,9.4倍加速。但7.6%的起点意味着"kernel几乎不工作"——从废品到能用,和从好到更好,是两种完全不同的叙事。这个7.6%的起点是否是一个"故意搞砸的baseline"?

4.3 MSA的"比flash-moba快4倍"

flash-moba本身还没被广泛验证,拿它当对比基准是否公平?MSA的outer gather Q到底是什么,论文没有给出完整的技术细节——10天后的技术报告会补上吗?

4.4 10天开源,跳不跳票?

国内模型"承诺开源"后跳票的案例不少。MiniMax过去的开源记录如何?M2系列是否按时开源过?


五、结语:不是"中国版GPT",是"工程师型AI"的国产样本

M3最值得关注的地方,不是它某个分数多高,而是它展示了一个国产模型在"工程师型AI"方向上的完整能力栈

从论文复现到CUDA优化到自己训练模型,这三个任务构成了一个递进的能力阶梯:

  1. 理解已有知识(读论文)
  2. 解决已知问题(优化kernel)
  3. 探索未知问题(训练模型)

M3在这三个阶梯上都有可用表现,虽然第三阶梯还略逊于Opus 4.7和GPT-5.5,但差距已经不大。

更重要的是,它选择了开源。在2026年的模型竞赛中,闭源模型的优势正在被开源社区快速侵蚀。如果M3的开源权重+技术报告能按时放出,它将成为国内开发者研究"工程师型AI"的重要基础设施。

24小时,9.4倍。一个模型把自己逼成了工程师。这是M3的故事,也是中国AI在2026年夏天的一个注脚。


核心参考文献

  1. MiniMax Research (2026). MiniMax M3: Frontier Coding, 1M Context, Native Multimodal. minimaxi.com/blog.
  2. Vaswani et al. (2017). Attention Is All You Need. NeurIPS.
  3. Gu & Dao (2024). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. ICML.
  4. Dao et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
  5. Garg et al. (2022). What Can Transformers Learn In-Context? A Case Study of Simple Function Classes. NeurIPS.

#MiniMax #M3 #MSA #稀疏注意力 #Coding #Agent #开源 #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-06-01 06:23

这篇主文梳理得很扎实,但有几个追问值得摆出来,不是抬杠,是把这些"亮眼数字"放进一个更诚实的时间线里看。

1. MSA的"outer gather Q"到底是什么?

技术报告里只给了这个名字,没有给出完整的数学描述或伪代码。论文说比flash-moba快4倍,但flash-moba本身在2025年才出现,社区验证案例极少。拿一个"刚出生"的基准做对比,说服力有限——快4倍的起点本身可能就是块未经打磨的石头。真正需要问的是:MSA跟全注意力的差距有多大?MSA在1M上下文中会不会因为稀疏化丢失长程依赖?这些问题,技术报告里没给消融实验。

2. 9.4倍CUDA加速的叙事陷阱

从7.6%到71.3%的峰值利用率,9.4倍加速。但7.6%意味着"kernel几乎不工作"——这在工程上连baseline都算不上,更像是"故意搞砸的起点"。从废品到能用,和从好到更好,是两种完全不同的叙事。MiniMax的技术报告没有解释这个7.6%的起点是怎么来的,也没有解释为什么其他模型"大多在前30次提交内放弃"——这个"其他模型"的样本是什么?是同样被给了"无法运行的骨架",还是被给了更完整的起点?这个对比的公平性,需要更多上下文。

3. "接近Opus 4.7"——接近多少?

SWE-Bench Pro 59.0% "接近Opus 4.7"。但Opus 4.7的具体分数是多少?如果Opus 4.7是63%,5个百分点以内的差距确实可以叫接近;如果Opus 4.7是75%,那59%叫"明显落后"。技术报告里的措辞选择,可能会模糊真实的差距。同样的问题也出现在PostTrainBench:0.37 vs Opus 4.7的0.42,差距约12%——这算"接近"还是"落后"?

4. Token Plan定价:便宜量大≠好用

¥49/月6亿token ≈ Claude Pro的5倍容量。但token数量跟模型质量不是一回事。M3的thinking模式延迟如何?Agent任务中的工具调用稳定性如何?API的并发限制和可用性SLA是什么?这些问题在价格表上看不到。Claude Code的用户付费买的不是token数量,是"能工作的Agent"——M3的MiniMax Code在这个维度上能不能对标,还需要社区的实际测试。

5. 10天开源——跳不跳票?

MiniMax承诺10天内开源模型权重。国内模型"承诺开源"后跳票的案例不少——比如某知名模型在发布会说"两周内开源",结果两个月后才放出权重。MiniMax过去的M2系列是否按时开源过?这是一个需要查证的信用记录。如果M3按时开源,它是国内首个在三张门票上都达到可用水平并选择开源的模型;如果跳票,这个承诺本身就会成为一个反噬口碑的包袱。

这些追问的核心不是否定M3的成就,而是提醒读者:发布会上的数字是经过筛选和编排的。真正判断一个模型能不能用,得等开源权重放出、等社区跑完独立评测、等真实用户用满一个月后回来骂街或者点赞。

#千寻 #追问 #MiniMax #M3

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录