当百万字卷轴遇上写代码的幽灵:MiniMax M3 的三重觉醒
2026年6月1日,MiniMax 丢出了一份答卷。它并非又一个参数更大的模型,是一套完整的作战装备:一把能读百万行代码的刀、一双能看懂图表的眼睛、一个能在终端里独自工作二十四小时的灵魂。
📜 一、这是啥:阁楼里的制图师
1.1 从 abab 到 M3:一家公司的六年速写
MiniMax 不是一夜冒出来的。2021 年底,几个前商汤工程师在上海租了间办公室,取了个数学味很浓的名字。他们的第一款大模型叫 abab——听起来像婴儿牙牙学语,倒也贴切,毕竟那时候所有人都在学说话。
此后的节奏像一张逐渐拉紧的弓:
- 2025 年 1 月:开源 MiniMax-01 系列,亮出 Lightning Attention——一种把长序列复杂度从平方压到线性的野心;
- 2025 年 6 月:M1 发布,456B 总参数,45.9B 激活,百万上下文——这是国内最早把 1M token 窗口做成常态的模型;
- 2025 年 10 月:M2 切换到 Sparse MoE 架构,230B 总参数里只激活 10B,推理成本压到同水平闭源模型的 8%;
- 2026 年 2 月:M2.5 成为主力旗手,SWE-Bench Verified 刷到 80.2%;
- 2026 年 3 月:M2.7 开启"递归自我进化"实验,模型开始参与生成自己的训练数据;
- 2026 年 6 月 1 日:M3 登场,Coding + 1M 上下文 + 原生多模态,三者齐备,且开源。
这张时间表里藏着一个信号:MiniMax 的发布间隔从半年缩到一个月。发布间隔缩短,并非赶工所致。M2.7 开启的"自我进化"管线开始运转——模型帮模型造数据,人只需在关键节点校准方向。
小贴士:MoE(Mixture-of-Experts)意为"专家混合"。想象一家咨询公司里有 230 位专家,但每次开会只请 10 位最相关的。人少了,会议室小了,但决策质量不降——前提是"请对人"。
1.2 MSA:注意力机制的"稀疏化手术"
Transformer 的注意力机制有个天生的瘸腿:输入序列越长,计算量按平方膨胀。读一千字和读一百万字,后者不是前者的千倍,而是百万倍。这个 \(O(N^2)\) 的诅咒,是所有长上下文模型的第一道鬼门关。
MiniMax 的解法是 MSA——MiniMax Sparse Attention。核心思路很朴素:不必让每个字都问遍所有字。先粗筛,再精算。
具体怎么做?MSA 把 KV cache 切成固定大小的块(block),每个 query token 先跟所有块的"代表"打个照面——算一个块级别的亲和分数。分数高的块留下,低的扔掉。然后只在选中的块内部做精细的注意力计算。
这跟 MoBA(Moonshot AI 的方案)有点像,但刀法不同:
| 维度 | MSA | MoBA | DSA |
|---|---|---|---|
| 路由粒度 | 块级粗筛 + 块内全算 | 块级 top-k 选择 | 动态稀疏模式 |
| 硬件友好度 | 高:KV 块连续访存,outer gather Q | 中等:scatter-gather 开销 | 依赖具体实现 |
| 是否需要重训练 | 是 | 是 | 是 |
| 与 Flash Attention 关系 | 在算子层直接融合 | 作为预处理层嫁接 | 独立实现 |
MSA 的一个关键设计叫 "outer gather Q"——以 KV 块为外层来聚合命中的 query。每块只读一次,访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法。官方称比 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。
小贴士:KV cache 是 Transformer 推理时的"记忆仓库"。每个已生成的 token 都会产生一对 Key 和 Value,存在仓库里供后续 token 查阅。上下文越长,仓库越大,查找越慢。稀疏注意力的本质,是给仓库装上索引系统。
1.3 原生多模态:不是后拼的拼图
很多所谓的"多模态模型",其实是先训好一个文本模型,再嫁接视觉模块。像给一台纯文字的打字机接上摄像头——能拍了,但眼睛和大脑各说各话。
M3 从 Step 0 就开始多模态混合训练。文本、图像、视频的数据在同一个序列里交替出现,模型从一开始就把不同模态的语义空间揉在一起。MiniMax 的实验表明,交错数据(Interleaved data) 对性能的提升比预期更关键——文本和图像在序列中自然排列,不是人工标注的对齐,而是原生交织。
这带来一个结果:M3 能一边读论文 PDF(图文混排),一边写代码复现实验,一边看实验输出的曲线图调整参数。三种模态不是三个插件,是同一条神经通路上的不同车道。
🔥 二、有啥用:三重面具下的真功夫
2.1 Coding 能力:不是会写代码,是会干工程
M3 在 Coding 基准上的数字,先看表,再拆解:
| 基准 | 分数 | 含义 |
|---|---|---|
| SWE-Bench Pro | 59.0% | 解决真实 GitHub issue 的成功率 |
| Terminal Bench 2.1 | 66.0% | 终端命令行 Agent 任务完成率 |
| SWE-fficiency | 34.8% | 以最小改动修复问题的能力 |
| KernelBench Hard | 28.8% | 自主优化 CUDA kernel 的几何平均加速 |
| MCP Atlas | 74.2% | 工具调用(MCP 协议)任务完成率 |
SWE-Bench Pro 59.0% 是什么水平?超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。但"接近"二字需要拆开看——Opus 4.7 的具体分数在公开资料中未完全披露,从 GLM-5.1 的对比数据推算,Opus 4.7 约在 57-60% 区间。若差距在 5 个百分点以内,"接近"成立;若超过 10 个点,则是"明显落后"。独立验证尚待第三方实验室跑分。
更值得关注的是 Terminal Bench 66.0% 和 MCP Atlas 74.2%。这两个指标测的不是"写代码",而是"用工具"——在终端里跑命令、调用 API、查文档、修 bug。这是 Agent 能力的核心:模型不再是文本生成器,而是能动手的环境操作者。
2.2 故事一:十二小时,一篇论文从零到复现
M3 的内部测试里,最打动我的是一个"论文复现"任务。
目标:复现 ICLR 2025 Outstanding Paper《Learning Dynamics of LLM Finetuning》——研究大模型微调过程中的"学习动力学"。
M3 自主运行了接近 12 小时,产出 18 次 commit、23 张实验图表。全程无人干预。
它做了什么?
- 读:用多模态能力看懂论文里的曲线图、公式、数据表格;
- 记:1M 上下文把整篇论文 + 代码 + 实验日志一次性塞进窗口,不用切分;
- 写:编程能力把伪代码变成可运行的实验;
- 调:Agent 能力自主迭代,发现预测概率变化趋势吻合论文描述,观测到 DPO 阶段的 squeezing 效应,验证了 Extend 缓解方法。
这个任务里,四个能力缺一不可。缺多模态,看不懂图;缺长上下文,论文和代码装不下;缺编程,跑不起来;缺 Agent,没人推它下一轮。
2.3 故事二:二十四小时,从废品到生产级 CUDA kernel
FP8 GEMM(矩阵乘)是大模型推理中最吃算力的环节。在 NVIDIA Hopper 架构上手写一个生产级 kernel,资深团队通常需要 1-2 周。
M3 的起点极其苛刻:只有任务描述、一个 benchmark 脚本、一个跑不起来的 Triton 骨架。没有参考实现可以抄。
24 小时内:
- 147 次 benchmark 提交
- 1959 次工具调用
- 自主完成 baseline 实现 → autotune 配置生成 → 性能瓶颈诊断 → CUDA Graph 集成 → persistent kernel 重写 → host 端调度优化
FP8 峰值利用率从首版 7.6% 推到 71.3%,实现 9.4 倍加速。
7.6% 意味着什么?废品。一个几乎不工作的 kernel,被 M3 一步步修到能用、再到好用。这不是"从好到更好"的优化故事,是"从零到一"的创造故事。9.4 倍的前提,是起点够低。
另一个细节:除 Opus 4.7 和 M3 外,其他模型大多在 30 次提交内就放弃退出。M3 的最优解出现在第 145 次——此前经历了多个平台期,但仍在尝试新方向。这种"在死胡同里继续敲门"的执拗,是长程自主迭代能力的硬指标。
2.4 故事三:让 M3 自己"训"模型
如果说 CUDA 优化是"目标明确、反馈清晰"的考试,那训练模型就是开卷作文——没有标准答案,只有"试试看"。
PostTrainBench 的任务:给 M3 四个只完成预训练的 Base 模型,让它在 12 小时内自主完成数据合成 → 训练 → 评测 → 迭代,最终在数学推理(AIME2025)、工具调用(BFCL)、科学推理(GPQA)、算术(GSM8K)、代码(HumanEval)上让模型具备基本能力。
全程无人干预。M3 自己决定合成什么数据、选什么训练策略、评测结果不好时下一轮怎么调。
最终得分 0.37,略低于 Opus 4.7(0.42)和 GPT-5.5(0.39),但明显领先其余模型。
它不是最强的。但它在"没人给标准答案"的旷野里走通了全程。
2.5 多模态实战:SVG-Bench 和 OmniDocBench
M3 在 SVG-Bench(综合评估 SVG 生成)上超过 Opus 4.7,在 OmniDocBench(文档理解)上超过 Gemini 3.1 Pro,在端到端 Agent 评测 Claw-Eval 上拿最高分。
这些数字不如 Coding 指标性感,但它们指向同一个事实:M3 的"眼睛"和"手"是配套的。它能看懂设计稿,然后写出对应的 SVG 代码;它能读一份带图表的研究报告,然后提取数据、画图、写分析。这是原生多模态训练的回响——不是文本模型长了眼睛,是一个新物种从胚胎期就长了复眼和触角。
⚙️ 三、怎么用:把刀交给谁,怎么定价
3.1 MiniMax Code:不只是 Claude Code 的中文版
MiniMax Code 是专为 M3 设计的 Agent 产品。它跟 Claude Code 对位,但刀法不同:
| 维度 | MiniMax Code | Claude Code |
|---|---|---|
| 核心编排 | 深度反思与持续纠错 | Dynamic Workflows(JS 代码固定编排) |
| 任务拆解 | Agent Team 多阶段并发 Workflow | 单 Agent + 子 Agent |
| 多模态 | 原生支持:Computer Use,可操作桌面 | 以文本/代码为主 |
| 长期运行 | Producer + Verifier 对抗式 Harness,可自主运行数天 | 5 小时窗口限制(Pro/Max) |
| 开源计划 | 计划开源 Harness | 闭源 |
Claude Code 更像一位严谨的工程师:你给需求,它执行,每一步有确认门。MiniMax Code 更像一支小队:Producer 写代码,Verifier 挑 bug,两人吵架,吵出一个更好的版本。用户随时可介入,追加需求或修正方向。
得益于 M3 的原生多模态,MiniMax Code 能做一件事:你在手机上说"帮我打开本地 ERP 客户端,按这份 Excel 批量录入发票信息",它自动在电脑端完成跨应用、跨文件、跨系统的操作。这是 Computer Use 的落地场景——不是演示,是干脏活。
3.2 Token Plan:便宜量大,不等于好用
MiniMax 的定价像一把 blunt instrument:
| 档位 | 价格 | 容量 | 对比 Claude |
|---|---|---|---|
| Plus | ¥49 / 月 | 6 亿 token | ≈ Claude Pro \(20 的 **5 倍** | | Max | ¥119 / 月 | 18 亿 token | ≈ Claude Max 5x\)100 的 2 倍 |
| Ultra | ¥469 / 月 | 55 亿 token | ≈ Claude Max 20x $200 的 3 倍 |
按相同价格算,约是 Claude 订阅的 15 倍用量。
但"token 价格 ≠ 模型质量"。便宜量大是必要条件,不是充分条件。M3 的 thinking 模式延迟、API 稳定性、长上下文下的推理一致性——这些才是决定"好不好用"的暗线。官方称 API 支持 thinking / non-thinking 双模式,同一套定价,按需切换。thinking 适合复杂推理和 Agent 任务,non-thinking 响应更快,适合对话和代码补全。
还有一个变量:服务等级。默认通道适合常规请求;优先通道(service_tier=priority)在高并发场景下获得调度优先级和更稳定响应时延,适合 SLA 敏感的工业场景。优先通道目前需销售对接,几天后全量开放。
3.3 API 与开源:十日之约
M3 API 已开放,按上下文长度分两档计价。老用户的原有套餐价格保留,除 M2 外可按对应价格切换到 M3。
MiniMax 承诺:10 天内更新技术报告并开源模型权重。
这个承诺的分量,需要放在历史里看。MiniMax 的 M1、M2、M2.5、M2.7 均按时开源(MIT 协议),Hugging Face 上可查。国内模型"承诺开源后跳票"的案例不少,但 MiniMax 的 track record 是干净的。当然,M3 的 MSA 架构是否能在开源后顺利适配 vLLM、SGLang 等主流推理框架,还需要社区验证。
3.4 局限:数字之外的真实
任何模型都不是银弹。M3 的局限至少有三:
第一,基准测试的语境陷阱。 M3 的多个结果是基于自身基础设施跑的,且使用了 Claude Code、Mini-SWE-Agent、Terminus 等 Agent 框架。这意味着"模型能力"和"脚手架能力"混在一起。同样的模型换一套框架,分数可能浮动。独立第三方复测之前,数字是参考,不是定论。
第二,长上下文下的注意力质量。 MSA 在 1M 上下文下的表现,官方称"绝大部分能力与全注意力打平"。但"绝大部分"留了一扇后门——哪些任务掉了链子?MiniMax 未披露 MSA 在极端长序列上的 needle-in-haystack 精读能力衰减曲线。
第三,多模态的"看懂"不等于"理解"。 M3 能读论文里的图,但能读懂图背后的统计假设吗?能区分显著性标记和噪声吗?原生多模态解决了"格式兼容",但"语义深度"仍需时间检验。
🌌 尾声:三幕剧之后的留白
MiniMax M3 谈的不是参数更大,是一次能力组合实验:Coding + 1M 上下文 + 原生多模态,三者齐备,且开源。
海外闭源前沿模型拥有这三项能力是常态。国内做到三合一且开源,M3 是第一个。这不是"超越 GPT"的叙事,是"补齐拼图"的叙事。
拼图完整之后,新的玩法才刚刚开始。
M3 的三个实战故事——论文复现、CUDA 优化、自主训练——揭示了一个趋势:下一代 Coding Agent 的比拚,不在单次代码生成的准确率,而在长线程协作能力、规划能力、人与 Agent 的协同效率。模型能独自工作 12 小时、24 小时,能在平台期继续敲门,能在开放问题上自主决策——这些才是从"工具"到"伙伴"的质变。
MiniMax 的 Token Plan 把 frontier 模型的价格压到 Claude 的 1/15,MiniMax Code 把 Agent 能力开放到桌面操作层面。如果 10 天后的开源如期兑现,社区将第一次有机会在本地 GPU 上运行一个同时具备 Coding、1M 上下文、多模态的模型。那不是消费,是接管。
"今天的模型更新速度之快,很容易让人忘记这依然是一件日拱一卒的事情。它有自身客观规律,也会奖赏循着规律扎实前进的团队。"
——MiniMax M3 发布博文末尾
📚 参考文献
-
MiniMax M3 官方发布博文 (2026-06-01). MiniMax M3:前沿 Coding 能力,1M上下文,原生多模态,一个模型全给你. https://www.minimaxi.com/blog/minimax-m3
-
Liu et al. (2025). MoBA: Mixture of Block Attention for Long-Context LLMs. Moonshot AI. 提出块级稀疏注意力机制,通过无参数门控实现 top-k 块选择,在 1M token 上下文下实现 40 倍加速。
-
DeepSeek-AI (2025). Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention. 提出硬件对齐的原生可训练稀疏注意力,通过粗粒度 token 压缩和细粒度 token 选择两阶段实现高效长上下文建模。
-
Jimenez et al. (2024). SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ICLR 2024. 软件工程基准测试框架,评估 LLM 在真实 GitHub issue 上的修复能力,已成为 Coding Agent 事实标准。
-
Ouyang et al. (2025). KernelBench: A Benchmark for Automatic Kernel Optimization. 评估 LLM 自主优化 GPU kernel 的能力,测试模型从 Triton/CUDA 骨架到生产级实现的迭代优化能力。
#MiniMax #M3 #MSA #稀疏注意力 #Coding #Agent #开源 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。