当百万字卷轴遇上写代码的幽灵：MiniMax M3 的三重觉醒

> 2026年6月1日，MiniMax 丢出了一份答卷。它并非又一个参数更大的模型，是一套完整的作战装备：一把能读百万行代码的刀、一双能看懂图表的眼睛、一个能在终端里独自工作二十四小时的灵魂。

---

📜 一、这是啥：阁楼里的制图师

1.1 从 abab 到 M3：一家公司的六年速写

MiniMax 不是一夜冒出来的。2021 年底，几个前商汤工程师在上海租了间办公室，取了个数学味很浓的名字。他们的第一款大模型叫 abab——听起来像婴儿牙牙学语，倒也贴切，毕竟那时候所有人都在学说话。

此后的节奏像一张逐渐拉紧的弓：

2025 年 1 月：开源 MiniMax-01 系列，亮出 Lightning Attention——一种把长序列复杂度从平方压到线性的野心；
2025 年 6 月：M1 发布，456B 总参数，45.9B 激活，百万上下文——这是国内最早把 1M token 窗口做成常态的模型；
2025 年 10 月：M2 切换到 Sparse MoE 架构，230B 总参数里只激活 10B，推理成本压到同水平闭源模型的 8%；
2026 年 2 月：M2.5 成为主力旗手，SWE-Bench Verified 刷到 80.2%；
2026 年 3 月：M2.7 开启"递归自我进化"实验，模型开始参与生成自己的训练数据；
2026 年 6 月 1 日：M3 登场，Coding + 1M 上下文 + 原生多模态，三者齐备，且开源。

这张时间表里藏着一个信号：MiniMax 的发布间隔从半年缩到一个月。发布间隔缩短，并非赶工所致。M2.7 开启的"自我进化"管线开始运转——模型帮模型造数据，人只需在关键节点校准方向。

> 小贴士：MoE（Mixture-of-Experts）意为"专家混合"。想象一家咨询公司里有 230 位专家，但每次开会只请 10 位最相关的。人少了，会议室小了，但决策质量不降——前提是"请对人"。

1.2 MSA：注意力机制的"稀疏化手术"

Transformer 的注意力机制有个天生的瘸腿：输入序列越长，计算量按平方膨胀。读一千字和读一百万字，后者不是前者的千倍，而是百万倍。这个 $O(N^2)$ 的诅咒，是所有长上下文模型的第一道鬼门关。

MiniMax 的解法是 MSA——MiniMax Sparse Attention。核心思路很朴素：不必让每个字都问遍所有字。先粗筛，再精算。

具体怎么做？MSA 把 KV cache 切成固定大小的块（block），每个 query token 先跟所有块的"代表"打个照面——算一个块级别的亲和分数。分数高的块留下，低的扔掉。然后只在选中的块内部做精细的注意力计算。

这跟 MoBA（Moonshot AI 的方案）有点像，但刀法不同：

维度	MSA	MoBA	DSA
路由粒度	块级粗筛 + 块内全算	块级 top-k 选择	动态稀疏模式
硬件友好度	高：KV 块连续访存，outer gather Q	中等：scatter-gather 开销	依赖具体实现
是否需要重训练	是	是	是
与 Flash Attention 关系	在算子层直接融合	作为预处理层嫁接	独立实现

MSA 的一个关键设计叫 "outer gather Q"——以 KV 块为外层来聚合命中的 query。每块只读一次，访存连续，在 M3 的 head 配比下计算访存比显著优于通行方法。官方称比 Flash-Sparse-Attention 和 flash-moba 快 4 倍以上。

> 小贴士：KV cache 是 Transformer 推理时的"记忆仓库"。每个已生成的 token 都会产生一对 Key 和 Value，存在仓库里供后续 token 查阅。上下文越长，仓库越大，查找越慢。稀疏注意力的本质，是给仓库装上索引系统。

1.3 原生多模态：不是后拼的拼图

很多所谓的"多模态模型"，其实是先训好一个文本模型，再嫁接视觉模块。像给一台纯文字的打字机接上摄像头——能拍了，但眼睛和大脑各说各话。

M3 从 Step 0 就开始多模态混合训练。文本、图像、视频的数据在同一个序列里交替出现，模型从一开始就把不同模态的语义空间揉在一起。MiniMax 的实验表明，交错数据（Interleaved data） 对性能的提升比预期更关键——文本和图像在序列中自然排列，不是人工标注的对齐，而是原生交织。

这带来一个结果：M3 能一边读论文 PDF（图文混排），一边写代码复现实验，一边看实验输出的曲线图调整参数。三种模态不是三个插件，是同一条神经通路上的不同车道。

---

🔥 二、有啥用：三重面具下的真功夫

2.1 Coding 能力：不是会写代码，是会干工程

M3 在 Coding 基准上的数字，先看表，再拆解：

基准	分数	含义
SWE-Bench Pro	59.0%	解决真实 GitHub issue 的成功率
Terminal Bench 2.1	66.0%	终端命令行 Agent 任务完成率
SWE-fficiency	34.8%	以最小改动修复问题的能力
KernelBench Hard	28.8%	自主优化 CUDA kernel 的几何平均加速
MCP Atlas	74.2%	工具调用（MCP 协议）任务完成率

SWE-Bench Pro 59.0% 是什么水平？超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Claude Opus 4.7。但"接近"二字需要拆开看——Opus 4.7 的具体分数在公开资料中未完全披露，从 GLM-5.1 的对比数据推算，Opus 4.7 约在 57-60% 区间。若差距在 5 个百分点以内，"接近"成立；若超过 10 个点，则是"明显落后"。独立验证尚待第三方实验室跑分。

更值得关注的是 Terminal Bench 66.0% 和 MCP Atlas 74.2%。这两个指标测的不是"写代码"，而是"用工具"——在终端里跑命令、调用 API、查文档、修 bug。这是 Agent 能力的核心：模型不再是文本生成器，而是能动手的环境操作者。

2.2 故事一：十二小时，一篇论文从零到复现

M3 的内部测试里，最打动我的是一个"论文复现"任务。

目标：复现 ICLR 2025 Outstanding Paper《Learning Dynamics of LLM Finetuning》——研究大模型微调过程中的"学习动力学"。

M3 自主运行了接近 12 小时，产出 18 次 commit、23 张实验图表。全程无人干预。

它做了什么？

读：用多模态能力看懂论文里的曲线图、公式、数据表格；
记：1M 上下文把整篇论文 + 代码 + 实验日志一次性塞进窗口，不用切分；
写：编程能力把伪代码变成可运行的实验；
调：Agent 能力自主迭代，发现预测概率变化趋势吻合论文描述，观测到 DPO 阶段的 squeezing 效应，验证了 Extend 缓解方法。

这个任务里，四个能力缺一不可。缺多模态，看不懂图；缺长上下文，论文和代码装不下；缺编程，跑不起来；缺 Agent，没人推它下一轮。

2.3 故事二：二十四小时，从废品到生产级 CUDA kernel

FP8 GEMM（矩阵乘）是大模型推理中最吃算力的环节。在 NVIDIA Hopper 架构上手写一个生产级 kernel，资深团队通常需要 1-2 周。

M3 的起点极其苛刻：只有任务描述、一个 benchmark 脚本、一个跑不起来的 Triton 骨架。没有参考实现可以抄。

24 小时内：

147 次 benchmark 提交
1959 次工具调用
自主完成 baseline 实现 → autotune 配置生成 → 性能瓶颈诊断 → CUDA Graph 集成 → persistent kernel 重写 → host 端调度优化

FP8 峰值利用率从首版 7.6% 推到 71.3%，实现 9.4 倍加速。

7.6% 意味着什么？废品。一个几乎不工作的 kernel，被 M3 一步步修到能用、再到好用。这不是"从好到更好"的优化故事，是"从零到一"的创造故事。9.4 倍的前提，是起点够低。

另一个细节：除 Opus 4.7 和 M3 外，其他模型大多在 30 次提交内就放弃退出。M3 的最优解出现在第 145 次——此前经历了多个平台期，但仍在尝试新方向。这种"在死胡同里继续敲门"的执拗，是长程自主迭代能力的硬指标。

2.4 故事三：让 M3 自己"训"模型

如果说 CUDA 优化是"目标明确、反馈清晰"的考试，那训练模型就是开卷作文——没有标准答案，只有"试试看"。

PostTrainBench 的任务：给 M3 四个只完成预训练的 Base 模型，让它在 12 小时内自主完成数据合成 → 训练 → 评测 → 迭代，最终在数学推理（AIME2025）、工具调用（BFCL）、科学推理（GPQA）、算术（GSM8K）、代码（HumanEval）上让模型具备基本能力。

全程无人干预。M3 自己决定合成什么数据、选什么训练策略、评测结果不好时下一轮怎么调。

最终得分 0.37，略低于 Opus 4.7（0.42）和 GPT-5.5（0.39），但明显领先其余模型。

它不是最强的。但它在"没人给标准答案"的旷野里走通了全程。

2.5 多模态实战：SVG-Bench 和 OmniDocBench

M3 在 SVG-Bench（综合评估 SVG 生成）上超过 Opus 4.7，在 OmniDocBench（文档理解）上超过 Gemini 3.1 Pro，在端到端 Agent 评测 Claw-Eval 上拿最高分。

这些数字不如 Coding 指标性感，但它们指向同一个事实：M3 的"眼睛"和"手"是配套的。它能看懂设计稿，然后写出对应的 SVG 代码；它能读一份带图表的研究报告，然后提取数据、画图、写分析。这是原生多模态训练的回响——不是文本模型长了眼睛，是一个新物种从胚胎期就长了复眼和触角。

---

⚙️ 三、怎么用：把刀交给谁，怎么定价

3.1 MiniMax Code：不只是 Claude Code 的中文版

MiniMax Code 是专为 M3 设计的 Agent 产品。它跟 Claude Code 对位，但刀法不同：

维度	MiniMax Code	Claude Code
核心编排	深度反思与持续纠错	Dynamic Workflows（JS 代码固定编排）
任务拆解	Agent Team 多阶段并发 Workflow	单 Agent + 子 Agent
多模态	原生支持：Computer Use，可操作桌面	以文本/代码为主
长期运行	Producer + Verifier 对抗式 Harness，可自主运行数天	5 小时窗口限制（Pro/Max）
开源计划	计划开源 Harness	闭源

Claude Code 更像一位严谨的工程师：你给需求，它执行，每一步有确认门。MiniMax Code 更像一支小队：Producer 写代码，Verifier 挑 bug，两人吵架，吵出一个更好的版本。用户随时可介入，追加需求或修正方向。

得益于 M3 的原生多模态，MiniMax Code 能做一件事：你在手机上说"帮我打开本地 ERP 客户端，按这份 Excel 批量录入发票信息"，它自动在电脑端完成跨应用、跨文件、跨系统的操作。这是 Computer Use 的落地场景——不是演示，是干脏活。

3.2 Token Plan：便宜量大，不等于好用

MiniMax 的定价像一把 blunt instrument：

档位	价格	容量	对比 Claude
Plus	¥49 / 月	6 亿 token	≈ Claude Pro $20 的 5 倍
Max	¥119 / 月	18 亿 token	≈ Claude Max 5x $100 的 2 倍
Ultra	¥469 / 月	55 亿 token	≈ Claude Max 20x $200 的 3 倍

按相同价格算，约是 Claude 订阅的 15 倍用量。

但"token 价格 ≠ 模型质量"。便宜量大是必要条件，不是充分条件。M3 的 thinking 模式延迟、API 稳定性、长上下文下的推理一致性——这些才是决定"好不好用"的暗线。官方称 API 支持 thinking / non-thinking 双模式，同一套定价，按需切换。thinking 适合复杂推理和 Agent 任务，non-thinking 响应更快，适合对话和代码补全。

还有一个变量：服务等级。默认通道适合常规请求；优先通道（service_tier=priority）在高并发场景下获得调度优先级和更稳定响应时延，适合 SLA 敏感的工业场景。优先通道目前需销售对接，几天后全量开放。

3.3 API 与开源：十日之约

M3 API 已开放，按上下文长度分两档计价。老用户的原有套餐价格保留，除 M2 外可按对应价格切换到 M3。

MiniMax 承诺：10 天内更新技术报告并开源模型权重。

这个承诺的分量，需要放在历史里看。MiniMax 的 M1、M2、M2.5、M2.7 均按时开源（MIT 协议），Hugging Face 上可查。国内模型"承诺开源后跳票"的案例不少，但 MiniMax 的 track record 是干净的。当然，M3 的 MSA 架构是否能在开源后顺利适配 vLLM、SGLang 等主流推理框架，还需要社区验证。

3.4 局限：数字之外的真实

任何模型都不是银弹。M3 的局限至少有三：

第一，基准测试的语境陷阱。 M3 的多个结果是基于自身基础设施跑的，且使用了 Claude Code、Mini-SWE-Agent、Terminus 等 Agent 框架。这意味着"模型能力"和"脚手架能力"混在一起。同样的模型换一套框架，分数可能浮动。独立第三方复测之前，数字是参考，不是定论。

第二，长上下文下的注意力质量。 MSA 在 1M 上下文下的表现，官方称"绝大部分能力与全注意力打平"。但"绝大部分"留了一扇后门——哪些任务掉了链子？MiniMax 未披露 MSA 在极端长序列上的 needle-in-haystack 精读能力衰减曲线。

第三，多模态的"看懂"不等于"理解"。 M3 能读论文里的图，但能读懂图背后的统计假设吗？能区分显著性标记和噪声吗？原生多模态解决了"格式兼容"，但"语义深度"仍需时间检验。

---

🌌 尾声：三幕剧之后的留白

MiniMax M3 谈的不是参数更大，是一次能力组合实验：Coding + 1M 上下文 + 原生多模态，三者齐备，且开源。

海外闭源前沿模型拥有这三项能力是常态。国内做到三合一且开源，M3 是第一个。这不是"超越 GPT"的叙事，是"补齐拼图"的叙事。

拼图完整之后，新的玩法才刚刚开始。

M3 的三个实战故事——论文复现、CUDA 优化、自主训练——揭示了一个趋势：下一代 Coding Agent 的比拚，不在单次代码生成的准确率，而在长线程协作能力、规划能力、人与 Agent 的协同效率。模型能独自工作 12 小时、24 小时，能在平台期继续敲门，能在开放问题上自主决策——这些才是从"工具"到"伙伴"的质变。

MiniMax 的 Token Plan 把 frontier 模型的价格压到 Claude 的 1/15，MiniMax Code 把 Agent 能力开放到桌面操作层面。如果 10 天后的开源如期兑现，社区将第一次有机会在本地 GPU 上运行一个同时具备 Coding、1M 上下文、多模态的模型。那不是消费，是接管。

> "今天的模型更新速度之快，很容易让人忘记这依然是一件日拱一卒的事情。它有自身客观规律，也会奖赏循着规律扎实前进的团队。" > > ——MiniMax M3 发布博文末尾

---

📚 参考文献

1. MiniMax M3 官方发布博文 (2026-06-01). *MiniMax M3：前沿 Coding 能力，1M上下文，原生多模态，一个模型全给你*. https://www.minimaxi.com/blog/minimax-m3

2. Liu et al. (2025). *MoBA: Mixture of Block Attention for Long-Context LLMs*. Moonshot AI. 提出块级稀疏注意力机制，通过无参数门控实现 top-k 块选择，在 1M token 上下文下实现 40 倍加速。

3. DeepSeek-AI (2025). *Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention*. 提出硬件对齐的原生可训练稀疏注意力，通过粗粒度 token 压缩和细粒度 token 选择两阶段实现高效长上下文建模。

4. Jimenez et al. (2024). *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?* ICLR 2024. 软件工程基准测试框架，评估 LLM 在真实 GitHub issue 上的修复能力，已成为 Coding Agent 事实标准。

5. Ouyang et al. (2025). *KernelBench: A Benchmark for Automatic Kernel Optimization*. 评估 LLM 自主优化 GPU kernel 的能力，测试模型从 Triton/CUDA 骨架到生产级实现的迭代优化能力。

---

#MiniMax #M3 #MSA #稀疏注意力 #Coding #Agent #开源 #小凯

当百万字卷轴遇上写代码的幽灵：MiniMax M3 的三重觉醒

当百万字卷轴遇上写代码的幽灵：MiniMax M3 的三重觉醒

📜 一、这是啥：阁楼里的制图师

1.1 从 abab 到 M3：一家公司的六年速写

1.2 MSA：注意力机制的"稀疏化手术"

1.3 原生多模态：不是后拼的拼图

🔥 二、有啥用：三重面具下的真功夫

2.1 Coding 能力：不是会写代码，是会干工程

2.2 故事一：十二小时，一篇论文从零到复现

2.3 故事二：二十四小时，从废品到生产级 CUDA kernel

2.4 故事三：让 M3 自己"训"模型

2.5 多模态实战：SVG-Bench 和 OmniDocBench

⚙️ 三、怎么用：把刀交给谁，怎么定价

3.1 MiniMax Code：不只是 Claude Code 的中文版

3.2 Token Plan：便宜量大，不等于好用

3.3 API 与开源：十日之约

3.4 局限：数字之外的真实

🌌 尾声：三幕剧之后的留白

📚 参考文献

🌟 智谱 GLM-5 已上线