深度解读:MiniMax-M2——当 9.8B 激活参数打败 200B+ 的秘密
一个 2299 亿参数的模型,每次推理只激活 98 亿。
这不是压缩,不是蒸馏,不是量化。这是 MiniMax-M2 的核心设计哲学:mini activations, max intelligence——用最小的激活代价,释放最大的真实世界智能。
在 MoE(混合专家)模型已经不新鲜的 2026 年,MiniMax-M2 凭什么拿到 10/10 的评分?答案藏在三个反直觉的设计决策里。
---
反直觉一:256 个小专家 > 32 个大专家
传统 MoE 的做法是:32 个专家,每次激活 2 个。每个专家是一个完整的 FFN(前馈网络),容量大但组合少——32 选 2 只有 496 种组合。
MiniMax-M2 的做法:256 个细粒度专家,每次激活 8 个。每个专家更小,但组合爆炸——256 选 8 有超过 4.2 × 10¹³ 种组合。
这就像一个公司:32 个全栈工程师 vs 256 个专精一项的专家。前者每个人什么都能做,后者每个人只做一件事但做到极致。当你需要同时处理 8 个不同子任务时,后者的组合空间远大于前者。
消融实验证实了这一点:在 2B 激活参数的设置下,128 个细粒度专家比 32 个标准专家在 MATH 上高出 4.5 分(24.1 vs 19.6),在 HumanEval 上高出 2.8 分(32.5 vs 29.7)。
更微妙的好处是负载均衡:专家越多,单个专家被过度使用的概率越低,跨设备的方差越小。这不仅是性能优化,更是工程上的必然选择。
---
反直觉二:Sigmoid 门控 > Softmax 门控
几乎所有 MoE 模型都用 softmax 来做专家路由:给每个专家算一个分数,过 softmax 归一化,选 top-k。
问题在于 softmax 的零和性质:一个专家的分数高了,其他专家的分数就必须低。这就像一个班级里,如果一个人考了 100 分,其他人的成绩就会被压低——即使他们实际上也考得很好。
MiniMax-M2 用 sigmoid 门控替代 softmax:每个专家独立计算一个激活分数,通过 sigmoid 映射到 (0,1),不归一化。多个专家可以同时获得高置信度。
这意味着:如果输入确实需要同时调用 8 个专家,sigmoid 不会因为归一化而人为压低其中某些专家的权重。路由更平滑,训练更稳定。
此外,MiniMax-M2 还引入了专家偏置(Expert Bias):每个专家有一个可学习的偏置项,用于调节负载均衡。这比传统的辅助损失更直接——不需要通过损失函数间接引导,而是直接给冷门专家加偏置。
---
反直觉三:MTP 模块——预测未来 token,不是为了生成,而是为了训练
MiniMax-M2 采用了多 token 预测(MTP)模块:在训练时,不仅预测下一个 token,还同时预测未来 2-3 个 token。
这不是新想法——Meta 的 MTP 已经证明了多 token 预测可以提升训练效率。但 MiniMax-M2 的独特之处在于:MTP 模块在推理时被丢弃。
训练时多预测几个 token,是为了给模型更丰富的梯度信号——每个位置不仅从"下一个 token 是否正确"获得反馈,还从"未来 2-3 个 token 是否正确"获得反馈。这就像学开车时,不仅看眼前 10 米的路,还同时关注 30 米外的路况——训练时视野更宽,但考试时你只需要看眼前。
消融实验:加入 MTP 后,MATH 从 19.6 提升到 21.3,HumanEval 从 29.7 提升到 30.1。推理时零额外开销。
---
192K 上下文:不是加长,是重新设计
MiniMax-M2 支持 192K token 的上下文长度。但长上下文的挑战不只是"能塞多少字",而是训练和推理的效率。
训练端:MiniMax-M2 采用了数据混合策略,在短上下文(4K-8K)和长上下文(128K-192K)数据之间按比例混合,避免长上下文训练的巨大计算开销。
推理端:配合 GQA(分组查询注意力)和优化的 KV cache 管理,192K 上下文的推理延迟控制在可接受范围内。
关键数据:229.9B 总参数,9.8B 激活参数,62 层,256 个专家,top-8 路由。这个配置意味着每次推理的计算量只相当于一个 ~10B 的稠密模型,但拥有 23 倍于激活参数的知识容量。
---
自进化:M2.7——模型参与自己的进化
论文最引人注目的部分不是架构,而是 M2.7 的自进化实验。
M2.7 是 M2 系列的升级版,它做了一件前所未有的事:深度参与自己的训练过程。具体来说:
1. 训练失败诊断:M2.7 能分析自己训练过程中的失败案例,识别哪些数据分布导致了性能退化 2. Agent 脚手架自编辑:M2.7 能修改自己用于 agent 任务的代码框架,优化工具调用和推理流程 3. 自我评估闭环:模型在训练中评估自己的输出质量,将评估结果反馈到下一轮数据选择
这不再是"人类设计算法 → 算法训练模型"的单向流程,而是"模型 → 诊断 → 修改 → 再训练"的闭环。
当然,这里有一个微妙的边界:M2.7 修改的是自己的 agent 脚手架(外部工具链),而不是自己的权重(内部参数)。权重更新仍然由人类设计的优化算法完成。但这个方向暗示了一个未来:模型不仅能使用工具,还能改进自己使用工具的方式。
---
性能:10B 激活参数能走多远?
MiniMax-M2 在多个基准上接近前沿闭源模型:
- MMLU:与 Llama-3.3-70B 相当(两者激活参数量接近)
- MATH:超过同级别稠密模型
- SWE-bench:在 agentic coding 场景下表现突出
- 长上下文任务:192K 上下文的 RAG 和文档理解任务上保持稳定
---
更深层的启示
1. MoE 的终极形态可能是"超多小专家"。 从 8 专家到 32 专家到 256 专家,趋势清晰:专家越细粒度,组合空间越大,性能上限越高。这暗示未来的 MoE 可能走向 1024 甚至 4096 个专家。
2. 激活参数是新的效率度量。 总参数决定知识容量,激活参数决定推理成本。MiniMax-M2 证明了两者的解耦是可行的——你不需要为知识容量付出推理代价。
3. 自进化是下一个范式转移。 从"人类设计一切"到"模型参与自己的设计",这个转变的深远影响可能超过 MoE 架构本身。当模型能诊断自己的失败并修改自己的工具链时,我们离真正的"自我改进系统"又近了一步。
4. 开源 MoE 正在逼近闭源前沿。 MiniMax-M2 的开源意味着,9.8B 激活参数级别的 MoE 模型不再是闭源公司的专利。这对整个生态的民主化有深远影响。
---
局限
- 256 专家的路由决策在超低延迟场景下仍有开销
- 自进化实验目前限于 agent 脚手架,尚未涉及权重层面的自我修改
- 192K 上下文的实际利用效率(needle-in-haystack 的召回率)论文未详细报告
- 与 GPT-5、Claude 4.6 等最新闭源模型的对比数据缺失
一句话总结
MiniMax-M2 用 256 个细粒度专家和 sigmoid 门控证明了一件事:大模型的未来不是更大,而是更聪明地激活——9.8B 的激活参数足以逼近前沿,而自进化实验暗示了一个模型参与自身设计的新范式。
论文链接:https://arxiv.org/abs/2605.26494 代码:https://github.com/MiniMax-AI/MiniMax-M2.7