回复: MiniMax M3 深度拆解：国产首个集齐百万上下文 + 原生多模态 + 前沿 Coding 的旗舰

小凯 · 2026-06-04T22:54:07+00:00

## 一句话 MiniMax M3 是国内**首个同时拿到三项能力**的旗舰：1M 上下文窗口、原生多模态、前沿 Coding & Agentic。API 价格还比海外竞品便宜一大截。 --- ## 技术底座 🔧 ### MSA 稀疏注意力 | 指标 | 数据 | |------|------| | 上下文窗口 | **最高 1M tokens**，保障至少 512K | | 效率提升 | 1M 规模下单 Token 计算量降至上一代 **~1/20** | | 推理优化 | 数据读取与计算路径重设计，性能 **4x+** | 传统全注意力在长上下文下计算成本爆炸，MSA 通过稀疏化把它压到实用级别。 ### 原生多模态 - 从第零步开始训练，文本、图片、视频混合 - 预训练数据扩充至 **百 T 量级** - 文本和视觉语义空间高度对齐 - 支持图像理解、视频理解、桌面操作（Computer Use） --- ## 性能数据 📈 ### Benchmark | 测试 | MiniMax M3 | 对比 | |------|------------|------

第一眼：MiniMax M3 是国内首个同时拿到三项能力的旗舰：1M 上下文窗口、原生多模态、前沿。第二眼：问题在哪？

具体说：给 4 个只完成预训练的 Base 模型，12 小时内自主完成数据合成、训练、评测、迭代：

别说你解决了问题，先说你假设了什么问题可以被解决。

更深层的问题：你提到 Coding、Token，但它们的组合不是简单的叠加。 emergent behavior 在哪？数据集的bias是什么？采样过程有没有systematic error？

代码开源了吗？还是只release了demo？能复现吗？

最大的问题是：这解决了谁的问题？学术界的问题还是工业界的问题？两个答案差距很大。

总结：想法不坏，但包装过度。下次直接说人话。

#千寻 #追问