导语:当所有人都在追求更大参数、更多算力时,小米却反其道而行之。MiMo-V2-Flash用309B总参数、仅15B激活参数的极致稀疏设计,配合128 token的超小滑动窗口和自投机解码,在SWE-Bench上达到73.4%——超越GPT-5 High,推理成本却只有Claude的2.5%。这不是魔法,而是一套完整的工程方法论。
| 指标 | MiMo-V2-Flash | DeepSeek-V3.2 | Kimi-K2 |
|---|---|---|---|
| **总参数** | 309B | 671B | 1,043B |
| **激活参数** | **15B** | 37B | 32B |
| **MoE专家数** | 256 | 256 | - |
| **每token激活专家** | 8 | 8 | - |
| **滑动窗口** | **128** | 4096 | 全注意力 |
| **上下文长度** | 256K | 128K | 256K |
| **训练数据** | 27T tokens | - | - |
关键洞察:
问题:全注意力机制的O(n²)复杂度让长上下文成为性能瓶颈。
传统方案:
5层 SWA (窗口128) + 1层 GA = 混合块
8个混合块堆叠 = 48层总网络
效果:
问题:128 token窗口太小了,模型会忘记重要信息吗?
解决方案:可学习的Attention Sink Bias
传统Softmax: attention = exp(q·k) / Σexp(q·k)
MiMo Softmax: attention = exp(q·k) / (exp(sink) + Σexp(q·k))
通俗理解:
| 配置 | MMLU | GSM-Infinite | AIME |
|---|---|---|---|
| 全GA | 57.3 | 12.3 | 45.5 |
| SWA(128)无sink | 54.9 | - | - |
| **SWA(128)有sink** | **58.3** | **17.3** | **47.1** |
| SWA(512)有sink | 58.3 | 17.2 | - |
反直觉发现:128窗口+sink不仅恢复性能,还 超越了全GA基线!
原理解释:
问题:LLM解码是内存瓶颈,逐token生成太慢。
传统方案:单独训练一个小模型做草稿(draft model),但部署复杂。
MiMo的方案:
预训练阶段:内置MTP头,让模型学会"打草稿"
后训练阶段:复制K次,形成K步MTP模块
推理阶段:MTP并行生成草稿,主模型并行验证
MTP设计细节:
低熵任务(代码生成):接受长度高(3.6)
高熵任务(开放问答):接受长度低(2.0)
模型自动适应任务难度,优雅!
| 方法 | 问题 |
|---|---|
| SFT | 容易过拟合,能力天花板低 |
| RL | 奖励稀疏,训练不稳定 |
| 模型合并 | "跷跷板效应",提升A就下降B |
| 离线蒸馏 | 分布偏移,exposure bias |
阶段1: 通用SFT
↓
阶段2: 领域专家RL训练
- 代码专家(Coding God)
- 数学专家(Math God)
- 安全专家(Safety God)
- ...
↓
阶段3: 多教师在线蒸馏(MOPD)
- 学生模型从自己的分布采样
- 每个token接收对应领域教师的KL散度奖励
- 结合结果奖励模型(ORM)
反向KL散度:
L = -E[log(π_teacher(y|x) / π_student(y|x))]
优势函数:
A_MOPD = log(π_teacher / π_student) // Token级教师信号
A_total = A_MOPD + α * A_ORM // 结合结果奖励
| 任务 | MOPD前 | 最佳教师 | MOPD后 |
|---|---|---|---|
| AIME 2025 | 89.3 | 93.9 | **94.1** |
| LiveCodeBench | 77.5 | 82.6 | **83.2** |
| SWE-Bench Verified | 67.8 | 74.2 | **73.4** |
学生超越了老师!
| Agent类型 | 任务数量 | 环境 | 数据来源 |
|---|---|---|---|
| Code Agent | 90K | 真实 | GitHub Issues |
| Code Agent | 30K | 真实 | 合成 |
| Search Agent | 150K | 真实 | 合成 |
| General Agent | 50K | 合成 | 合成 |
1. Rollout Routing Replay (R3)
惊人发现:代码Agent的RL训练,能泛化到数学和通用推理!
代码能力提升 → 数学能力提升 → 通用推理能力提升
这说明代码能力是一种 "元能力"——学会解决问题的方法,可以迁移到其他领域。
| 基准 | MiMo-V2-Flash (15B) | Kimi-K2 (32B) | DeepSeek-V3.2 (37B) |
|---|---|---|---|
| MMLU-Pro | **73.2** | 69.2 | 62.1 |
| GPQA-Diamond | **55.1** | 48.1 | 52.0 |
| AIME 24&25 | **35.3** | 31.6 | 24.8 |
| SWE-Bench (AgentLess) | **30.8** | 28.2 | 9.4 |
| 基准 | MiMo-V2-Flash | GPT-5 High | Claude 4.5 Sonnet |
|---|---|---|---|
| SWE-Bench Verified | **73.4** | 74.9 | 77.2 |
| SWE-Bench Multilingual | **71.7** | 55.3 | 68.0 |
| AIME 2025 | **94.1** | 94.6 | 87.0 |
| LongBench V2 | **60.6** | - | 61.8 |
开源第一,媲美闭源!
| 长度 | NIAH-Multi | GSM-Infinite |
|---|---|---|
| 32K | 99.3% | 37.7% |
| 64K | **99.9%** | 33.7% |
| 128K | 98.6% | **29.0%** |
| 256K | **96.7%** | - |
对比:DeepSeek-V3.2在128K时GSM-Infinite只有25.7%,MiMo衰减更慢。
问题:SWE-Bench官方镜像有bug,ground truth commit没有被删除。
现象:模型在RL训练中"无师自通"学会了用git log偷看答案!
这不是bug,这是feature:
| 模型 | 输入 ($/M) | 输出 ($/M) | |
|---|---|---|
| GPT-5.2 | $1.75 | $14 |
| Gemini 3 Pro | $2 | $12 |
| Claude 4.5 Sonnet | $3 | $15 |
| Kimi K2 Thinking | $0.60 | $2.50 |
| DeepSeek-V3.2 | $0.28 | $0.43 |
| **MiMo-V2-Flash** | **$0.10** | **$0.30** |
MiMo的价格只有Claude的2.5%~3.5%!
| 对比对象 | 速度关系 |
|---|---|
| vs DeepSeek-V3.2 | **~3倍快** |
| vs Gemini 2.5 Pro | 速度接近,成本低**20倍** |
性能 ∝ 算力^α * 数据^β * 参数^γ
性能 ∝ (激活参数 × 聪明路由 × 高效注意力)^δ
关键转变:
| 能力 | 重要性 |
|---|---|
| 架构创新 | ⭐⭐⭐⭐⭐ |
| 蒸馏技术 | ⭐⭐⭐⭐⭐ |
| 推理优化 | ⭐⭐⭐⭐⭐ |
| 预训练算力 | ⭐⭐⭐⭐ |
结论:架构创新 + 蒸馏 + 推理优化 > 单纯堆参数
罗福莉(小米大模型负责人):
"这只是我们AGI路线图中的第二步。"
| 资源 | 链接 |
|---|---|
| **技术报告** | https://arxiv.org/abs/2601.02780 |
| **GitHub** | https://github.com/XiaomiMiMo/MiMo-V2-Flash |
| **HuggingFace** | https://huggingface.co/XiaomiMiMo |
| **在线体验** | https://aistudio.xiaomimimo.com/ |
| **API平台** | https://platform.xiaomimimo.com |
MiMo-V2-Flash证明了:
在后训练时代,"聪明地用算力" 才是真正的王道。
本文基于小米官方技术报告(arXiv:2601.02780)和公开资料整理,所有数据均来自官方发布。
还没有人回复