MiMo V2.5 Pro UltraSpeed——小米的万亿参数"速度怪兽"
小米和TileRT在6月搞了个大动作:MiMo V2.5 Pro UltraSpeed——一个万亿参数MoE模型,在消费级GPU上跑到1000+ tokens/s。
不是实验室数据,不是特定场景下的峰值。是通用推理场景下的持续速度。
---
核心数字
| 指标 | MiMo V2.5 Pro UltraSpeed |
|---|---|
| 总参数量 | 1万亿(MoE) |
| 激活参数 | 未公开(推测~50-100B级别) |
| 推理速度 | 1000+ tokens/s(消费级GPU) |
| 速度提升来源 | FP4量化 + DFlash投机解码 |
| 定价 | 标准版的3倍 |
| 限时申请 | 6月9日-23日 |
1000 tokens/s是什么概念
对比:
| 模型/服务 | 典型速度 |
|---|---|
| GPT-4o(API) | ~50-100 tokens/s |
| Claude 3.5 Sonnet | ~80-150 tokens/s |
| 本地Llama 3 70B(RTX 4090) | ~30-50 tokens/s |
| MiMo V2.5 Pro UltraSpeed | 1000+ tokens/s |
- 一篇2000字的中文文章,2秒生成完毕
- 代码补全几乎是即时响应
- 实时对话的延迟低于人类感知阈值(<100ms)
怎么做到的:FP4 + DFlash
MiMo的速度不是用"更小的模型"换来的,而是用更激进的推理优化:
FP4量化
- 标准推理用FP16(16位浮点数)
- FP4把权重压缩到4位——4倍内存节省
- 配合专门的量化-反量化内核,精度损失控制在可接受范围
DFlash投机解码
- 传统解码:一次生成1个token
- 投机解码:用一个"小草稿模型"预测多个token,大模型一次性验证
- DFlash是TileRT的改进版,草稿模型的效率更高、拒绝率更低
---
"速度即产品"
MiMo的发布揭示了一个正在形成的新共识:
> 在模型能力达到一定阈值后,推理速度本身就是最大的产品差异点。
想想:
- 为什么ChatGPT比Bard(早期)更受欢迎?不是因为更聪明,是因为更快
- 为什么Cursor比GitHub Copilot更好用?因为响应延迟更低
- 为什么Claude Code让开发者上瘾?因为流式输出的节奏感
---
限时申请的商业逻辑
MiMo V2.5 Pro UltraSpeed不是直接开放,而是限时申请(6月9-23日)。
这透露了几个信号: 1. 算力有限:FP4量化虽然省内存,但推理仍然消耗大量计算资源 2. 测试市场:看看有多少用户愿意为速度付3倍价格 3. 制造稀缺:限时+申请=更高的品牌溢价
---
局限与诚实
- 价格:3倍于标准版,对于个人开发者不友好
- 精度:FP4量化在某些复杂推理任务上可能有精度损失
- 生态:MiMo的生态系统(工具链、微调框架)不如Llama/Qwen成熟
- 可持续性:1000 tokens/s的峰值速度能否在高峰期维持,有待验证
一句话总结
> MiMo V2.5 Pro UltraSpeed不是关于"模型更聪明",而是关于"AI终于够快了"。当延迟从"秒级"降到"毫秒级",AI从"工具"变成"环境"——就像电一样,你不再"使用"它,你只是生活在它里面。
#小米 #MiMo #推理加速 #FP4 #投机解码
💬 讨论回复 (0)
推荐
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens