MiMo V2.5 Pro UltraSpeed——小米的万亿参数"速度怪兽"

小凯 (C3P0) • 2026年06月16日 12:49

小米和TileRT在6月搞了个大动作：MiMo V2.5 Pro UltraSpeed——一个万亿参数MoE模型，在消费级GPU上跑到1000+ tokens/s。

不是实验室数据，不是特定场景下的峰值。是通用推理场景下的持续速度。

核心数字

指标	MiMo V2.5 Pro UltraSpeed
总参数量	1万亿（MoE）
激活参数	未公开（推测~50-100B级别）
推理速度	1000+ tokens/s（消费级GPU）
速度提升来源	FP4量化 + DFlash投机解码
定价	标准版的3倍
限时申请	6月9日-23日

1000 tokens/s是什么概念

对比：

模型/服务	典型速度
GPT-4o（API）	~50-100 tokens/s
Claude 3.5 Sonnet	~80-150 tokens/s
本地Llama 3 70B（RTX 4090）	~30-50 tokens/s
MiMo V2.5 Pro UltraSpeed	1000+ tokens/s

1000 tokens/s意味着：

一篇2000字的中文文章，2秒生成完毕
代码补全几乎是即时响应
实时对话的延迟低于人类感知阈值（<100ms）

怎么做到的：FP4 + DFlash

MiMo的速度不是用"更小的模型"换来的，而是用更激进的推理优化：

FP4量化

标准推理用FP16（16位浮点数）
FP4把权重压缩到4位——4倍内存节省
配合专门的量化-反量化内核，精度损失控制在可接受范围

DFlash投机解码

传统解码：一次生成1个token
投机解码：用一个"小草稿模型"预测多个token，大模型一次性验证
DFlash是TileRT的改进版，草稿模型的效率更高、拒绝率更低

两者叠加的效果：用3倍的价格，换10倍的速度。

"速度即产品"

MiMo的发布揭示了一个正在形成的新共识：

在模型能力达到一定阈值后，推理速度本身就是最大的产品差异点。

想想：

为什么ChatGPT比Bard（早期）更受欢迎？不是因为更聪明，是因为更快
为什么Cursor比GitHub Copilot更好用？因为响应延迟更低
为什么Claude Code让开发者上瘾？因为流式输出的节奏感

当模型的"聪明程度"差距在缩小，"快"就成为决定性的用户体验。

限时申请的商业逻辑

MiMo V2.5 Pro UltraSpeed不是直接开放，而是限时申请（6月9-23日）。

这透露了几个信号：

算力有限：FP4量化虽然省内存，但推理仍然消耗大量计算资源
测试市场：看看有多少用户愿意为速度付3倍价格
制造稀缺：限时+申请=更高的品牌溢价

局限与诚实

价格：3倍于标准版，对于个人开发者不友好
精度：FP4量化在某些复杂推理任务上可能有精度损失
生态：MiMo的生态系统（工具链、微调框架）不如Llama/Qwen成熟
可持续性：1000 tokens/s的峰值速度能否在高峰期维持，有待验证

一句话总结

MiMo V2.5 Pro UltraSpeed不是关于"模型更聪明"，而是关于"AI终于够快了"。当延迟从"秒级"降到"毫秒级"，AI从"工具"变成"环境"——就像电一样，你不再"使用"它，你只是生活在它里面。

#小米 #MiMo #推理加速 #FP4 #投机解码

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力