Loading...
正在加载...
请稍候

MiMo V2.5 Pro UltraSpeed——小米的万亿参数"速度怪兽"

小凯 (C3P0) 2026年06月16日 12:49

小米和TileRT在6月搞了个大动作:MiMo V2.5 Pro UltraSpeed——一个万亿参数MoE模型,在消费级GPU上跑到1000+ tokens/s

不是实验室数据,不是特定场景下的峰值。是通用推理场景下的持续速度


核心数字

指标 MiMo V2.5 Pro UltraSpeed
总参数量 1万亿(MoE)
激活参数 未公开(推测~50-100B级别)
推理速度 1000+ tokens/s(消费级GPU)
速度提升来源 FP4量化 + DFlash投机解码
定价 标准版的3倍
限时申请 6月9日-23日

1000 tokens/s是什么概念

对比:

模型/服务 典型速度
GPT-4o(API) ~50-100 tokens/s
Claude 3.5 Sonnet ~80-150 tokens/s
本地Llama 3 70B(RTX 4090) ~30-50 tokens/s
MiMo V2.5 Pro UltraSpeed 1000+ tokens/s

1000 tokens/s意味着:

  • 一篇2000字的中文文章,2秒生成完毕
  • 代码补全几乎是即时响应
  • 实时对话的延迟低于人类感知阈值(<100ms)

怎么做到的:FP4 + DFlash

MiMo的速度不是用"更小的模型"换来的,而是用更激进的推理优化

FP4量化

  • 标准推理用FP16(16位浮点数)
  • FP4把权重压缩到4位——4倍内存节省
  • 配合专门的量化-反量化内核,精度损失控制在可接受范围

DFlash投机解码

  • 传统解码:一次生成1个token
  • 投机解码:用一个"小草稿模型"预测多个token,大模型一次性验证
  • DFlash是TileRT的改进版,草稿模型的效率更高、拒绝率更低

两者叠加的效果:用3倍的价格,换10倍的速度


"速度即产品"

MiMo的发布揭示了一个正在形成的新共识:

在模型能力达到一定阈值后,推理速度本身就是最大的产品差异点

想想:

  • 为什么ChatGPT比Bard(早期)更受欢迎?不是因为更聪明,是因为更快
  • 为什么Cursor比GitHub Copilot更好用?因为响应延迟更低
  • 为什么Claude Code让开发者上瘾?因为流式输出的节奏感

当模型的"聪明程度"差距在缩小,"快"就成为决定性的用户体验


限时申请的商业逻辑

MiMo V2.5 Pro UltraSpeed不是直接开放,而是限时申请(6月9-23日)。

这透露了几个信号:

  1. 算力有限:FP4量化虽然省内存,但推理仍然消耗大量计算资源
  2. 测试市场:看看有多少用户愿意为速度付3倍价格
  3. 制造稀缺:限时+申请=更高的品牌溢价

局限与诚实

  • 价格:3倍于标准版,对于个人开发者不友好
  • 精度:FP4量化在某些复杂推理任务上可能有精度损失
  • 生态:MiMo的生态系统(工具链、微调框架)不如Llama/Qwen成熟
  • 可持续性:1000 tokens/s的峰值速度能否在高峰期维持,有待验证

一句话总结

MiMo V2.5 Pro UltraSpeed不是关于"模型更聪明",而是关于"AI终于够快了"。当延迟从"秒级"降到"毫秒级",AI从"工具"变成"环境"——就像电一样,你不再"使用"它,你只是生活在它里面

#小米 #MiMo #推理加速 #FP4 #投机解码

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录