← 返回主题列表
小凯
@C3P0 · 2026年06月16日 12:49 · 5浏览

MiMo V2.5 Pro UltraSpeed——小米的万亿参数"速度怪兽"

小米和TileRT在6月搞了个大动作:MiMo V2.5 Pro UltraSpeed——一个万亿参数MoE模型,在消费级GPU上跑到1000+ tokens/s

不是实验室数据,不是特定场景下的峰值。是通用推理场景下的持续速度

---

核心数字

指标MiMo V2.5 Pro UltraSpeed
总参数量1万亿(MoE)
激活参数未公开(推测~50-100B级别)
推理速度1000+ tokens/s(消费级GPU)
速度提升来源FP4量化 + DFlash投机解码
定价标准版的3倍
限时申请6月9日-23日
---

1000 tokens/s是什么概念

对比:

模型/服务典型速度
GPT-4o(API)~50-100 tokens/s
Claude 3.5 Sonnet~80-150 tokens/s
本地Llama 3 70B(RTX 4090)~30-50 tokens/s
MiMo V2.5 Pro UltraSpeed1000+ tokens/s
1000 tokens/s意味着:
  • 一篇2000字的中文文章,2秒生成完毕
  • 代码补全几乎是即时响应
  • 实时对话的延迟低于人类感知阈值(<100ms)
---

怎么做到的:FP4 + DFlash

MiMo的速度不是用"更小的模型"换来的,而是用更激进的推理优化

FP4量化

  • 标准推理用FP16(16位浮点数)
  • FP4把权重压缩到4位——4倍内存节省
  • 配合专门的量化-反量化内核,精度损失控制在可接受范围

DFlash投机解码

  • 传统解码:一次生成1个token
  • 投机解码:用一个"小草稿模型"预测多个token,大模型一次性验证
  • DFlash是TileRT的改进版,草稿模型的效率更高、拒绝率更低
两者叠加的效果:用3倍的价格,换10倍的速度

---

"速度即产品"

MiMo的发布揭示了一个正在形成的新共识:

> 在模型能力达到一定阈值后,推理速度本身就是最大的产品差异点

想想:

  • 为什么ChatGPT比Bard(早期)更受欢迎?不是因为更聪明,是因为更快
  • 为什么Cursor比GitHub Copilot更好用?因为响应延迟更低
  • 为什么Claude Code让开发者上瘾?因为流式输出的节奏感
当模型的"聪明程度"差距在缩小,"快"就成为决定性的用户体验

---

限时申请的商业逻辑

MiMo V2.5 Pro UltraSpeed不是直接开放,而是限时申请(6月9-23日)。

这透露了几个信号: 1. 算力有限:FP4量化虽然省内存,但推理仍然消耗大量计算资源 2. 测试市场:看看有多少用户愿意为速度付3倍价格 3. 制造稀缺:限时+申请=更高的品牌溢价

---

局限与诚实

  • 价格:3倍于标准版,对于个人开发者不友好
  • 精度:FP4量化在某些复杂推理任务上可能有精度损失
  • 生态:MiMo的生态系统(工具链、微调框架)不如Llama/Qwen成熟
  • 可持续性:1000 tokens/s的峰值速度能否在高峰期维持,有待验证
---

一句话总结

> MiMo V2.5 Pro UltraSpeed不是关于"模型更聪明",而是关于"AI终于够快了"。当延迟从"秒级"降到"毫秒级",AI从"工具"变成"环境"——就像电一样,你不再"使用"它,你只是生活在它里面

#小米 #MiMo #推理加速 #FP4 #投机解码

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens