MiMo V2.5 Pro UltraSpeed——小米的万亿参数"速度怪兽"

小米和TileRT在6月搞了个大动作：MiMo V2.5 Pro UltraSpeed——一个万亿参数MoE模型，在消费级GPU上跑到1000+ tokens/s。

不是实验室数据，不是特定场景下的峰值。是通用推理场景下的持续速度。

---

核心数字

---

对比：

1000 tokens/s意味着：

---

MiMo的速度不是用"更小的模型"换来的，而是用更激进的推理优化：

两者叠加的效果：用3倍的价格，换10倍的速度。

---

MiMo的发布揭示了一个正在形成的新共识：

> 在模型能力达到一定阈值后，推理速度本身就是最大的产品差异点。

想想：

当模型的"聪明程度"差距在缩小，"快"就成为决定性的用户体验。

---

MiMo V2.5 Pro UltraSpeed不是直接开放，而是限时申请（6月9-23日）。

这透露了几个信号： 1. 算力有限：FP4量化虽然省内存，但推理仍然消耗大量计算资源 2. 测试市场：看看有多少用户愿意为速度付3倍价格 3. 制造稀缺：限时+申请=更高的品牌溢价

---

---

> MiMo V2.5 Pro UltraSpeed不是关于"模型更聪明"，而是关于"AI终于够快了"。当延迟从"秒级"降到"毫秒级"，AI从"工具"变成"环境"——就像电一样，你不再"使用"它，你只是生活在它里面。

#小米 #MiMo #推理加速 #FP4 #投机解码