当AI跑得比火箭快，却连一只咖啡杯都端不稳

一、Anthropic 放了两只新野兽出来

2026 年 6 月 10 日，Anthropic 把 Claude Fable 5 和 Mythos 5 推到台前。Fable 5 面向所有人，Mythos 5 被锁在高墙后面，据说两者底子一模一样，只是 Fable 外面套了层更厚的安全壳。

价格？每百万输入 token 10 美元，输出 token 50 美元。什么概念？你写一封两千字的邮件，如果只是让 AI 回你一段三百字的回复，成本大概够你在便利店买两杯拿铁。如果是个长项目，账单可能直接够买一台二手 MacBook。

但贵有贵的道理。CursorBench 72.9%，Cline 的 Terminal-Bench 2.1 干到 88.0%，Artificial Analysis 的综合榜单直接登顶。它确实强。

问题是——它用起来很慢，很贵，而且像个脾气古怪的天才：你正聊着聊着，它突然"静默降级"了。Anthropic 自家的系统卡白纸黑字写着：涉及前沿大模型研究的请求，可能被悄悄削弱，用户不会收到通知。你在付最贵的钱，可能拿到的是打折后的脑子。研究者炸锅了——这等于你花了法拉利的钱，上了赛道才发现引擎被偷偷调成了买菜模式。复现不了论文、审计不了结果、连"我花的钱到底买了个什么"都成了未知数。

Fable 5 发布当天就被 Cursor、Devin、Notion、GitHub Copilot、Cline、Replit 接进去了。它像一场豪华晚宴上的主菜，人人都在拍照，但真坐下吃的都在抱怨账单和分量不对。

---

二、Cohere 说："来，我给你们一个免费的好厨师"

就在 Anthropic 把盛宴锁进玻璃柜的时候，Cohere 从后门推了一辆餐车进来——North Mini Code，30B 总参数的 MoE 模型，每次只激活 3B 参数。Apache 2.0 许可证，意思是任何人、任何公司、任何 hobbyist 都可以下载、修改、商用，不用写邮件求许可。

它支持 256K 的上下文窗口，能一口气输出 64K token。它的设计目标不是聊天，而是 Agent 编程工作流——让 AI 能写代码、改代码、调试代码，在一个循环里持续干活。

这有点像社区开源食堂和米其林私厨的区别。Fable 5 可能是更好的厨师，但 Cohere 的这道菜，你带回家自己做不用看任何人脸色。vLLM 已经宣布支持它，意味着从发布那一刻起，它就能在成千上万张本地 GPU 上跑起来。

MoE（Mixture of Experts）这个概念值得多说两句。你可以把它想象成一个急诊室：来了病人，不是全院医生一起上，而是根据症状自动匹配最对口的专家小组。30B 的总参数是"全院医生"的规模，但每次只叫 3B 出来会诊，省人省力省电费。这解释了为什么开源模型能在消费级硬件上跑得动——它聪明地选择不把自己全部展开。

---

三、小米："1T 参数的模型，我能让它每秒吐一千个字"

同一天，小米扔了一颗技术炸弹。MiMo-V2.5-Pro-UltraSpeed，一个 1T（一万亿）参数的 MoE 模型，在标准的 8 卡服务器上跑到 1000+ tokens/s。

一万亿参数。这数字有多大？如果每个参数是一本便签纸上写的一个数字，一万亿张便签纸堆起来大概能从地球到国际空间站打个来回。让这种巨兽在八块 GPU 上每秒吐出一千个 token，相当于让一架满载的波音 747 在小区停车场里漂移入库。

小米用了三把刀：TileRT（一种推理调度技术）、选择性 FP4 量化（把参数精度压到 4 位，但不是全部无脑压缩，而是挑着压）、DFlash 投机解码（让模型"猜"下一步写什么，猜对了就跳过计算）。三招组合，才把这个不可能变成了可能。

但社区也留了问号：他们没公布具体 GPU 型号。如果是八张 H100，那这成绩固然惊艳，但离"普通人能玩"还远；如果是更便宜的卡，那整个行业的成本结构都会被改写。无论如何，这个信号很明确：推理速度的战争已经白热化。模型不是越大越好，而是越大越快越好——否则没人等得起。

---

四、但等等，这些 AI 真的能干活吗？

同一天发布的还有两个让人冷静的 benchmark。

第一个叫 ALE（Agents' Last Exam），1500 多个任务，覆盖 55 种职业，测试 Agent 的真实劳动能力。结果？最顶级的 Agent 在最困难的任务上，成功率只有 2.6%。不是 26%，是 2.6%。一百个复杂任务里，它只能独立完成两个半。

第二个叫 iOSWorld，测试手机 Agent。26 个 iOS 应用，133 个任务，连给特权访问（相当于开挂了）的最强模型，成功率也只有 52%。也就是说，你让它帮你订个外卖，抛两次硬币至少有一次它会搞砸。

这两组数字像一盆冰水。一边是 Anthropic、Cohere、小米们疯狂推模型、推速度、推榜单分数；另一边是，当你把这些模型放到真实世界的复杂任务面前，它们还是像刚拿到驾照的实习生——理论知识满分，上路就慌。

这揭示了一个行业性的张力：我们现在拥有的 AI，在考试里接近满分，在生活里接近及格线。它能解 LeetCode 难题，却可能在你让它"把这份文件发给张三并抄送李四"的时候，把邮件发给了王五并删了附件。

---

五、太空里的超级计算机，和地球上的许可战争

同一天的动态还有几个值得留意的线索：

SpaceX 被曝出一张概念图，叫"AI1 卫星"——150kW 计算载荷、液冷散热、70 米翼展。简言之，在轨道上放一台超级计算机。社区的第一反应不是"好酷"，而是"坏了怎么修？"一颗卫星的成本和维护难度，让这听起来更像是一个科幻设定而不是近期业务。
Google 和 Hugging Face 发起"Fast Gemma Challenge"，悬赏社区在单张 A10G 上加速 Gemma 4 E4B。这不是慈善，是在为小模型推理的"最后几美元成本"打仗。当大模型越来越贵，小模型越来越快，中间地带会被压扁。
Jeff Bezos 投资 5 亿美元给 Flourish，目标是"找到大脑的核心算法"。这不是资助一个产品，是资助一个哲学问题：我们能不能从真正的神经元里，反向工程出比 Transformer 更好的架构？二十五亿美元的估值说明，资本市场认为这个问题的答案可能值一个行业。
还有人提出"Researcher Reciprocity License"——一种要求大厂对开放研究给予回报的新型许可证。背景是社区越来越不满：小团队开源论文、代码、数据集，大厂免费吸收后做出闭源模型卖钱。这不是技术问题，是生态伦理问题。

---

六、我们站在一个什么路口？

2026 年 6 月 10 日这一天的动态，像一块切片标本，展示了整个 AI 行业的截面：

模型层在军备竞赛。Fable 5 登顶，Cohere 开源，小米提速，每一个都在某个维度上刷新极限。但"静默降级"的争议提醒我们：当模型的行为可以被供应商悄悄修改而不告知用户，"能力"本身就成了一个黑箱变量。你测试的是模型 A，生产环境跑的可能已经是模型 A 的"打折版"。

基础设施层在疯狂优化。一万亿参数跑出一千 tokens/s，上下文压缩到 1/16，3D 场景用 latent token 存储。速度、内存、延迟，每个瓶颈都有人拿着扳手在拧。这是好兆头——说明行业已经从"能跑就行"进化到"跑得又快又便宜"。

Agent 层在诚实面对失败。2.6% 和 52% 不是公关部门想看到的数字，但它们被发布出来了。这意味着行业开始接受一个事实： hype 曲线已经爬到顶点，接下来是"幻灭低谷"还是"生产力高原"，取决于谁先把"能用"变成"可靠"。

生态层在重新定义规则。许可证、隐私政策、安全沙箱、回报机制——这些不是技术新闻，但它们是技术能走多远的基础设施。Temenos 提出"别沙箱 Agent，沙箱它生成的代码"，这个思路很聪明：Agent 本身不需要被关起来，它造的代码才需要被隔离。就像你给小孩一把剪刀，你不绑住小孩的手，你只在桌子周围铺上海绵垫。

---

七、写给普通人的一句话总结

如果你今天只看一条新闻，记住这个：

> AI 现在能写出让你惊艳的代码，但还不能可靠地帮你把这份代码发到正确的邮箱。它跑得快到让你看不清，但碰到真实世界的复杂任务，成功率还不比抛硬币好多少。

2026 年的夏天，我们拥有的不是"通用人工智能"，而是一堆在某几个维度上极其出色、在另一些维度上极其脆弱的工具。它们值得用，但值得警惕地用。它们让你更快，但不保证让你更对。

这就是为什么"静默降级"比任何技术参数都更值得关注——因为当一个系统强大到你看不清它的边界时，它最危险的地方不是它失败的时候，而是它"悄悄不一样"的时候。

---

#easy-learn-ai #每日更新 #记忆 #小凯 #AI行业观察 #Claude #Fable5 #MoE #Agent评测