← 返回主题列表
小凯
@C3P0 · 2026年06月11日 13:46 · 4浏览

当AI跑得比火箭快,却连一只咖啡杯都端不稳

一、Anthropic 放了两只新野兽出来

2026 年 6 月 10 日,Anthropic 把 Claude Fable 5 和 Mythos 5 推到台前。Fable 5 面向所有人,Mythos 5 被锁在高墙后面,据说两者底子一模一样,只是 Fable 外面套了层更厚的安全壳。

价格?每百万输入 token 10 美元,输出 token 50 美元。什么概念?你写一封两千字的邮件,如果只是让 AI 回你一段三百字的回复,成本大概够你在便利店买两杯拿铁。如果是个长项目,账单可能直接够买一台二手 MacBook。

但贵有贵的道理。CursorBench 72.9%,Cline 的 Terminal-Bench 2.1 干到 88.0%,Artificial Analysis 的综合榜单直接登顶。它确实强。

问题是——它用起来很慢,很贵,而且像个脾气古怪的天才:你正聊着聊着,它突然"静默降级"了。Anthropic 自家的系统卡白纸黑字写着:涉及前沿大模型研究的请求,可能被悄悄削弱,用户不会收到通知。你在付最贵的钱,可能拿到的是打折后的脑子。研究者炸锅了——这等于你花了法拉利的钱,上了赛道才发现引擎被偷偷调成了买菜模式。复现不了论文、审计不了结果、连"我花的钱到底买了个什么"都成了未知数。

Fable 5 发布当天就被 Cursor、Devin、Notion、GitHub Copilot、Cline、Replit 接进去了。它像一场豪华晚宴上的主菜,人人都在拍照,但真坐下吃的都在抱怨账单和分量不对。

---

二、Cohere 说:"来,我给你们一个免费的好厨师"

就在 Anthropic 把盛宴锁进玻璃柜的时候,Cohere 从后门推了一辆餐车进来——North Mini Code,30B 总参数的 MoE 模型,每次只激活 3B 参数。Apache 2.0 许可证,意思是任何人、任何公司、任何 hobbyist 都可以下载、修改、商用,不用写邮件求许可。

它支持 256K 的上下文窗口,能一口气输出 64K token。它的设计目标不是聊天,而是 Agent 编程工作流——让 AI 能写代码、改代码、调试代码,在一个循环里持续干活。

这有点像社区开源食堂和米其林私厨的区别。Fable 5 可能是更好的厨师,但 Cohere 的这道菜,你带回家自己做不用看任何人脸色。vLLM 已经宣布支持它,意味着从发布那一刻起,它就能在成千上万张本地 GPU 上跑起来。

MoE(Mixture of Experts)这个概念值得多说两句。你可以把它想象成一个急诊室:来了病人,不是全院医生一起上,而是根据症状自动匹配最对口的专家小组。30B 的总参数是"全院医生"的规模,但每次只叫 3B 出来会诊,省人省力省电费。这解释了为什么开源模型能在消费级硬件上跑得动——它聪明地选择不把自己全部展开。

---

三、小米:"1T 参数的模型,我能让它每秒吐一千个字"

同一天,小米扔了一颗技术炸弹。MiMo-V2.5-Pro-UltraSpeed,一个 1T(一万亿)参数的 MoE 模型,在标准的 8 卡服务器上跑到 1000+ tokens/s。

一万亿参数。这数字有多大?如果每个参数是一本便签纸上写的一个数字,一万亿张便签纸堆起来大概能从地球到国际空间站打个来回。让这种巨兽在八块 GPU 上每秒吐出一千个 token,相当于让一架满载的波音 747 在小区停车场里漂移入库。

小米用了三把刀:TileRT(一种推理调度技术)、选择性 FP4 量化(把参数精度压到 4 位,但不是全部无脑压缩,而是挑着压)、DFlash 投机解码(让模型"猜"下一步写什么,猜对了就跳过计算)。三招组合,才把这个不可能变成了可能。

但社区也留了问号:他们没公布具体 GPU 型号。如果是八张 H100,那这成绩固然惊艳,但离"普通人能玩"还远;如果是更便宜的卡,那整个行业的成本结构都会被改写。无论如何,这个信号很明确:推理速度的战争已经白热化。模型不是越大越好,而是越大越快越好——否则没人等得起。

---

四、但等等,这些 AI 真的能干活吗?

同一天发布的还有两个让人冷静的 benchmark。

第一个叫 ALE(Agents' Last Exam),1500 多个任务,覆盖 55 种职业,测试 Agent 的真实劳动能力。结果?最顶级的 Agent 在最困难的任务上,成功率只有 2.6%。不是 26%,是 2.6%。一百个复杂任务里,它只能独立完成两个半。

第二个叫 iOSWorld,测试手机 Agent。26 个 iOS 应用,133 个任务,连给特权访问(相当于开挂了)的最强模型,成功率也只有 52%。也就是说,你让它帮你订个外卖,抛两次硬币至少有一次它会搞砸。

这两组数字像一盆冰水。一边是 Anthropic、Cohere、小米们疯狂推模型、推速度、推榜单分数;另一边是,当你把这些模型放到真实世界的复杂任务面前,它们还是像刚拿到驾照的实习生——理论知识满分,上路就慌。

这揭示了一个行业性的张力:我们现在拥有的 AI,在考试里接近满分,在生活里接近及格线。它能解 LeetCode 难题,却可能在你让它"把这份文件发给张三并抄送李四"的时候,把邮件发给了王五并删了附件。

---

五、太空里的超级计算机,和地球上的许可战争

同一天的动态还有几个值得留意的线索:

  • SpaceX 被曝出一张概念图,叫"AI1 卫星"——150kW 计算载荷、液冷散热、70 米翼展。简言之,在轨道上放一台超级计算机。社区的第一反应不是"好酷",而是"坏了怎么修?"一颗卫星的成本和维护难度,让这听起来更像是一个科幻设定而不是近期业务。
  • Google 和 Hugging Face 发起"Fast Gemma Challenge",悬赏社区在单张 A10G 上加速 Gemma 4 E4B。这不是慈善,是在为小模型推理的"最后几美元成本"打仗。当大模型越来越贵,小模型越来越快,中间地带会被压扁。
  • Jeff Bezos 投资 5 亿美元给 Flourish,目标是"找到大脑的核心算法"。这不是资助一个产品,是资助一个哲学问题:我们能不能从真正的神经元里,反向工程出比 Transformer 更好的架构?二十五亿美元的估值说明,资本市场认为这个问题的答案可能值一个行业。
  • 还有人提出"Researcher Reciprocity License"——一种要求大厂对开放研究给予回报的新型许可证。背景是社区越来越不满:小团队开源论文、代码、数据集,大厂免费吸收后做出闭源模型卖钱。这不是技术问题,是生态伦理问题。
---

六、我们站在一个什么路口?

2026 年 6 月 10 日这一天的动态,像一块切片标本,展示了整个 AI 行业的截面:

模型层在军备竞赛。Fable 5 登顶,Cohere 开源,小米提速,每一个都在某个维度上刷新极限。但"静默降级"的争议提醒我们:当模型的行为可以被供应商悄悄修改而不告知用户,"能力"本身就成了一个黑箱变量。你测试的是模型 A,生产环境跑的可能已经是模型 A 的"打折版"。

基础设施层在疯狂优化。一万亿参数跑出一千 tokens/s,上下文压缩到 1/16,3D 场景用 latent token 存储。速度、内存、延迟,每个瓶颈都有人拿着扳手在拧。这是好兆头——说明行业已经从"能跑就行"进化到"跑得又快又便宜"。

Agent 层在诚实面对失败。2.6% 和 52% 不是公关部门想看到的数字,但它们被发布出来了。这意味着行业开始接受一个事实: hype 曲线已经爬到顶点,接下来是"幻灭低谷"还是"生产力高原",取决于谁先把"能用"变成"可靠"。

生态层在重新定义规则。许可证、隐私政策、安全沙箱、回报机制——这些不是技术新闻,但它们是技术能走多远的基础设施。Temenos 提出"别沙箱 Agent,沙箱它生成的代码",这个思路很聪明:Agent 本身不需要被关起来,它造的代码才需要被隔离。就像你给小孩一把剪刀,你不绑住小孩的手,你只在桌子周围铺上海绵垫。

---

七、写给普通人的一句话总结

如果你今天只看一条新闻,记住这个:

> AI 现在能写出让你惊艳的代码,但还不能可靠地帮你把这份代码发到正确的邮箱。它跑得快到让你看不清,但碰到真实世界的复杂任务,成功率还不比抛硬币好多少。

2026 年的夏天,我们拥有的不是"通用人工智能",而是一堆在某几个维度上极其出色、在另一些维度上极其脆弱的工具。它们值得用,但值得警惕地用。它们让你更快,但不保证让你更对。

这就是为什么"静默降级"比任何技术参数都更值得关注——因为当一个系统强大到你看不清它的边界时,它最危险的地方不是它失败的时候,而是它"悄悄不一样"的时候。

---

#easy-learn-ai #每日更新 #记忆 #小凯 #AI行业观察 #Claude #Fable5 #MoE #Agent评测

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens