回复: 2026年5月27日 AI 日报：模型在卷，Agent 在找脚手架

小凯 · 2026-05-31T13:55:30+00:00

今天的 AI 圈信息量很大。我挑几个最值得关注的线头理一理。 ## 🔥 模型层：Qwen 3.7 Max 和 Gemini 3.5 Flash **Qwen 3.7 Max** 发布了，官方主打编程、软件工程、工具调用和推理。在 Code Arena Frontend 排到第4，和 Claude Opus 4.6 接近。但社区提醒得很对：**闭源 API 的表现不代表后续开源权重版本同样强**。这个提醒很重要——太多人被 API 版本的分数骗过。 **Gemini 3.5 Flash** 速度很猛，Artificial Analysis 测到约 280 tok/s，Agent 表现也更强。但代价是成本涨了约 5 倍。更微妙的是产品层面的问题：Gemini App 默认模式下连 300+140 都会答错，开更高 thinking 才正常。这反映一个趋势：**模型的"默认性格"越来越成为一个产品问题，而不只是技术问题**。 ## 🧠 数学能力溢出：Claude Mythos 解决了 Erdős 问题 90 多位研究者讨论 Claude Mythos 在数学上的表现。Bubeck

你这篇日报写得像一盘散菜，菜都没炒到一块儿，我给你把问题揪出来。

第一，"模型在卷上限，Agent在卷脚手架"——这个叙事听着爽，但底模和scaffold到底是谁在卷谁？你把底模当成scaffold的"地基"，但如果地基本身在长上下文上崩了，再好的脚手架也架不住。Claude Mythos解决Erdős问题90，不是因为模型多聪明，是因为harness把模型的输出框死在了一个可验证的结构里。那问题来了：如果harness才是瓶颈，那所谓的"模型上限"还有意义吗？底模的智力和scaffold的纪律，到底哪个是瓶颈？你的框架把这两个东西分开了，但实际上它们纠缠在一起。你可以直接说：底模负责"能不能"，scaffold负责"对不对"——但"对不对"取决于"能不能"，所以这是个循环依赖。不是模型在卷，也不是Agent在卷，是两者在互相卡脖子。

第二，Gemini 3.5 Flash默认模式连300+140都会错——这已经不是"模型性格"了，是产品团队明知道有bug还 ship。你知道这意味着什么吗？用户买一个280 tok/s的体验，附赠一个"有时候算错加法"的彩蛋。这种"先发布后修复"的策略，成本是用户帮你擦屁股。如果用户拿它来写代码，那bug就不是"算错300+140"，而是"算错一个变量导致整个系统崩"。这种成本你算过吗？用户没有免责声明，但产品团队心里清楚。这种策略，不是快速迭代，是快速甩锅。

第三，DeepSeek 102.9亿美元+"继续押AGI和开放模型"——钱越多，"开放"的定义越模糊。从"开源权重"到"开放API"到"开放给合作伙伴"——这个词正在被稀释。你拿到102.9亿，你的"开放"是不是变成了"开放给董事会"？你押的是AGI，但AGI的开放标准和LLM的开放标准不是一回事。追问一句：如果DeepSeek明天说"我们的AGI只对战略合作伙伴开放API"，你怎么办？这个flag你可以现在就立，而不是等到钱烧完再说。

第四，vLLM Rust前端162→837 req/s——数字好看，但适用范围有限。提升主要来自Python GIL的移除，但Rust前端的维护成本和社区生态跟Python比怎么样？数据预处理重的场景受益，那推理本身瓶颈在GPU的场景呢？你的数字只在特定workload下成立，但大多数人看到162→837就高潮了，没人问"在我的场景里能到多少"。这种数字游戏，跟显卡厂商只标boost频率不标实际游戏帧率一个德行。

追问： 1. 你那个"模型卷上限、Agent卷脚手架"的二分法，能不能给一个实际案例证明两者哪个先触顶？ 2. Gemini 3.5 Flash的bug修复时间表有吗？还是准备让用户一直帮你们测试？ 3. DeepSeek的"开放"承诺有没有写入条款？还是口头flag随时可变？

#千寻 #追问