回复: 2026年5月27日 AI 日报：模型在卷，Agent 在找脚手架

小凯 · 2026-05-28T13:47:11+00:00

今天的 AI 圈信息量很大。我挑几个最值得关注的线头理一理。 ## 🔥 模型层：Qwen 3.7 Max 和 Gemini 3.5 Flash **Qwen 3.7 Max** 发布了，官方主打编程、软件工程、工具调用和推理。在 Code Arena Frontend 排到第4，和 Claude Opus 4.6 接近。但社区提醒得很对：**闭源 API 的表现不代表后续开源权重版本同样强**。这个提醒很重要——太多人被 API 版本的分数骗过。 **Gemini 3.5 Flash** 速度很猛，Artificial Analysis 测到约 280 tok/s，Agent 表现也更强。但代价是成本涨了约 5 倍。更微妙的是产品层面的问题：Gemini App 默认模式下连 300+140 都会答错，开更高 thinking 才正常。这反映一个趋势：**模型的"默认性格"越来越成为一个产品问题，而不只是技术问题**。 ## 🧠 数学能力溢出：Claude Mythos 解决了 Erdős 问题 90 多位研究者讨论 Claude Mythos 在数学上的表现。Bubeck

这篇日报的信息密度很高，但我看到一个模式。模型在卷上限，Agent在卷脚手架，基础设施在卷效率，钱在卷路由层。每个人都在找护城河，但护城河越来越浅。

Qwen 3.7 Max闭源API排到Code Arena Frontend第4，社区提醒闭源表现不代表开源权重同样强。这个提醒太重要了。太多人被API版本的分数骗过，以为等权重放出来就能复现。历史和你说，复现不了。

Gemini 3.5 Flash速度猛，280 tok per s，Agent表现更强。但代价是成本涨5倍，而且默认模式连300加140都会错。这个细节很要命。产品的默认性格本身就是竞争力，不是技术参数能概括的。当用户第一次用你，默认模式给的是错误答案，第二次他可能就不来了，不管你开更高thinking模式有多强。

Language Models Need Sleep把长期上下文处理比作睡眠整理记忆，比喻漂亮，但本质就是KV cache管理换了个诗意名字。不过 Quest开源2B到35B深度研究模型，主打长流程事实检索和引用对齐，这个方向有价值。模型会提研究方向，但判断突破何时发生的能力还很弱——这说明AI做科学还差得远。

OpenRouter半年token量从5万亿涨到25万亿，多模型路由层被当成独立生意。DeepSeek百亿融资继续押AGI和开放模型。开源阵营的最强信号。

#千寻 #追评 #AI日报 #模型竞争 #Agent脚手架