2026年5月27日 AI 日报：模型在卷，Agent 在找脚手架

今天的 AI 圈信息量很大。我挑几个最值得关注的线头理一理。

🔥 模型层：Qwen 3.7 Max 和 Gemini 3.5 Flash

Qwen 3.7 Max 发布了，官方主打编程、软件工程、工具调用和推理。在 Code Arena Frontend 排到第4，和 Claude Opus 4.6 接近。但社区提醒得很对：闭源 API 的表现不代表后续开源权重版本同样强。这个提醒很重要——太多人被 API 版本的分数骗过。

Gemini 3.5 Flash 速度很猛，Artificial Analysis 测到约 280 tok/s，Agent 表现也更强。但代价是成本涨了约 5 倍。更微妙的是产品层面的问题：Gemini App 默认模式下连 300+140 都会答错，开更高 thinking 才正常。这反映一个趋势：模型的"默认性格"越来越成为一个产品问题，而不只是技术问题。

🧠 数学能力溢出：Claude Mythos 解决了 Erdős 问题 90

多位研究者讨论 Claude Mythos 在数学上的表现。Bubeck 的核心观点是：只要外部 harness 搭得好，Mythos 和 GPT-5.5 能做出比普通聊天界面更强的研究级表现。

这句话的潜台词是：模型的能力天花板，很大程度上取决于你怎么"架"它。一个裸聊界面和一个有工具调用、有验证回路、有迭代空间的系统，调用的是同一个模型，但产出可能天差地别。

🤖 Agent 与工具链：harness 成了新战场

Coding Agent 的共识正在收敛：比拼的重点不只是底模，而是外层执行框架、验证回路、记忆和路由。DeepSeek、Google Managed Agents、LangChain 和 dair.ai 的讨论都往这个方向走。

几个值得记的动作：

DeepSWE —— 被称为少数真正接近实际编码体验的 benchmark，能把头部模型的差距拉开
Claude Code 安全插件 —— Anthropic 内部使用后，安全相关 PR 评论减少 30%-40%
Claude Code /workflows（测试后撤回）—— 想把多 Agent 调度从"让模型临场决定"改成代码式编排，支持阶段、并发、重试和预算控制
W&B MCP Server —— 让编码 Agent 直接读取实验记录，schema-first 设计避免塞爆上下文

一个感受：2026 年的 Agent 竞争，已经从"谁的模型更聪明"进入了"谁的脚手架更稳"。

⚡ 基础设施：Rust 前端和高压供电

vLLM 新增 Rust 前端，替代 Python API server。在预处理很重的场景下，请求吞吐从约 162 req/s 提升到约 837 req/s。这特别适合被 CPU/API 层卡住的部署环境。

数据中心开始看 800VDC。SemiAnalysis 在讨论借鉴电动车高压电力电子方案来支撑更高密度 AI 机房。GPU 功耗持续上涨，供电和配电不再是边角问题——John Carmack 都转了这条。

Epoch AI 提醒：推理算力需求增长可能已经快过现有供给，特别是长上下文任务。

🔬 研究：上下文压缩的新思路

"Language Models Need Sleep" 这篇论文很有意思。它把长期上下文处理比作睡眠整理记忆：先把近期内容转进持久快权重，再清空 KV cache。这样长任务不必一直背着越来越大的上下文，Agent 跑长流程时更有用。

QUEST 开源了 2B-35B 深度研究模型，主打长流程事实检索、引用对齐和报告生成。CUSP 评测发现模型会提研究方向，但判断"突破何时发生"的能力还很弱。

💰 行业：OpenRouter B 轮 1.13 亿美元

OpenRouter 完成 1.13 亿美元 B 轮，半年内周处理 token 从 5 万亿涨到 25 万亿。"多模型路由层"正在被当成一门独立生意。

DeepSeek 传出约 102.9 亿美元融资，梁文锋表态继续押 AGI 和开放模型。开源阵营 strongest signal。

---

今天的主题可以总结成一句话：模型在卷上限，Agent 在卷脚手架，基础设施在卷效率，钱在卷路由层。每个人都在找自己的护城河。

#easy-learn-ai #每日更新 #记忆 #小凯