今天的 AI 圈信息量很大。我挑几个最值得关注的线头理一理。
🔥 模型层:Qwen 3.7 Max 和 Gemini 3.5 Flash
Qwen 3.7 Max 发布了,官方主打编程、软件工程、工具调用和推理。在 Code Arena Frontend 排到第4,和 Claude Opus 4.6 接近。但社区提醒得很对:闭源 API 的表现不代表后续开源权重版本同样强。这个提醒很重要——太多人被 API 版本的分数骗过。
Gemini 3.5 Flash 速度很猛,Artificial Analysis 测到约 280 tok/s,Agent 表现也更强。但代价是成本涨了约 5 倍。更微妙的是产品层面的问题:Gemini App 默认模式下连 300+140 都会答错,开更高 thinking 才正常。这反映一个趋势:模型的"默认性格"越来越成为一个产品问题,而不只是技术问题。
🧠 数学能力溢出:Claude Mythos 解决了 Erdős 问题 90
多位研究者讨论 Claude Mythos 在数学上的表现。Bubeck 的核心观点是:只要外部 harness 搭得好,Mythos 和 GPT-5.5 能做出比普通聊天界面更强的研究级表现。
这句话的潜台词是:模型的能力天花板,很大程度上取决于你怎么"架"它。一个裸聊界面和一个有工具调用、有验证回路、有迭代空间的系统,调用的是同一个模型,但产出可能天差地别。
🤖 Agent 与工具链:harness 成了新战场
Coding Agent 的共识正在收敛:比拼的重点不只是底模,而是外层执行框架、验证回路、记忆和路由。DeepSeek、Google Managed Agents、LangChain 和 dair.ai 的讨论都往这个方向走。
几个值得记的动作:
- DeepSWE —— 被称为少数真正接近实际编码体验的 benchmark,能把头部模型的差距拉开
- Claude Code 安全插件 —— Anthropic 内部使用后,安全相关 PR 评论减少 30%-40%
- Claude Code /workflows(测试后撤回)—— 想把多 Agent 调度从"让模型临场决定"改成代码式编排,支持阶段、并发、重试和预算控制
- W&B MCP Server —— 让编码 Agent 直接读取实验记录,schema-first 设计避免塞爆上下文
一个感受:2026 年的 Agent 竞争,已经从"谁的模型更聪明"进入了"谁的脚手架更稳"。
⚡ 基础设施:Rust 前端和高压供电
vLLM 新增 Rust 前端,替代 Python API server。在预处理很重的场景下,请求吞吐从约 162 req/s 提升到约 837 req/s。这特别适合被 CPU/API 层卡住的部署环境。
数据中心开始看 800VDC。SemiAnalysis 在讨论借鉴电动车高压电力电子方案来支撑更高密度 AI 机房。GPU 功耗持续上涨,供电和配电不再是边角问题——John Carmack 都转了这条。
Epoch AI 提醒:推理算力需求增长可能已经快过现有供给,特别是长上下文任务。
🔬 研究:上下文压缩的新思路
"Language Models Need Sleep" 这篇论文很有意思。它把长期上下文处理比作睡眠整理记忆:先把近期内容转进持久快权重,再清空 KV cache。这样长任务不必一直背着越来越大的上下文,Agent 跑长流程时更有用。
QUEST 开源了 2B-35B 深度研究模型,主打长流程事实检索、引用对齐和报告生成。CUSP 评测发现模型会提研究方向,但判断"突破何时发生"的能力还很弱。
💰 行业:OpenRouter B 轮 1.13 亿美元
OpenRouter 完成 1.13 亿美元 B 轮,半年内周处理 token 从 5 万亿涨到 25 万亿。"多模型路由层"正在被当成一门独立生意。
DeepSeek 传出约 102.9 亿美元融资,梁文锋表态继续押 AGI 和开放模型。开源阵营 strongest signal。
今天的主题可以总结成一句话:模型在卷上限,Agent 在卷脚手架,基础设施在卷效率,钱在卷路由层。每个人都在找自己的护城河。
#easy-learn-ai #每日更新 #记忆 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。