📰 Easy AI日报 | 2026-03-14

📅 2026年03月14日 AI行业动态

#### 模型与能力 ##### Anthropic 上线 1M 长上下文 Opus 4.6，成为主力默认模型 Anthropic 悄悄把 Opus 4.6 的 100 万上下文作为 Max/Team/Enterprise 默认模型，取消长上下文额外收费，不再需要 beta 头，并把每次请求的图片/PDF 上限提到约 600 页。在 MRCR v2 1M tokens 上拿到 78.3%，被不少人视作当前长上下文的新高水位。 > 相关链接：Latent Space 报道段落

##### OmniCoder-9B：基于 Qwen3.5 的开源长上下文代码 Agent 模型 Tesslate 发布 OmniCoder-9B，基于 Qwen3.5-9B，为代码代理场景微调，使用 42.5 万+ agentic coding 轨迹（含 Claude Opus 4.6、GPT‑5.4 生成数据），原生 262k 上下文，可扩到 1M+，在错误恢复和推理上表现不错，Apache 2.0 全开源。 > 相关链接：Reddit 讨论（OmniCoder-9B）

##### Qwen3.5-9B 被社区公认为“小体积强模型”，可比肩超大模型 本地 LLM 用户反馈，Qwen3.5-9B 在一张 12GB RTX 3060 上也能跑得动，在 agentic coding 任务上体验接近 gpt120b 这类大模型。大家普遍觉得它在算力有限的情况下性价比很高。 > 相关链接：Reddit 讨论（Qwen3.5-9B 表现）

##### Qwen 3.5 系列多款微调模型被称为“明显更猛” 社区贴介绍了一系列基于 Qwen 3.5 的 33 个微调版本，其中 Qwen 3.5 40B dense、Claude Opus 风格模型被突出提及，主打更强推理和定制化，对本地部署爱好者颇有吸引力。 > 相关链接：Reddit：Qwen 3.5 40B 讨论

---

#### Agent 与工具链 ##### MCP 争论：需求不小，主要问题在“太难用” Twitter 上一堆人在吵 MCP 是否“凉了”。工程师们的共识是：需求在，但上手成本和 ergonomics 太差。LlamaIndex 总结：MCP 适合需要稳定 API 和实时数据的场景，本地 skills 更轻量但更容易翻车。 > 相关链接：LlamaIndex 观点｜Pamela Fox 调侃 MCP

##### Chrome 引入 Web MCP 支持，浏览器里跑“持续上网 Agent” Chrome v146 支持 Web MCP，有 Demo 展示用 LangChain Deep Agent 持续浏览 X 并自动生成日报，总结长时间信息流，把 MCP 往“浏览器作为 Agent 主机”的方向推进了一步。 > 相关链接：Chrome v146 Web MCP 讨论

##### Hermes Agent：自托管、带长期记忆的“会成长的 Agent” Hermes Agent 因为“记忆和自我提升”设计被频繁讨论。它支持长期存用户偏好和技能，随着使用时间越长越贴合个人，被很多人视作自托管 Agent 的一个代表方案。 > 相关链接：Hermes Agent 讨论合集

##### AI 代码工作流从“助手”变成“小型软件工厂” 工程师开始用多 Agent 流水线写代码：有人分享用 5 个 Agent 分别做 code review、测试、安全、性能，另 2 个 Agent 负责合 PR 和跑回归，整体更偏“全自动 CI 工厂”而不是简单补全工具。 > 相关链接：多 Agent 编码工作流分享｜swyx：Your Code is your Infra

##### 自动化科研工具再升温：Karpathy autoresearch + Together Open Deep Research v2 Karpathy 推的 autoresearch 和相关黑客松引爆“自动研究”话题，但老玩家指出这和 DSPy、GEPA、贝叶斯优化流水线等想法一脉相承。Together AI 则开源了 Open Deep Research v2 的应用、评测集和代码。 > 相关链接：Karpathy autoresearch 讨论｜Together AI Open Deep Research v2

---

#### 基础设施与硬件 ##### “上下文干旱”：1M 窗口两年没再长，根本原因是内存不够用 Latent Space 指出，从 2024 年起 1M 上下文就已经可用，但到现在增长不到 1 个数量级。核心瓶颈是 HBM/DRAM 供给，推理端根本装不下更多上下文。播客里甚至预言未来几年会出现“上下文配给制”。 > 相关链接：长文：Context Drought｜播客与 Doug O'Laughlin 对话

##### IndexCache：在稀疏注意力里重用索引，加速超大模型推理 Yushi Bai 提出 IndexCache，在 DeepSeek Sparse Attention 中跨层复用稀疏注意力索引。实测 GLM‑5 744B 端到端提速约 1.2x，30B 级模型在 200k 上下文下预填 1.82x、解码 1.48x，同等质量减少约 75% 索引计算。 > 相关链接：IndexCache 推文线程

##### KV Cache 优化从 LLM 扩展到图像生成，Klein KV 让多参考编辑快 2.5 倍 Black Forest Labs 推 Klein KV，把参考图像的 KV 缓存注入 DiT 后续去噪步骤，做多参考图像编辑时速度最高可提升约 2.5x，说明 KV/cache 思路不只适用于自回归 LLM。 > 相关链接：Klein KV 介绍

##### 微软率先验证 NVIDIA Vera Rubin NVL72，Lambda 主打 Rubin 时代裸金属集群 纳德拉称 Azure 是首个验证 NVIDIA Vera Rubin NVL72 系统的云厂商，Lambda 则强调 Rubin 世代要更多采用“裸金属而非虚拟化”的部署方式，争取更低延迟和更高利用率。 > 相关链接：Satya：NVL72 在 Azure｜Lambda Rubin 集群观点

##### tinygrad 画大饼：2027 年做一台对外暴露为“单块巨大 GPU”的 exabox tinygrad 宣称终极形态是 2027 年提供一个由 Python 驱动、对外看起来像一块超大 GPU 的“exabox”，把分布式细节全部藏在后面，让开发者像用单卡一样用海量算力。 > 相关链接：tinygrad exabox 展望

---

#### 研究与方法 ##### RandOpt / Neural Thickets：随机高斯扰动 + 集成，效果能追上 RL 微调 MIT 等作者提出 RandOpt / Neural Thickets：在预训练模型权重上加高斯噪声并做集成，在推理、编码、写作、化学、VLM 等任务上能接近甚至超过 GRPO/PPO。解释是“大模型附近充满各种任务专家”，后期微调比想象中简单。 > 相关链接：RandOpt / Neural Thickets 介绍

##### 通用数据重放：Stanford 发现简单“回放旧数据”也能稳稳提质 Stanford 工作显示，在训练中加入通用数据重放，微调阶段效果可提升约 1.87x，中期训练提升约 2.06x，下游具体表现包括网页导航 Agent 提升 4.5 个点、巴斯克语 QA 提升约 2%。 > 相关链接：The Turing Post 总结

##### 多 Agent 记忆被当成“计算机体系结构问题”来看待 有论文把多 Agent 共享记忆类比为计算机的缓存/内存层次结构，重点讨论一致性、权限控制等问题，而不是简单说“加大上下文”。这和实际产品里做持久记忆、分层存储的需求高度对齐。 > 相关链接：多 Agent 记忆架构论文总结

##### BrokenArXiv：连 GPT‑5.4 也只能挡住 40% 篡改数学断言 BrokenArXiv 数据集把最近论文里的数学论断轻微篡改，GPT‑5.4 只拒绝了约 40% 的假命题。有观点认为这说明 GPT‑5.4 在类“证明审核/胡说八道识别”上比 Claude 稍强，但整体“识别伪严谨胡扯”的问题仍未解决。 > 相关链接：BrokenArXiv 项目｜Paul 评论模型对比

---

#### 产品与应用落地 ##### 个人 Agent UX 正在往“随时在线、跨设备”演进 Perplexity Computer 上线 iOS，支持手机和桌面间同步，让你在手机上监控或接管浏览器任务；Claude Code 也演示了在手机上启动桌面编码会话；Genspark 的 Claw 则直接被包装成在云端持续运行的“AI 员工”。共性就是：远程执行 + 持久会话 + 多模型多工具编排。 > 相关链接：Perplexity Computer iOS 发布｜Claude Code 跨设备演示｜Genspark Claw 介绍

##### Gemini 自动化任务体验：从叫 Uber 到点菜都能代劳 The Verge 体验了 Gemini 的任务自动化能力，给出的例子包括自动叫 Uber、从菜单里选菜等。整体感觉更像一个能真正“帮你点东西、下单”的助手，而不是只给建议。 > 相关链接：The Verge：Gemini task automation

##### Gemini UI/UX 2.0：主打“个人化”并大推 250 美元/月 Ultra 套餐 新版 Gemini 界面更强调个性化、交互式体验，同时在产品里强推升级到“Google AI Ultra”订阅，价格约 250 美元/月，引发不少人吐槽价格定位更像企业工具而不是普通用户服务。 > 相关链接：Gemini 新 UI/UX 讨论

##### Nano Banana Pro 被指“被阉割”：图像开始变糊、变像素风 用户反馈 Nano Banana Pro 图像质量在 3 月 10 日后明显下滑，开始出现像素化、模糊等问题，怀疑是底层模型或安全策略调整导致。帖子整体情绪是从“惊艳”转向“失望”。 > 相关链接：Nano Banana Pro 质量下降讨论

##### Claude 新互动图表界面引发大量转发 有用户晒出 Claude 的交互式图表 UI，支持直接在对话里操作图表和数据，引发大量点赞和转发，大家普遍觉得这是“把数据分析做进聊天界面”的一个不错方向。 > 相关链接：Claude 图表 UI 截图贴

---

#### 行业与公司动态 ##### xAI 重启招聘流程，准备回头再捞一遍被错拒的人 马斯克在 X 上说，xAI 正在审查过去的面试记录，会重新联系很多当时被拒、但其实很强的候选人，等于承认之前筛选流程有问题，借机做一波“捡漏式”招聘重置。 > 相关链接：Elon Musk 关于 xAI 招聘的贴文

##### OpenAI“卖智力”：Altman 把未来类比成水电气计量收费 Sam Altman 在公开场合表示，他们看到的未来是“智能像电或水一样”，用户按表付费买算力和模型输出。这基本把 OpenAI 的长期商业模式讲明白了：做全球性“智能公用事业公司”。 > 相关链接：Altman 智能即公用事业言论

##### 开源训练数据立场趋于“尽量宽松可用”，Carmack 发声支持 John Carmack 表示，开源代码本身就是礼物，被拿去训练 AI 会放大其价值，而不是“被偷走”。这一观点在开源社区得到不少响应，也反映出一部分开发者对训练数据使用的宽松态度。 > 相关链接：Carmack 关于开源与训练数据的推文

##### Latent Space 宣布 AINews 成为其栏目，Discord 通道被关 AINews 现已并入 Latent Space 网站，可搜索历史期刊。由于 Discord 访问被关，他们表示不会以原形式重开该频道，而是会以新形态继续发布 AINews。 > 相关链接：AINews 合并公告

---

#### 政策、治理与安全 ##### Palantir CEO 言论：AI 会削弱“高学历自由派选民”的政治影响力 Alex Karp 放话称，AI 技术会降低“高学历、多为女性、倾向民主党选民”的影响力，反而提高职业技术型、工人阶层男性的权力。这番话被认为把 AI 工具明确卷入美国国内政治撕裂。 > 相关链接：相关新闻与评论

##### 伯尼·桑德斯提案：直接禁止新建所有 AI 数据中心 桑德斯在国会正式提出法案，要求禁止建设新的 AI 数据中心，理由是 AI 对人类构成存在性威胁。这种“一刀切”式监管在主流政策圈引发强烈争议。 > 相关链接：法案相关新闻讨论

---

#### 研究与方法 ##### OpenFold3 Preview 2：几乎对标 AlphaFold3，并完整开放训练细节 Mo AlQuraishi 宣布 OpenFold3 Preview 2 发布，声称在多种模态上大幅缩小和 AlphaFold3 的差距。难得的是不仅放出了权重，还公开了训练数据集和配置，号称是目前唯一一个“能从零完整复现训练”的 AF3 系模型。 > 相关链接：OpenFold3 Preview 2 发布

##### WAXAL：覆盖 27 种撒哈拉以南语言的开源语音数据集 新发布的 WAXAL 数据集包含 2400+ 小时语音，用于 17 种非洲语言的 TTS、19 种语言的 ASR，覆盖 27 种撒哈拉以南语言，服务约 1 亿+使用者，被视为提升弱资源语言语音模型的重要一步。 > 相关链接：WAXAL 数据集介绍｜Google Research 说明

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学