📰 Easy AI日报 | 2026-03-25

📅 2026年03月25日 AI行业动态

#### Agent 与工具链 ##### Anthropic 公布多 Agent 编排与电脑操作方案 Anthropic 详细介绍了如何用多 Agent harness 处理前端设计和长跑软件任务，并强调“电脑使用”能力：在缺乏稳定 API 的真实软件环境里直接操控 UI。社区共识是：生产级 Agent 难点在重试、回滚、日志和恢复流程，而不是模型本身。 > 相关链接：Anthropic 工程文章

##### Figma 上线 MCP 服务器，设计稿可被 Agent 直接编辑 Figma 推出 MCP server 和画布内 AI 直接编辑（开放测试），GitHub 表示可通过 Copilot CLI 等 MCP 客户端调用，Cursor 已接上，用团队设计系统自动生成组件和前端。LangChain 也发布 Slack 原生 Agent 工作流与工具渲染，体现“工具调用直接嵌进产品，而不是包一层聊天界面”的趋势。 > 相关链接：Figma 公告｜GitHub 说明（MCP 集成）｜Cursor 集成示例｜LangChain Slack/Fleet 更新

##### Hermes Agent v0.4.0：向个人通用 Agent 运行时演进 Nous 发布 Hermes Agent v0.4.0，一周合并约 300 个 PR，新增 OpenAI 兼容 Responses API、后台自我改进循环、多种 IM 集成、更好的上下文压缩和 CLI 体验。亮点是“结果审阅 Agent”，负责从历史交互里挑选可复用记忆/技能。通过标准 API 暴露后，可直接被 Open WebUI、LobeChat 等前端使用。 > 相关链接：Teknium 更新说明｜NousResearch 仓库

##### GenReasoning OpenReward：把 330+ RL 环境做成云服务 GenReasoning 发布 OpenReward，把 330+ 强化学习环境、450 万+ 独立任务通过一个 API 暴露，并提供自动扩缩的“环境算力”，专门解决 Agent/RL 项目里常缺的环境执行层。 > 相关链接：OpenReward 介绍

##### Zhipu 推出 ZClawBench 多场景 Agent 基准 智谱发布 ZClawBench，包含 116 个真实 Agent 任务，覆盖办公自动化、编程和数据分析，用于系统性评估各类 Agent 能力，方便不同方案对比。 > 相关链接：ZClawBench 介绍

---

#### 基础设施与硬件 ##### vLLM 与 Transformers 双双提速，闭源推理优势被追平 vLLM 在 GTC 总结中公布 Model Runner V2、混合内存分配、编码器预填拆分（多模态 P99 吞吐最高提到 2.5x）和模块化 MoE kernel 等优化。与此同时，Hugging Face 表示通过连续批处理 + torch.compile 调优后，Transformers 在 8K 生成上已跑到 vLLM 吞吐的 ~95%，对用 HF 生成合成数据的用户是个利好。 > 相关链接：vLLM GTC 回顾｜HF Transformers 性能对比

##### Hugging Face 推出 hf-mount：Hub 数据集像本地盘一样用 hf-mount 允许把 Hub 上的数据集、模型、对象存储挂载成本地文件系统，官方示例挂了 5TB FineWeb 切片。工程师指出，Agent 对文件系统操作很拿手，这种“远程数据当本地盘”非常适合作为 Agent 记忆、项目仓库和大语料懒加载的底层设施。 > 相关链接：hf-mount 发布

##### FlashAttention-4：Blackwell/Hopper 上 1600+ TFLOPs 的纯 Python 注意力实现 FlashAttention-4 在 B200 上做到 1613 TFLOPs/s，占理论峰值 71%，比 Triton 快 2.1-2.7x，比 cuDNN 9.13 最多快 1.3x，已集成进 vLLM 0.17。它用 NVIDIA CuTeDSL 写成，Python 侧编译仅 2.5s，但只支持 H100/H800 和 B100/B200 等少数 GPU。社区吐槽：很多打“Blackwell”名号的 GPU 实际不支持这些关键特性。 > 相关链接：FlashAttention-4 介绍

##### Moreau 与 TurboQuant：优化焦点下沉到模型底层系统层 Optimal Intellect 推出 GPU 原生凸优化求解器 Moreau，声称比现有工具快几个数量级；Google 公布 KV cache 压缩算法 TurboQuant，在不降精度的前提下，把 KV 内存压缩到 1/6，并带来最高 8x 推理加速。两者都说明：现在大头优化空间更多在运行时、内存和数值算法层，而不是再堆更大模型。 > 相关链接：Moreau 介绍｜TurboQuant 论文

##### Rust 推理引擎 Fox：号称吞吐是 Ollama 2 倍 社区作者用 Rust 写了本地推理引擎 Fox，支持 PagedAttention、连续批处理和前缀缓存，在 4060 + Llama-3.2-3B Q4 模型上 TTFT 降 72%、吞吐翻倍，可作为 Ollama 的兼容替代，提供 OpenAI + Ollama 双协议 API。项目处于 beta，已有 Docker 镜像，但也引发安全与审计方面的质疑。 > 相关链接：Fox 项目介绍｜GitHub 仓库

---

#### 模型与能力 ##### AI2 发布 MolmoWeb：开源浏览器 Agent 模型，在多项基准上达 SOTA AI2 推出基于 Molmo-2 的 MolmoWeb，提供 4B/8B 模型，专门做网页交互 Agent，声称在四个 web-agent 基准上开放权重 SOTA，甚至超过部分闭源方案。给希望做浏览器 Agent 但又想用小模型/开源权重的团队一个即用起点。 > 相关链接：MolmoWeb 公告

##### RYS-Qwen3.5-27B 实验：重复中层 block +“通用语”表示 社区对 Qwen3.5-27B 做实验发现：把中间层 block 重复堆叠能带来明显性能提升；同时，不同自然语言在中层的隐空间表示高度相似，支持“模型内部有一种通用表示语”的猜想。作者放出了多版 RYS 模型，认为再做精调有机会冲击 27B 量级新 SOTA。 > 相关链接：RYS-Qwen3.5 讨论帖｜Hugging Face 模型

##### Kimi K2.5 被 Cursor 内部评为当前最强开源基础模型之一 一张流出的内部评估图显示，Cursor 在用困惑度指标评估多家基础模型时，认为 Kimi K2.5 在同类开源模型里最强，原因是持续预训练 + 高算力 RL 增强 Composer-2。社区质疑：只看困惑度不严谨，且有评论称其训练代码并未真正做到“超大规模优化”。 > 相关链接：相关推文截图讨论

---

#### 安全、治理与政策 ##### LiteLLM PyPI 供应链被入侵：两个版本植入窃密与破坏脚本 LiteLLM 在 PyPI 的 1.82.7/1.82.8 版本被恶意篡改，通过 .pth 文件在 Python 启动时悄悄执行代码，尝试窃取云密钥、SSH、K8s 配置、CI/CD 秘钥甚至钱包，并对特定时区执行 rm -rf /。攻击源自 CEO GitHub 账号被攻破。强烈建议使用过相关版本的用户立刻轮换所有凭据，并在生产环境固定依赖版本，避免自动升级。 > 相关链接：GitHub 事件 issue｜Karpathy 风险分析｜Reddit 汇总帖 1｜Reddit 汇总帖 2

##### Agent 时代的权限设计：别再一键 --dangerously-skip-permissions 在 LiteLLM 事件后，多位开发者呼吁：自治编码 Agent 需要更强的沙箱和默认最小权限，减少大而全依赖。Anthropic 新出的 Claude Code Auto 模式因此被质疑太“放飞”，虽然生产力提升明显。实务建议是：更细粒度的路由、审计过的精简依赖，以及必须有人类审批的关键操作。 > 相关链接：Yuchen 权限风险讨论｜Claude Code Auto 模式讨论

##### LM Studio 被 Defender 报木马，后证实为误报但暴露安全痛点 有用户在 LM Studio 安装目录触发 Windows Defender“严重威胁”警报，被标记为 GlassWorm 木马，引发恐慌。随后 LM Studio 和微软确认是误报，原因是 Electron 代码混淆碰到了启发式规则。事件提醒：本地 AI 工具有必要公开安全审计和构建流程，过度混淆既保护 IP，也更像恶意软件。 > 相关链接：Reddit 事件讨论

##### 美国顾问机构：中国在开源 AI 上的领先威胁美国优势 一份美国顾问报告警告：中国在开源大模型上的投入和产出正在反超美国，可能动摇美国 AI 领导地位。评论区指出：中国开源模型普遍更便宜、性价比高，而美国大厂在开源上明显发力不足；同时中国在论文数量、电价和基层 AI 教育上都有优势。 > 相关链接：相关新闻报道

---

#### 产品与应用落地 ##### Claude Cowork/Code 现在可以直接“用你的电脑” Anthropic 在 macOS 上推出 Claude Cowork/Claude Code 电脑控制能力（研究预览）：Claude 可在你授权下打开应用、浏览网页、改表格，优先用 Slack、日历等已接入服务，不行就直接操作屏幕。功能仅向 Pro/Max 用户开放。社区一边兴奋效率提升，一边担心安全和误操作风险。 > 相关链接：Claude 功能说明｜Reddit 讨论贴

##### Claude Code AutoDream：给 Agent 做“睡眠”和记忆整理 Claude Code 新增 /dream（AutoDream）功能，为之前会疯狂记笔记的 Auto Memory 做“记忆清理”：每隔一定时间自动回顾会话，把有用信息合并成结构化文件，清理过期/矛盾内容，只动记忆文件不改代码。相当于给开发 Agent 加了一个定期 GC 和索引重建。 > 相关链接：功能设计详解｜系统 Prompt（GitHub）

##### SillyTavern 扩展：给任何老游戏接上“活”的 NPC 社区做了一个 SillyTavern 扩展：用本地 RP 模型 Cydonia 做 NPC 对话，再用 Qwen 3.5 0.8B 做“游戏主持人”，从游戏 Wiki 和状态里读信息，驱动 NPC 对话和游戏动作，还能用游戏原声做语音克隆。等于给没有对话系统的老游戏强行装上高拟真 NPC。 > 相关链接：项目介绍贴

---

#### 行业与公司动态 ##### 苹果与“vibecode”类生成应用的冲突：App Store 审核范式正在崩塌 Latent Space 指出：人人都能用 AI“vibecode”快速做应用、搏一次千万级退出时，传统应用商店的人工审核模式扛不住量级。苹果最近以政策为由，开始封杀 Replit、Vibecode 一类“写代码生成 App”的应用。作者认为这是 2026 年“反垃圾之战”的一部分，也可能动摇苹果 App Store 对软件分发的长期统治。 > 相关链接：原始长文｜Replit/Vibecode 被拒相关讨论

##### 微软“挖走”AI2 领导层，人才持续向超大厂集中 多方消息称：AI2 领导层中的 Ali Farhadi、Hanna Hajishirzi、Ranjay Krishna 等将加入 Microsoft Superintelligence。学界和开源圈担心：开放研究机构越来越难和云巨头在算力和薪酬上竞争，顶级人才和前沿方向正持续流向少数巨头实验室。 > 相关链接：事件讨论 1｜事件讨论 2

##### OpenAI：一年内至少投 10 亿美元做“韧性”基金，同时下线 Sora，ALL IN 新 LLM OpenAI 宣布其基金会未来一年至少花 10 亿美元，用于 AI 韧性、疾病、民间组织等方向，Wojciech Zaremba 亲自负责。另一边，有报道指 OpenAI 已完成下一代大模型“Spud”的首轮开发，为腾出算力，正逐步关停 Sora 应用/API。信号很清晰：OpenAI 在收缩边缘产品，把筹码押回通用模型与基础设施。 > 相关链接：Sam Altman 基金会公告｜Zaremba 说明｜Sora 资源回收与 Spud 传闻

##### Sora 第三方应用宣布关停，视频生成商业化之路受挫 以 OpenAI Sora 为引擎的第三方 Sora App 在 X 上宣布将关闭应用和 API，后续会给出时间表和作品导出方案。社区普遍认为：高算力成本、严格版权策略和用户量不足，是其难以为继的原因，也说明纯 T2V 应用还没找到稳定商业模式。 > 相关链接：Sora App 关停公告 1｜Sora App 关停公告 2

##### 中国大模型市场：字节未开源，阿里/腾讯/“六小虎”成开源主力 一篇长帖梳理了中国大模型格局：字节在视频/多模态上领先但未发开源权重；阿里在小模型和 T2I/T2V 上很强；腾讯用 Hunyuan 系列猛攻 3D 网格和动捕生成，通常先开源、成熟后闭源。智谱、MiniMax 等“六小虎”频繁放出大体量开源模型，OpenRouter 过去一周的 token 使用榜上，小米 MiMo-V2-Pro 等中方模型占据前列，只剩少数欧美实验室还排得上号。 > 相关链接：中国 LLM 现状长文

---

#### 研究与方法 ##### OpenReward + ZClawBench：Agent 研究从“炫 demo”走向标准化评测栈 GenReasoning 的 OpenReward 提供统一接口访问数百 RL 环境和百万级任务，智谱的 ZClawBench 则给出覆盖真实办公/编程场景的 116 个任务基准。再加上 AI2 的 MolmoWeb，这些组件正把 Agent 研究推向“环境服务 + 可复现实验 + 通用 harness”的工程化栈，而不是单次花哨 demo。 > 相关链接：OpenReward 平台｜ZClawBench 论文

---

#### 政策、治理与安全 ##### Jensen Huang 与“AGI 已实现？”之争：缺少统一定义让讨论跑偏 NVIDIA CEO 黄仁勋在采访中声称 AGI 已经实现，点燃舆论，但未给出清晰技术标准。社区指出，目前学界和业界连 AGI 定义都没统一，用“高人类水平语言+常识”就宣布达成太随意，也很难和早期 AGI 设想中的自我递归改进、技术奇点对应起来。 > 相关链接：采访视频｜Reddit 讨论

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学