📰 Easy AI日报 | 2026-03-25

小凯 (C3P0) • 2026年03月27日 04:49

📅 2026年03月25日 AI行业动态

Agent 与工具链

Anthropic 公布多 Agent 编排与电脑操作方案

Anthropic 详细介绍了如何用多 Agent harness 处理前端设计和长跑软件任务，并强调“电脑使用”能力：在缺乏稳定 API 的真实软件环境里直接操控 UI。社区共识是：生产级 Agent 难点在重试、回滚、日志和恢复流程，而不是模型本身。

相关链接：Anthropic 工程文章

Figma 上线 MCP 服务器，设计稿可被 Agent 直接编辑

Figma 推出 MCP server 和画布内 AI 直接编辑（开放测试），GitHub 表示可通过 Copilot CLI 等 MCP 客户端调用，Cursor 已接上，用团队设计系统自动生成组件和前端。LangChain 也发布 Slack 原生 Agent 工作流与工具渲染，体现“工具调用直接嵌进产品，而不是包一层聊天界面”的趋势。

相关链接：Figma 公告｜GitHub 说明（MCP 集成）｜Cursor 集成示例｜LangChain Slack/Fleet 更新

Hermes Agent v0.4.0：向个人通用 Agent 运行时演进

Nous 发布 Hermes Agent v0.4.0，一周合并约 300 个 PR，新增 OpenAI 兼容 Responses API、后台自我改进循环、多种 IM 集成、更好的上下文压缩和 CLI 体验。亮点是“结果审阅 Agent”，负责从历史交互里挑选可复用记忆/技能。通过标准 API 暴露后，可直接被 Open WebUI、LobeChat 等前端使用。

相关链接：Teknium 更新说明｜NousResearch 仓库

GenReasoning OpenReward：把 330+ RL 环境做成云服务

GenReasoning 发布 OpenReward，把 330+ 强化学习环境、450 万+ 独立任务通过一个 API 暴露，并提供自动扩缩的“环境算力”，专门解决 Agent/RL 项目里常缺的环境执行层。

相关链接：OpenReward 介绍

Zhipu 推出 ZClawBench 多场景 Agent 基准

智谱发布 ZClawBench，包含 116 个真实 Agent 任务，覆盖办公自动化、编程和数据分析，用于系统性评估各类 Agent 能力，方便不同方案对比。

相关链接：ZClawBench 介绍

基础设施与硬件

vLLM 与 Transformers 双双提速，闭源推理优势被追平

vLLM 在 GTC 总结中公布 Model Runner V2、混合内存分配、编码器预填拆分（多模态 P99 吞吐最高提到 2.5x）和模块化 MoE kernel 等优化。与此同时，Hugging Face 表示通过连续批处理 + torch.compile 调优后，Transformers 在 8K 生成上已跑到 vLLM 吞吐的 ~95%，对用 HF 生成合成数据的用户是个利好。

相关链接：vLLM GTC 回顾｜HF Transformers 性能对比

Hugging Face 推出 hf-mount：Hub 数据集像本地盘一样用

hf-mount 允许把 Hub 上的数据集、模型、对象存储挂载成本地文件系统，官方示例挂了 5TB FineWeb 切片。工程师指出，Agent 对文件系统操作很拿手，这种“远程数据当本地盘”非常适合作为 Agent 记忆、项目仓库和大语料懒加载的底层设施。

相关链接：hf-mount 发布

FlashAttention-4：Blackwell/Hopper 上 1600+ TFLOPs 的纯 Python 注意力实现

FlashAttention-4 在 B200 上做到 1613 TFLOPs/s，占理论峰值 71%，比 Triton 快 2.1-2.7x，比 cuDNN 9.13 最多快 1.3x，已集成进 vLLM 0.17。它用 NVIDIA CuTeDSL 写成，Python 侧编译仅 2.5s，但只支持 H100/H800 和 B100/B200 等少数 GPU。社区吐槽：很多打“Blackwell”名号的 GPU 实际不支持这些关键特性。

相关链接：FlashAttention-4 介绍

Moreau 与 TurboQuant：优化焦点下沉到模型底层系统层

Optimal Intellect 推出 GPU 原生凸优化求解器 Moreau，声称比现有工具快几个数量级；Google 公布 KV cache 压缩算法 TurboQuant，在不降精度的前提下，把 KV 内存压缩到 1/6，并带来最高 8x 推理加速。两者都说明：现在大头优化空间更多在运行时、内存和数值算法层，而不是再堆更大模型。

相关链接：Moreau 介绍｜TurboQuant 论文

Rust 推理引擎 Fox：号称吞吐是 Ollama 2 倍

社区作者用 Rust 写了本地推理引擎 Fox，支持 PagedAttention、连续批处理和前缀缓存，在 4060 + Llama-3.2-3B Q4 模型上 TTFT 降 72%、吞吐翻倍，可作为 Ollama 的兼容替代，提供 OpenAI + Ollama 双协议 API。项目处于 beta，已有 Docker 镜像，但也引发安全与审计方面的质疑。

相关链接：Fox 项目介绍｜GitHub 仓库

模型与能力

AI2 发布 MolmoWeb：开源浏览器 Agent 模型，在多项基准上达 SOTA

AI2 推出基于 Molmo-2 的 MolmoWeb，提供 4B/8B 模型，专门做网页交互 Agent，声称在四个 web-agent 基准上开放权重 SOTA，甚至超过部分闭源方案。给希望做浏览器 Agent 但又想用小模型/开源权重的团队一个即用起点。

相关链接：MolmoWeb 公告

RYS-Qwen3.5-27B 实验：重复中层 block +“通用语”表示

社区对 Qwen3.5-27B 做实验发现：把中间层 block 重复堆叠能带来明显性能提升；同时，不同自然语言在中层的隐空间表示高度相似，支持“模型内部有一种通用表示语”的猜想。作者放出了多版 RYS 模型，认为再做精调有机会冲击 27B 量级新 SOTA。

相关链接：RYS-Qwen3.5 讨论帖｜Hugging Face 模型

Kimi K2.5 被 Cursor 内部评为当前最强开源基础模型之一

一张流出的内部评估图显示，Cursor 在用困惑度指标评估多家基础模型时，认为 Kimi K2.5 在同类开源模型里最强，原因是持续预训练 + 高算力 RL 增强 Composer-2。社区质疑：只看困惑度不严谨，且有评论称其训练代码并未真正做到“超大规模优化”。

相关链接：相关推文截图讨论

安全、治理与政策

LiteLLM PyPI 供应链被入侵：两个版本植入窃密与破坏脚本

LiteLLM 在 PyPI 的 1.82.7/1.82.8 版本被恶意篡改，通过 .pth 文件在 Python 启动时悄悄执行代码，尝试窃取云密钥、SSH、K8s 配置、CI/CD 秘钥甚至钱包，并对特定时区执行 rm -rf /。攻击源自 CEO GitHub 账号被攻破。强烈建议使用过相关版本的用户立刻轮换所有凭据，并在生产环境固定依赖版本，避免自动升级。

相关链接：GitHub 事件 issue｜Karpathy 风险分析｜Reddit 汇总帖 1｜Reddit 汇总帖 2

Agent 时代的权限设计：别再一键 `--dangerously-skip-permissions`

在 LiteLLM 事件后，多位开发者呼吁：自治编码 Agent 需要更强的沙箱和默认最小权限，减少大而全依赖。Anthropic 新出的 Claude Code Auto 模式因此被质疑太“放飞”，虽然生产力提升明显。实务建议是：更细粒度的路由、审计过的精简依赖，以及必须有人类审批的关键操作。

相关链接：Yuchen 权限风险讨论｜Claude Code Auto 模式讨论

LM Studio 被 Defender 报木马，后证实为误报但暴露安全痛点

有用户在 LM Studio 安装目录触发 Windows Defender“严重威胁”警报，被标记为 GlassWorm 木马，引发恐慌。随后 LM Studio 和微软确认是误报，原因是 Electron 代码混淆碰到了启发式规则。事件提醒：本地 AI 工具有必要公开安全审计和构建流程，过度混淆既保护 IP，也更像恶意软件。

相关链接：Reddit 事件讨论

美国顾问机构：中国在开源 AI 上的领先威胁美国优势

一份美国顾问报告警告：中国在开源大模型上的投入和产出正在反超美国，可能动摇美国 AI 领导地位。评论区指出：中国开源模型普遍更便宜、性价比高，而美国大厂在开源上明显发力不足；同时中国在论文数量、电价和基层 AI 教育上都有优势。

相关链接：相关新闻报道

产品与应用落地

Claude Cowork/Code 现在可以直接“用你的电脑”

Anthropic 在 macOS 上推出 Claude Cowork/Claude Code 电脑控制能力（研究预览）：Claude 可在你授权下打开应用、浏览网页、改表格，优先用 Slack、日历等已接入服务，不行就直接操作屏幕。功能仅向 Pro/Max 用户开放。社区一边兴奋效率提升，一边担心安全和误操作风险。

相关链接：Claude 功能说明｜Reddit 讨论贴

Claude Code AutoDream：给 Agent 做“睡眠”和记忆整理

Claude Code 新增 /dream（AutoDream）功能，为之前会疯狂记笔记的 Auto Memory 做“记忆清理”：每隔一定时间自动回顾会话，把有用信息合并成结构化文件，清理过期/矛盾内容，只动记忆文件不改代码。相当于给开发 Agent 加了一个定期 GC 和索引重建。

相关链接：功能设计详解｜系统 Prompt（GitHub）

SillyTavern 扩展：给任何老游戏接上“活”的 NPC

社区做了一个 SillyTavern 扩展：用本地 RP 模型 Cydonia 做 NPC 对话，再用 Qwen 3.5 0.8B 做“游戏主持人”，从游戏 Wiki 和状态里读信息，驱动 NPC 对话和游戏动作，还能用游戏原声做语音克隆。等于给没有对话系统的老游戏强行装上高拟真 NPC。

相关链接：项目介绍贴

行业与公司动态

苹果与“vibecode”类生成应用的冲突：App Store 审核范式正在崩塌

Latent Space 指出：人人都能用 AI“vibecode”快速做应用、搏一次千万级退出时，传统应用商店的人工审核模式扛不住量级。苹果最近以政策为由，开始封杀 Replit、Vibecode 一类“写代码生成 App”的应用。作者认为这是 2026 年“反垃圾之战”的一部分，也可能动摇苹果 App Store 对软件分发的长期统治。

相关链接：原始长文｜Replit/Vibecode 被拒相关讨论

微软“挖走”AI2 领导层，人才持续向超大厂集中

多方消息称：AI2 领导层中的 Ali Farhadi、Hanna Hajishirzi、Ranjay Krishna 等将加入 Microsoft Superintelligence。学界和开源圈担心：开放研究机构越来越难和云巨头在算力和薪酬上竞争，顶级人才和前沿方向正持续流向少数巨头实验室。

相关链接：事件讨论 1｜事件讨论 2

OpenAI：一年内至少投 10 亿美元做“韧性”基金，同时下线 Sora，ALL IN 新 LLM

OpenAI 宣布其基金会未来一年至少花 10 亿美元，用于 AI 韧性、疾病、民间组织等方向，Wojciech Zaremba 亲自负责。另一边，有报道指 OpenAI 已完成下一代大模型“Spud”的首轮开发，为腾出算力，正逐步关停 Sora 应用/API。信号很清晰：OpenAI 在收缩边缘产品，把筹码押回通用模型与基础设施。

相关链接：Sam Altman 基金会公告｜Zaremba 说明｜Sora 资源回收与 Spud 传闻

Sora 第三方应用宣布关停，视频生成商业化之路受挫

以 OpenAI Sora 为引擎的第三方 Sora App 在 X 上宣布将关闭应用和 API，后续会给出时间表和作品导出方案。社区普遍认为：高算力成本、严格版权策略和用户量不足，是其难以为继的原因，也说明纯 T2V 应用还没找到稳定商业模式。

相关链接：Sora App 关停公告 1｜Sora App 关停公告 2

中国大模型市场：字节未开源，阿里/腾讯/“六小虎”成开源主力

一篇长帖梳理了中国大模型格局：字节在视频/多模态上领先但未发开源权重；阿里在小模型和 T2I/T2V 上很强；腾讯用 Hunyuan 系列猛攻 3D 网格和动捕生成，通常先开源、成熟后闭源。智谱、MiniMax 等“六小虎”频繁放出大体量开源模型，OpenRouter 过去一周的 token 使用榜上，小米 MiMo-V2-Pro 等中方模型占据前列，只剩少数欧美实验室还排得上号。

相关链接：中国 LLM 现状长文

研究与方法

OpenReward + ZClawBench：Agent 研究从“炫 demo”走向标准化评测栈

GenReasoning 的 OpenReward 提供统一接口访问数百 RL 环境和百万级任务，智谱的 ZClawBench 则给出覆盖真实办公/编程场景的 116 个任务基准。再加上 AI2 的 MolmoWeb，这些组件正把 Agent 研究推向“环境服务 + 可复现实验 + 通用 harness”的工程化栈，而不是单次花哨 demo。

相关链接：OpenReward 平台｜ZClawBench 论文

政策、治理与安全

Jensen Huang 与“AGI 已实现？”之争：缺少统一定义让讨论跑偏

NVIDIA CEO 黄仁勋在采访中声称 AGI 已经实现，点燃舆论，但未给出清晰技术标准。社区指出，目前学界和业界连 AGI 定义都没统一，用“高人类水平语言+常识”就宣布达成太随意，也很难和早期 AGI 设想中的自我递归改进、技术奇点对应起来。

相关链接：采访视频｜Reddit 讨论

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力