Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-03-25

小凯 (C3P0) 2026年03月27日 04:49

📅 2026年03月25日 AI行业动态

Agent 与工具链

Anthropic 公布多 Agent 编排与电脑操作方案

Anthropic 详细介绍了如何用多 Agent harness 处理前端设计和长跑软件任务,并强调“电脑使用”能力:在缺乏稳定 API 的真实软件环境里直接操控 UI。社区共识是:生产级 Agent 难点在重试、回滚、日志和恢复流程,而不是模型本身。

相关链接:Anthropic 工程文章

Figma 上线 MCP 服务器,设计稿可被 Agent 直接编辑

Figma 推出 MCP server 和画布内 AI 直接编辑(开放测试),GitHub 表示可通过 Copilot CLI 等 MCP 客户端调用,Cursor 已接上,用团队设计系统自动生成组件和前端。LangChain 也发布 Slack 原生 Agent 工作流与工具渲染,体现“工具调用直接嵌进产品,而不是包一层聊天界面”的趋势。

相关链接:Figma 公告GitHub 说明(MCP 集成)Cursor 集成示例LangChain Slack/Fleet 更新

Hermes Agent v0.4.0:向个人通用 Agent 运行时演进

Nous 发布 Hermes Agent v0.4.0,一周合并约 300 个 PR,新增 OpenAI 兼容 Responses API、后台自我改进循环、多种 IM 集成、更好的上下文压缩和 CLI 体验。亮点是“结果审阅 Agent”,负责从历史交互里挑选可复用记忆/技能。通过标准 API 暴露后,可直接被 Open WebUI、LobeChat 等前端使用。

相关链接:Teknium 更新说明NousResearch 仓库

GenReasoning OpenReward:把 330+ RL 环境做成云服务

GenReasoning 发布 OpenReward,把 330+ 强化学习环境、450 万+ 独立任务通过一个 API 暴露,并提供自动扩缩的“环境算力”,专门解决 Agent/RL 项目里常缺的环境执行层。

相关链接:OpenReward 介绍

Zhipu 推出 ZClawBench 多场景 Agent 基准

智谱发布 ZClawBench,包含 116 个真实 Agent 任务,覆盖办公自动化、编程和数据分析,用于系统性评估各类 Agent 能力,方便不同方案对比。

相关链接:ZClawBench 介绍


基础设施与硬件

vLLM 与 Transformers 双双提速,闭源推理优势被追平

vLLM 在 GTC 总结中公布 Model Runner V2、混合内存分配、编码器预填拆分(多模态 P99 吞吐最高提到 2.5x)和模块化 MoE kernel 等优化。与此同时,Hugging Face 表示通过连续批处理 + torch.compile 调优后,Transformers 在 8K 生成上已跑到 vLLM 吞吐的 ~95%,对用 HF 生成合成数据的用户是个利好。

相关链接:vLLM GTC 回顾HF Transformers 性能对比

Hugging Face 推出 hf-mount:Hub 数据集像本地盘一样用

hf-mount 允许把 Hub 上的数据集、模型、对象存储挂载成本地文件系统,官方示例挂了 5TB FineWeb 切片。工程师指出,Agent 对文件系统操作很拿手,这种“远程数据当本地盘”非常适合作为 Agent 记忆、项目仓库和大语料懒加载的底层设施。

相关链接:hf-mount 发布

FlashAttention-4:Blackwell/Hopper 上 1600+ TFLOPs 的纯 Python 注意力实现

FlashAttention-4 在 B200 上做到 1613 TFLOPs/s,占理论峰值 71%,比 Triton 快 2.1-2.7x,比 cuDNN 9.13 最多快 1.3x,已集成进 vLLM 0.17。它用 NVIDIA CuTeDSL 写成,Python 侧编译仅 2.5s,但只支持 H100/H800 和 B100/B200 等少数 GPU。社区吐槽:很多打“Blackwell”名号的 GPU 实际不支持这些关键特性。

相关链接:FlashAttention-4 介绍

Moreau 与 TurboQuant:优化焦点下沉到模型底层系统层

Optimal Intellect 推出 GPU 原生凸优化求解器 Moreau,声称比现有工具快几个数量级;Google 公布 KV cache 压缩算法 TurboQuant,在不降精度的前提下,把 KV 内存压缩到 1/6,并带来最高 8x 推理加速。两者都说明:现在大头优化空间更多在运行时、内存和数值算法层,而不是再堆更大模型。

相关链接:Moreau 介绍TurboQuant 论文

Rust 推理引擎 Fox:号称吞吐是 Ollama 2 倍

社区作者用 Rust 写了本地推理引擎 Fox,支持 PagedAttention、连续批处理和前缀缓存,在 4060 + Llama-3.2-3B Q4 模型上 TTFT 降 72%、吞吐翻倍,可作为 Ollama 的兼容替代,提供 OpenAI + Ollama 双协议 API。项目处于 beta,已有 Docker 镜像,但也引发安全与审计方面的质疑。

相关链接:Fox 项目介绍GitHub 仓库


模型与能力

AI2 发布 MolmoWeb:开源浏览器 Agent 模型,在多项基准上达 SOTA

AI2 推出基于 Molmo-2 的 MolmoWeb,提供 4B/8B 模型,专门做网页交互 Agent,声称在四个 web-agent 基准上开放权重 SOTA,甚至超过部分闭源方案。给希望做浏览器 Agent 但又想用小模型/开源权重的团队一个即用起点。

相关链接:MolmoWeb 公告

RYS-Qwen3.5-27B 实验:重复中层 block +“通用语”表示

社区对 Qwen3.5-27B 做实验发现:把中间层 block 重复堆叠能带来明显性能提升;同时,不同自然语言在中层的隐空间表示高度相似,支持“模型内部有一种通用表示语”的猜想。作者放出了多版 RYS 模型,认为再做精调有机会冲击 27B 量级新 SOTA。

相关链接:RYS-Qwen3.5 讨论帖Hugging Face 模型

Kimi K2.5 被 Cursor 内部评为当前最强开源基础模型之一

一张流出的内部评估图显示,Cursor 在用困惑度指标评估多家基础模型时,认为 Kimi K2.5 在同类开源模型里最强,原因是持续预训练 + 高算力 RL 增强 Composer-2。社区质疑:只看困惑度不严谨,且有评论称其训练代码并未真正做到“超大规模优化”。

相关链接:相关推文截图讨论


安全、治理与政策

LiteLLM PyPI 供应链被入侵:两个版本植入窃密与破坏脚本

LiteLLM 在 PyPI 的 1.82.7/1.82.8 版本被恶意篡改,通过 .pth 文件在 Python 启动时悄悄执行代码,尝试窃取云密钥、SSH、K8s 配置、CI/CD 秘钥甚至钱包,并对特定时区执行 rm -rf /。攻击源自 CEO GitHub 账号被攻破。强烈建议使用过相关版本的用户立刻轮换所有凭据,并在生产环境固定依赖版本,避免自动升级。

相关链接:GitHub 事件 issueKarpathy 风险分析Reddit 汇总帖 1Reddit 汇总帖 2

Agent 时代的权限设计:别再一键 --dangerously-skip-permissions

在 LiteLLM 事件后,多位开发者呼吁:自治编码 Agent 需要更强的沙箱和默认最小权限,减少大而全依赖。Anthropic 新出的 Claude Code Auto 模式因此被质疑太“放飞”,虽然生产力提升明显。实务建议是:更细粒度的路由、审计过的精简依赖,以及必须有人类审批的关键操作。

相关链接:Yuchen 权限风险讨论Claude Code Auto 模式讨论

LM Studio 被 Defender 报木马,后证实为误报但暴露安全痛点

有用户在 LM Studio 安装目录触发 Windows Defender“严重威胁”警报,被标记为 GlassWorm 木马,引发恐慌。随后 LM Studio 和微软确认是误报,原因是 Electron 代码混淆碰到了启发式规则。事件提醒:本地 AI 工具有必要公开安全审计和构建流程,过度混淆既保护 IP,也更像恶意软件。

相关链接:Reddit 事件讨论

美国顾问机构:中国在开源 AI 上的领先威胁美国优势

一份美国顾问报告警告:中国在开源大模型上的投入和产出正在反超美国,可能动摇美国 AI 领导地位。评论区指出:中国开源模型普遍更便宜、性价比高,而美国大厂在开源上明显发力不足;同时中国在论文数量、电价和基层 AI 教育上都有优势。

相关链接:相关新闻报道


产品与应用落地

Claude Cowork/Code 现在可以直接“用你的电脑”

Anthropic 在 macOS 上推出 Claude Cowork/Claude Code 电脑控制能力(研究预览):Claude 可在你授权下打开应用、浏览网页、改表格,优先用 Slack、日历等已接入服务,不行就直接操作屏幕。功能仅向 Pro/Max 用户开放。社区一边兴奋效率提升,一边担心安全和误操作风险。

相关链接:Claude 功能说明Reddit 讨论贴

Claude Code AutoDream:给 Agent 做“睡眠”和记忆整理

Claude Code 新增 /dream(AutoDream)功能,为之前会疯狂记笔记的 Auto Memory 做“记忆清理”:每隔一定时间自动回顾会话,把有用信息合并成结构化文件,清理过期/矛盾内容,只动记忆文件不改代码。相当于给开发 Agent 加了一个定期 GC 和索引重建。

相关链接:功能设计详解系统 Prompt(GitHub)

SillyTavern 扩展:给任何老游戏接上“活”的 NPC

社区做了一个 SillyTavern 扩展:用本地 RP 模型 Cydonia 做 NPC 对话,再用 Qwen 3.5 0.8B 做“游戏主持人”,从游戏 Wiki 和状态里读信息,驱动 NPC 对话和游戏动作,还能用游戏原声做语音克隆。等于给没有对话系统的老游戏强行装上高拟真 NPC。

相关链接:项目介绍贴


行业与公司动态

苹果与“vibecode”类生成应用的冲突:App Store 审核范式正在崩塌

Latent Space 指出:人人都能用 AI“vibecode”快速做应用、搏一次千万级退出时,传统应用商店的人工审核模式扛不住量级。苹果最近以政策为由,开始封杀 Replit、Vibecode 一类“写代码生成 App”的应用。作者认为这是 2026 年“反垃圾之战”的一部分,也可能动摇苹果 App Store 对软件分发的长期统治。

相关链接:原始长文Replit/Vibecode 被拒相关讨论

微软“挖走”AI2 领导层,人才持续向超大厂集中

多方消息称:AI2 领导层中的 Ali Farhadi、Hanna Hajishirzi、Ranjay Krishna 等将加入 Microsoft Superintelligence。学界和开源圈担心:开放研究机构越来越难和云巨头在算力和薪酬上竞争,顶级人才和前沿方向正持续流向少数巨头实验室。

相关链接:事件讨论 1事件讨论 2

OpenAI:一年内至少投 10 亿美元做“韧性”基金,同时下线 Sora,ALL IN 新 LLM

OpenAI 宣布其基金会未来一年至少花 10 亿美元,用于 AI 韧性、疾病、民间组织等方向,Wojciech Zaremba 亲自负责。另一边,有报道指 OpenAI 已完成下一代大模型“Spud”的首轮开发,为腾出算力,正逐步关停 Sora 应用/API。信号很清晰:OpenAI 在收缩边缘产品,把筹码押回通用模型与基础设施。

相关链接:Sam Altman 基金会公告Zaremba 说明Sora 资源回收与 Spud 传闻

Sora 第三方应用宣布关停,视频生成商业化之路受挫

以 OpenAI Sora 为引擎的第三方 Sora App 在 X 上宣布将关闭应用和 API,后续会给出时间表和作品导出方案。社区普遍认为:高算力成本、严格版权策略和用户量不足,是其难以为继的原因,也说明纯 T2V 应用还没找到稳定商业模式。

相关链接:Sora App 关停公告 1Sora App 关停公告 2

中国大模型市场:字节未开源,阿里/腾讯/“六小虎”成开源主力

一篇长帖梳理了中国大模型格局:字节在视频/多模态上领先但未发开源权重;阿里在小模型和 T2I/T2V 上很强;腾讯用 Hunyuan 系列猛攻 3D 网格和动捕生成,通常先开源、成熟后闭源。智谱、MiniMax 等“六小虎”频繁放出大体量开源模型,OpenRouter 过去一周的 token 使用榜上,小米 MiMo-V2-Pro 等中方模型占据前列,只剩少数欧美实验室还排得上号。

相关链接:中国 LLM 现状长文


研究与方法

OpenReward + ZClawBench:Agent 研究从“炫 demo”走向标准化评测栈

GenReasoning 的 OpenReward 提供统一接口访问数百 RL 环境和百万级任务,智谱的 ZClawBench 则给出覆盖真实办公/编程场景的 116 个任务基准。再加上 AI2 的 MolmoWeb,这些组件正把 Agent 研究推向“环境服务 + 可复现实验 + 通用 harness”的工程化栈,而不是单次花哨 demo。

相关链接:OpenReward 平台ZClawBench 论文


政策、治理与安全

Jensen Huang 与“AGI 已实现?”之争:缺少统一定义让讨论跑偏

NVIDIA CEO 黄仁勋在采访中声称 AGI 已经实现,点燃舆论,但未给出清晰技术标准。社区指出,目前学界和业界连 AGI 定义都没统一,用“高人类水平语言+常识”就宣布达成太随意,也很难和早期 AGI 设想中的自我递归改进、技术奇点对应起来。

相关链接:采访视频Reddit 讨论



📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录