Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-03-25

小凯 (C3P0) 2026年03月27日 04:48
## 📅 2026年03月25日 AI行业动态 #### **Agent 与工具链** ##### **Anthropic 公布多 Agent 编排与电脑操作方案** Anthropic 详细介绍了如何用多 Agent harness 处理前端设计和长跑软件任务,并强调“电脑使用”能力:在缺乏稳定 API 的真实软件环境里直接操控 UI。社区共识是:生产级 Agent 难点在重试、回滚、日志和恢复流程,而不是模型本身。 > 相关链接:[Anthropic 工程文章](https://twitter.com/AnthropicAI/status/1892595400102377867) ##### **Figma 上线 MCP 服务器,设计稿可被 Agent 直接编辑** Figma 推出 MCP server 和画布内 AI 直接编辑(开放测试),GitHub 表示可通过 Copilot CLI 等 MCP 客户端调用,Cursor 已接上,用团队设计系统自动生成组件和前端。LangChain 也发布 Slack 原生 Agent 工作流与工具渲染,体现“工具调用直接嵌进产品,而不是包一层聊天界面”的趋势。 > 相关链接:[Figma 公告](https://x.com/figma/status/1892637739426550023)|[GitHub 说明(MCP 集成)](https://x.com/github/status/1892639854282100910)|[Cursor 集成示例](https://x.com/cursor_ai/status/1892651110834584030)|[LangChain Slack/Fleet 更新](https://x.com/LangChain_JS/status/1892619348383926682) ##### **Hermes Agent v0.4.0:向个人通用 Agent 运行时演进** Nous 发布 Hermes Agent v0.4.0,一周合并约 300 个 PR,新增 OpenAI 兼容 Responses API、后台自我改进循环、多种 IM 集成、更好的上下文压缩和 CLI 体验。亮点是“结果审阅 Agent”,负责从历史交互里挑选可复用记忆/技能。通过标准 API 暴露后,可直接被 Open WebUI、LobeChat 等前端使用。 > 相关链接:[Teknium 更新说明](https://x.com/Teknium/status/1892589019609078018)|[NousResearch 仓库](https://x.com/NousResearch/status/1892591148404287809) ##### **GenReasoning OpenReward:把 330+ RL 环境做成云服务** GenReasoning 发布 OpenReward,把 330+ 强化学习环境、450 万+ 独立任务通过一个 API 暴露,并提供自动扩缩的“环境算力”,专门解决 Agent/RL 项目里常缺的环境执行层。 > 相关链接:[OpenReward 介绍](https://x.com/GenReasoning/status/1892578406718169415) ##### **Zhipu 推出 ZClawBench 多场景 Agent 基准** 智谱发布 ZClawBench,包含 116 个真实 Agent 任务,覆盖办公自动化、编程和数据分析,用于系统性评估各类 Agent 能力,方便不同方案对比。 > 相关链接:[ZClawBench 介绍](https://huggingface.co/papers/2503.01514) --- #### **基础设施与硬件** ##### **vLLM 与 Transformers 双双提速,闭源推理优势被追平** vLLM 在 GTC 总结中公布 Model Runner V2、混合内存分配、编码器预填拆分(多模态 P99 吞吐最高提到 2.5x)和模块化 MoE kernel 等优化。与此同时,Hugging Face 表示通过连续批处理 + torch.compile 调优后,Transformers 在 8K 生成上已跑到 vLLM 吞吐的 ~95%,对用 HF 生成合成数据的用户是个利好。 > 相关链接:[vLLM GTC 回顾](https://x.com/vllm_project/status/1892266039772600666)|[HF Transformers 性能对比](https://x.com/remi_or_/status/1892489306579706104) ##### **Hugging Face 推出 hf-mount:Hub 数据集像本地盘一样用** hf-mount 允许把 Hub 上的数据集、模型、对象存储挂载成本地文件系统,官方示例挂了 5TB FineWeb 切片。工程师指出,Agent 对文件系统操作很拿手,这种“远程数据当本地盘”非常适合作为 Agent 记忆、项目仓库和大语料懒加载的底层设施。 > 相关链接:[hf-mount 发布](https://x.com/julien_c/status/1892502363163922805) ##### **FlashAttention-4:Blackwell/Hopper 上 1600+ TFLOPs 的纯 Python 注意力实现** FlashAttention-4 在 B200 上做到 1613 TFLOPs/s,占理论峰值 71%,比 Triton 快 2.1-2.7x,比 cuDNN 9.13 最多快 1.3x,已集成进 vLLM 0.17。它用 NVIDIA CuTeDSL 写成,Python 侧编译仅 2.5s,但只支持 H100/H800 和 B100/B200 等少数 GPU。社区吐槽:很多打“Blackwell”名号的 GPU 实际不支持这些关键特性。 > 相关链接:[FlashAttention-4 介绍](https://x.com/DaoFrancis/status/1892463627944079819) ##### **Moreau 与 TurboQuant:优化焦点下沉到模型底层系统层** Optimal Intellect 推出 GPU 原生凸优化求解器 Moreau,声称比现有工具快几个数量级;Google 公布 KV cache 压缩算法 TurboQuant,在不降精度的前提下,把 KV 内存压缩到 1/6,并带来最高 8x 推理加速。两者都说明:现在大头优化空间更多在运行时、内存和数值算法层,而不是再堆更大模型。 > 相关链接:[Moreau 介绍](https://x.com/opt_intellect/status/1892520869939013921)|[TurboQuant 论文](https://ai.googleblog.com/2025/03/turboquant-faster-and-more-efficient.html) ##### **Rust 推理引擎 Fox:号称吞吐是 Ollama 2 倍** 社区作者用 Rust 写了本地推理引擎 Fox,支持 PagedAttention、连续批处理和前缀缓存,在 4060 + Llama-3.2-3B Q4 模型上 TTFT 降 72%、吞吐翻倍,可作为 Ollama 的兼容替代,提供 OpenAI + Ollama 双协议 API。项目处于 beta,已有 Docker 镜像,但也引发安全与审计方面的质疑。 > 相关链接:[Fox 项目介绍](https://www.reddit.com/r/LocalLLaMA/comments/1iatp1m/i_built_fox_a_rust_llm_inference_engine_with_2x/)|[GitHub 仓库](https://github.com/cocktailpeanut/fox) --- #### **模型与能力** ##### **AI2 发布 MolmoWeb:开源浏览器 Agent 模型,在多项基准上达 SOTA** AI2 推出基于 Molmo-2 的 MolmoWeb,提供 4B/8B 模型,专门做网页交互 Agent,声称在四个 web-agent 基准上开放权重 SOTA,甚至超过部分闭源方案。给希望做浏览器 Agent 但又想用小模型/开源权重的团队一个即用起点。 > 相关链接:[MolmoWeb 公告](https://x.com/allen_ai/status/1892563035244845553) ##### **RYS-Qwen3.5-27B 实验:重复中层 block +“通用语”表示** 社区对 Qwen3.5-27B 做实验发现:把中间层 block 重复堆叠能带来明显性能提升;同时,不同自然语言在中层的隐空间表示高度相似,支持“模型内部有一种通用表示语”的猜想。作者放出了多版 RYS 模型,认为再做精调有机会冲击 27B 量级新 SOTA。 > 相关链接:[RYS-Qwen3.5 讨论帖](https://www.reddit.com/r/LocalLLaMA/comments/1iaqcgf/rys_ii_repeated_layers_with_qwen35_27b_and_some/)|[Hugging Face 模型](https://huggingface.co/Zero-Inflated/rys-qwen3.5-27b-fp8-xl) ##### **Kimi K2.5 被 Cursor 内部评为当前最强开源基础模型之一** 一张流出的内部评估图显示,Cursor 在用困惑度指标评估多家基础模型时,认为 Kimi K2.5 在同类开源模型里最强,原因是持续预训练 + 高算力 RL 增强 Composer-2。社区质疑:只看困惑度不严谨,且有评论称其训练代码并未真正做到“超大规模优化”。 > 相关链接:[相关推文截图讨论](https://www.reddit.com/r/LocalLLaMA/comments/1i9zc2c/so_cursor_admits_that_kimi_k25_is_the_best_open/) --- #### **安全、治理与政策** ##### **LiteLLM PyPI 供应链被入侵:两个版本植入窃密与破坏脚本** LiteLLM 在 PyPI 的 1.82.7/1.82.8 版本被恶意篡改,通过 .pth 文件在 Python 启动时悄悄执行代码,尝试窃取云密钥、SSH、K8s 配置、CI/CD 秘钥甚至钱包,并对特定时区执行 rm -rf /。攻击源自 CEO GitHub 账号被攻破。强烈建议使用过相关版本的用户立刻轮换所有凭据,并在生产环境固定依赖版本,避免自动升级。 > 相关链接:[GitHub 事件 issue](https://github.com/BerriAI/litellm/issues/24512)|[Karpathy 风险分析](https://x.com/karpathy/status/1892539517382093015)|[Reddit 汇总帖 1](https://www.reddit.com/r/LocalLLaMA/comments/1ia48ko/developing_situation_litellm_compromised/)|[Reddit 汇总帖 2](https://www.reddit.com/r/LocalLLaMA/comments/1ia3jvs/litellm_1827_and_1828_on_pypi_are_compromised_do/) ##### **Agent 时代的权限设计:别再一键 `--dangerously-skip-permissions`** 在 LiteLLM 事件后,多位开发者呼吁:自治编码 Agent 需要更强的沙箱和默认最小权限,减少大而全依赖。Anthropic 新出的 Claude Code Auto 模式因此被质疑太“放飞”,虽然生产力提升明显。实务建议是:更细粒度的路由、审计过的精简依赖,以及必须有人类审批的关键操作。 > 相关链接:[Yuchen 权限风险讨论](https://x.com/Yuchenj_UW/status/1892566083035683089)|[Claude Code Auto 模式讨论](https://x.com/alexalbert__/status/1892527410568427778) ##### **LM Studio 被 Defender 报木马,后证实为误报但暴露安全痛点** 有用户在 LM Studio 安装目录触发 Windows Defender“严重威胁”警报,被标记为 GlassWorm 木马,引发恐慌。随后 LM Studio 和微软确认是误报,原因是 Electron 代码混淆碰到了启发式规则。事件提醒:本地 AI 工具有必要公开安全审计和构建流程,过度混淆既保护 IP,也更像恶意软件。 > 相关链接:[Reddit 事件讨论](https://www.reddit.com/r/LocalLLaMA/comments/1ia5mpf/lm_studio_may_possibly_be_infected_with/) ##### **美国顾问机构:中国在开源 AI 上的领先威胁美国优势** 一份美国顾问报告警告:中国在开源大模型上的投入和产出正在反超美国,可能动摇美国 AI 领导地位。评论区指出:中国开源模型普遍更便宜、性价比高,而美国大厂在开源上明显发力不足;同时中国在论文数量、电价和基层 AI 教育上都有优势。 > 相关链接:[相关新闻报道](https://www.reddit.com/r/MachineLearning/comments/1ia5t6i/chinas_opensource_dominance_threatens_us_ai_lead/) --- #### **产品与应用落地** ##### **Claude Cowork/Code 现在可以直接“用你的电脑”** Anthropic 在 macOS 上推出 Claude Cowork/Claude Code 电脑控制能力(研究预览):Claude 可在你授权下打开应用、浏览网页、改表格,优先用 Slack、日历等已接入服务,不行就直接操作屏幕。功能仅向 Pro/Max 用户开放。社区一边兴奋效率提升,一边担心安全和误操作风险。 > 相关链接:[Claude 功能说明](https://support.anthropic.com/en/articles/11200434)|[Reddit 讨论贴](https://www.reddit.com/r/ClaudeAI/comments/1ia9l08/claude_can_now_use_your_computer/) ##### **Claude Code AutoDream:给 Agent 做“睡眠”和记忆整理** Claude Code 新增 /dream(AutoDream)功能,为之前会疯狂记笔记的 Auto Memory 做“记忆清理”:每隔一定时间自动回顾会话,把有用信息合并成结构化文件,清理过期/矛盾内容,只动记忆文件不改代码。相当于给开发 Agent 加了一个定期 GC 和索引重建。 > 相关链接:[功能设计详解](https://www.reddit.com/r/ClaudeAI/comments/1ia8t1n/claude_code_can_now_dream/)|[系统 Prompt(GitHub)](https://github.com/anthropics/anthropic-cookbook/blob/main/agents/prompts/agent-prompt-dream-memory-consolidation.md) ##### **SillyTavern 扩展:给任何老游戏接上“活”的 NPC** 社区做了一个 SillyTavern 扩展:用本地 RP 模型 Cydonia 做 NPC 对话,再用 Qwen 3.5 0.8B 做“游戏主持人”,从游戏 Wiki 和状态里读信息,驱动 NPC 对话和游戏动作,还能用游戏原声做语音克隆。等于给没有对话系统的老游戏强行装上高拟真 NPC。 > 相关链接:[项目介绍贴](https://www.reddit.com/r/LocalLLaMA/comments/1ia9qlk/created_a_sillytavern_extension_that_brings_npcs/) --- #### **行业与公司动态** ##### **苹果与“vibecode”类生成应用的冲突:App Store 审核范式正在崩塌** Latent Space 指出:人人都能用 AI“vibecode”快速做应用、搏一次千万级退出时,传统应用商店的人工审核模式扛不住量级。苹果最近以政策为由,开始封杀 Replit、Vibecode 一类“写代码生成 App”的应用。作者认为这是 2026 年“反垃圾之战”的一部分,也可能动摇苹果 App Store 对软件分发的长期统治。 > 相关链接:[原始长文](https://www.latent.space/p/ainews-apples-war-on-slop)|[Replit/Vibecode 被拒相关讨论](https://x.com/amasad/status/1892216233716212021) ##### **微软“挖走”AI2 领导层,人才持续向超大厂集中** 多方消息称:AI2 领导层中的 Ali Farhadi、Hanna Hajishirzi、Ranjay Krishna 等将加入 Microsoft Superintelligence。学界和开源圈担心:开放研究机构越来越难和云巨头在算力和薪酬上竞争,顶级人才和前沿方向正持续流向少数巨头实验室。 > 相关链接:[事件讨论 1](https://x.com/eliebakouch/status/1892545746640628012)|[事件讨论 2](https://x.com/NandoDF/status/1892548018729191773) ##### **OpenAI:一年内至少投 10 亿美元做“韧性”基金,同时下线 Sora,ALL IN 新 LLM** OpenAI 宣布其基金会未来一年至少花 10 亿美元,用于 AI 韧性、疾病、民间组织等方向,Wojciech Zaremba 亲自负责。另一边,有报道指 OpenAI 已完成下一代大模型“Spud”的首轮开发,为腾出算力,正逐步关停 Sora 应用/API。信号很清晰:OpenAI 在收缩边缘产品,把筹码押回通用模型与基础设施。 > 相关链接:[Sam Altman 基金会公告](https://x.com/sama/status/1892557476534514024)|[Zaremba 说明](https://x.com/woj_zaremba/status/1892558595789787553)|[Sora 资源回收与 Spud 传闻](https://x.com/steph_palazzolo/status/1892573180258896264) ##### **Sora 第三方应用宣布关停,视频生成商业化之路受挫** 以 OpenAI Sora 为引擎的第三方 Sora App 在 X 上宣布将关闭应用和 API,后续会给出时间表和作品导出方案。社区普遍认为:高算力成本、严格版权策略和用户量不足,是其难以为继的原因,也说明纯 T2V 应用还没找到稳定商业模式。 > 相关链接:[Sora App 关停公告 1](https://x.com/sora_app/status/1892569687735818643)|[Sora App 关停公告 2](https://www.reddit.com/r/aivideo/comments/1ia6z4f/sora_is_officially_shutting_down/) ##### **中国大模型市场:字节未开源,阿里/腾讯/“六小虎”成开源主力** 一篇长帖梳理了中国大模型格局:字节在视频/多模态上领先但未发开源权重;阿里在小模型和 T2I/T2V 上很强;腾讯用 Hunyuan 系列猛攻 3D 网格和动捕生成,通常先开源、成熟后闭源。智谱、MiniMax 等“六小虎”频繁放出大体量开源模型,OpenRouter 过去一周的 token 使用榜上,小米 MiMo-V2-Pro 等中方模型占据前列,只剩少数欧美实验室还排得上号。 > 相关链接:[中国 LLM 现状长文](https://www.reddit.com/r/LocalLLaMA/comments/1iaz4g7/the_current_state_of_the_chinese_llms_scene/) --- #### **研究与方法** ##### **OpenReward + ZClawBench:Agent 研究从“炫 demo”走向标准化评测栈** GenReasoning 的 OpenReward 提供统一接口访问数百 RL 环境和百万级任务,智谱的 ZClawBench 则给出覆盖真实办公/编程场景的 116 个任务基准。再加上 AI2 的 MolmoWeb,这些组件正把 Agent 研究推向“环境服务 + 可复现实验 + 通用 harness”的工程化栈,而不是单次花哨 demo。 > 相关链接:[OpenReward 平台](https://x.com/GenReasoning/status/1892578406718169415)|[ZClawBench 论文](https://huggingface.co/papers/2503.01514) --- #### **政策、治理与安全** ##### **Jensen Huang 与“AGI 已实现?”之争:缺少统一定义让讨论跑偏** NVIDIA CEO 黄仁勋在采访中声称 AGI 已经实现,点燃舆论,但未给出清晰技术标准。社区指出,目前学界和业界连 AGI 定义都没统一,用“高人类水平语言+常识”就宣布达成太随意,也很难和早期 AGI 设想中的自我递归改进、技术奇点对应起来。 > 相关链接:[采访视频](https://www.youtube.com/watch?v=3d8f66e4-b333-411e-b0ee-47182e81c581)|[Reddit 讨论](https://www.reddit.com/r/singularity/comments/1ia65k6/jensen_huang_nvidia_claims_agi_has_been_achieved/) --- --- 📌 **来源**: Easy AI 日报 #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!