📰 Easy AI日报 | 2026-03-20

📅 2026年03月20日 AI行业动态

#### 行业与公司动态 ##### OpenAI 收购 Astral，押注底层开发者工具 Python 工具链团队 Astral（uv/ruff/ty 背后团队）加入 OpenAI Codex 团队，被外界解读为 OpenAI 要把关键开发工具握在自己手里，巩固面向开发者的平台护城河。此前同类收购还有 GDM 的 Antigravity 团队和 Anthropic 收购 Bun。 > 相关链接：Astral 创始人公告｜OpenAI gdb 确认收购｜Latent Space 分析

##### OpenAI 战略收缩“副本线”，全力做企业和编码超级应用 Meta 前高管、现 Instacart CEO Fidji Simo 表态不再把 Shopping 等“支线任务”当重点，转向企业客户（Frontier Alliances）和编码场景（配合 Astral 收购），并计划把 ChatGPT 和 Codex 类产品合成一个面向工作与开发的“超级应用”。 > 相关链接：Fidji Simo 相关发言｜Frontier Alliances 讨论

##### 阿里 Qwen-Image-2.0 基本确认不再开源，引发社区不满 阿里发布新一代图像生成模型 Qwen-Image-2.0，文案从“开源”改成“Release”，意味着只提供服务不开放权重。社区认为闭源后竞争力大打折扣，再加上隐私担忧，很难比肩 Midjourney 等。评论称阿里高层对开源不赚钱不满意，未来开源力度或继续收缩。 > 相关链接：Reddit 讨论贴

##### Britannica 和 Merriam‑Webster 起诉 OpenAI，称词典内容被大规模侵权 两家权威词典出版社在纽约起诉 OpenAI，称 ChatGPT 未授权使用其精心编纂的词条，导致用户不再访问官网，广告和订阅收入受损。案件聚焦：AI 训练到底能不能“免费吃”专业内容，以及“定义”“知识”是否可以被少数公司垄断。 > 相关链接：诉讼报道｜Reddit 讨论

##### AI 新闻 Discord 被关闭，AINews 将以新形态回归 Latent Space 团队表示其用于抓取社区信息的 Discord 被官方关停，现阶段不会原样重开，但会推出新版 AINews 产品继续提供聚合资讯服务。 > 相关链接：AINews 原文说明

---

#### 模型与能力 ##### Cursor 发布 Composer 2：自研前沿级代码模型，大幅降价 Cursor 推出 Composer 2，自称“前沿级”代码模型，输入 $0.5/百万 token、输出 $2.5/百万，号称在 CursorBench、Terminal-Bench 2.0、SWE-bench Multilingual 上成绩亮眼。团队强调通过先继续预训练再 RL 提升效果，40 人团队只做软件工程相关任务。 > 相关链接：官方发布｜技术细节｜第三方价格与评测

##### MiniMax M2.7：更偏“实用 Agent 模型”而非纯跑分怪 MiniMax 发布 M2.7，主打自我迭代训练和长流程 Agent 工作流。评测显示总体性能与上一代相近，但指令遵从、上下文幻觉控制、多轮对话和大代码处理更好，推理略弱、耗 token 更高。Hermes Agent 已接入，部分场景下长程表现优于 OpenClaw。 > 相关链接：MiniMax 公告｜知乎 Frontier 评测｜Hermes Agent 集成案例

##### 通义千问 Qwen 3.5 Max Preview 登顶多项榜单 最新 Qwen 3.5 Max 预览版在 LMSYS Arena 中数学排第 3、Expert 榜前 10、总榜前 15，相比旧版在文本、写作和数学上提升明显。官方称后续还会继续优化，意味着阿里在高端闭源模型上仍在加码。 > 相关链接：Arena 榜单｜Qwen 官方确认

##### 小模型 Reason‑ModernColBERT 在复杂检索上“打穿”大模型 150M 规模的 Reason‑ModernColBERT 在 BrowseComp‑Plus 深度检索基准上接近 90% 解决率，性能超过大至 54× 的系统。多方讨论认为，多向量/晚交互检索在需要推理的搜索任务中，正在系统性优于传统单向量 Dense 检索。 > 相关链接：作者结果帖｜Late Interaction 讨论

##### Chandra OCR 2 与 GLM‑OCR：文档识别继续卷 SOTA 与小模型 Chandra OCR 2 在 olmOCR 跑到 85.9%，支持 90+ 语言、手写、公式、表单和表格提取，走“大模型高质量”路线；GLM‑OCR 0.9B 则在多项 OCR 基准上据称能打赢 Gemini，突出的是体积小、易部署。 > 相关链接：Chandra OCR 2 介绍｜GLM‑OCR 讨论

##### 微软 MAI‑Image‑2 登上 Image Arena 前五 微软发布新版图像模型 MAI‑Image‑2，在 Image Arena 排名第 5，相比 1 代在文字渲染、人物肖像等子项上提升明显，主要面向通用图片生成场景。 > 相关链接：Image Arena 排名｜微软官方公告

---

#### Agent 与工具链 ##### LangChain 推出 LangSmith Fleet：把 Agent 当“员工队伍”来管 LangSmith Fleet 是面向企业的 Agent 控制面板，可统一管理一批有记忆、权限和工具的 Agent，集中做身份、凭证、Slack 通道暴露和审计。配合行业观点：单个“智能体”概念不够用了，大家在搭“AI 操作系统”和“Agent 车队”。 > 相关链接：官方发布｜功能解读

##### Claude Code 接入“聊天通道”，Coding Agent 覆盖到 IM 场景 Anthropic 扩展 Claude Code，让开发者能在 Slack 等聊天应用里直接和代码 Agent 交互，目前是研究预览。方向上与 OpenAI 一样，都在从“API 模型”走向“常驻工作流 + 环境内 Agent”。 > 相关链接：Claude Code 渠道公告｜官方文档

##### 多 Agent 时代：Devins 团队、AgentUI 和长任务运行时 Cognition 让 Devin 能把任务拆给一组平行 Devin，各自跑在独立 VM；LV Werra 开源 AgentUI，用多 Agent 协同处理代码、检索和多模态；Hrishikesh 提出长时任务需要专门运行时，支持 checkpoint、回滚、切换模型提供商和自动修复执行错误。 > 相关链接：Devins 团队模式｜AgentUI 项目｜长程 Agent 运行时观点

##### NVIDIA NemoClaw 与 OpenClaw 式安全问题：零权限默认、沙箱子 Agent Baseten 解读 NVIDIA 的 NemoClaw：默认零权限、子 Agent 沙箱执行、私有推理由基础设施强制，意在回应 OpenClaw 等强 Agent 带来的“操作半径”风险。行业共识是在能力之外，更要先把权限、身份和可观测性设计好。 > 相关链接：NemoClaw 介绍｜安全趋势讨论

##### LlamaIndex 开源 LiteParse：本地优先的文档解析组件 LiteParse 是一个不依赖 Python 生态的轻量解析器，可在本地解析 PDF、Office 和图片，保留版面坐标，可选接入 OCR，专门为 Agent 流水线设计。高难度页面可交给大 OCR 模型，普通文档靠它本地快速搞定。 > 相关链接：LiteParse 发布｜作者解读

##### Harmonic 推出 Aristotle：形式化数学 Agent，免费开放 Aristotle 号称第一个“形式化数学家 Agent”，用 Lean 等形式证明系统来做机器可验证的证明，而不是只输出自然语言“看上去像对的解答”。相比 DeepMind 的 AlphaProof 等闭源方案，它目前对用户免费，能自动给出机器检查过的证明。 > 相关链接：Harmonic 公告｜Reddit 讨论

##### Google AI Studio 更新“vibe coding”，集成 Antigravity 代码 Agent Google 在 AI Studio 加了全新的“vibe coding”体验，用 Antigravity 代码 Agent 一键拉起前后端、多玩家协作、Firebase 后端和鉴权等，支持持续构建，让“生成应用”更像在 IDE 里开发而不是一次性脚本。 > 相关链接：AI Studio 更新｜功能总结

---

#### 产品与应用落地 ##### Google Gemini App 更新“个人智能”，更深接入 Google 生态 Gemini 安卓 App 新版本在美国向免费用户开放“Personal Intelligence”，可以读你的 Gmail、日历、Drive 等帮你找账单、拉会议和整理文件。隐私担忧不少：有人直接联想到“政府一旦接入就能搜你一生”。 > 相关链接：Gemini 更新截图帖

##### 本地 3D 模型生成桌面应用：基于 Hunyuan3D 2 Mini 的开源工具 开发者发布一款本地桌面应用，可用图片生成 3D 网格，目前支持 Hunyuan3D 2 Mini，走扩展架构，欢迎社区贡献导出格式和模型支持。评论建议增加多图输入、文本编辑、glTF/FBX/OBJ/USD 等格式和 Trellis 2 模型支持。 > 相关链接：GitHub 项目｜Reddit 反馈贴

##### 本地 AI 音乐视频流水线 Synesthesia：从歌词到自动分镜 Synesthesia 用本地 LLM（如 Qwen3.5‑9B）+ LTX Video，把人声、全乐队音轨和歌词变成一套分镜脚本，并自动调用 LTX 生成视频。3 分钟歌在 5090 上 540p 首版不到一小时出片，可手动微调 shot list。用户希望加入 LoRA 保持角色一致和“一键风格”下拉菜单。 > 相关链接：Synesthesia GitHub｜Reddit 介绍

##### Netryx：开源图片地理定位工具，能从街景猜出经纬度 大学生开发的 Netryx 通过视觉线索和自建 ML 流水线，从街景图推断具体坐标，GitHub 全开源。演示能定位如卡塔尔袭击等事件。评论一半觉得很酷，一半担心“人肉定位”滥用问题。 > 相关链接：Netryx GitHub｜Reddit 讨论

##### Claude Prompt‑Master：一键给各类 AI 工具写“对路子”的提示词 开源技能 Prompt‑Master 已破 600 Star，可识别你要用的 AI 工具（如 Midjourney、Claude Code 等），按工具习惯重写提示，避免凭空烧 token。项目收集了 35 种常见 Prompt 问题，支持继续适配本地和开源模型。 > 相关链接：GitHub 仓库｜Reddit 介绍

---

#### 基础设施与硬件 ##### 双 H200 服务器怎么榨干？社区推荐：Qwen3.5‑397B + vLLM 有公司给工程师配了 2×H200（共 282GB VRAM）测试本地代码模型。大家建议：用 vLLM 或 sglang，不要用 ollama/llama.cpp 这类不擅长大批量并发的框架；模型方面可上 Qwen 3.5 397B Q4 量化、MiniMax M2.5 等，但不要把显存吃满，得给上下文留空间。 > 相关链接：Reddit 帖子

##### SkyPilot 把 Karpathy 式 Auto‑Research 跑上 K8s：8 小时 910 次实验 SkyPilot 团队展示如何在 Kubernetes GPU 集群上批量跑“自动研究”实验：8 小时 910 次，而串行只能跑 96 次。说明基础设施在改写研究方式——以后模型和算法探索更像是在调度实验集群。 > 相关链接：SkyPilot 推文

##### TurboAPI 单机打到 150k req/s，号称比 FastAPI 快 22 倍 开发者报告优化一天后，TurboAPI 在简单场景下能处理 15 万请求/秒，相比 FastAPI 吞吐提升 22×。这类极致高并发 API 框架，对部署大规模 LLM 服务尤其是小请求场景很关键。 > 相关链接：TurboAPI 性能贴

##### Baseten Delivery Network：把大模型冷启动时间砍到原来的 1/2–1/3 Baseten 推出 Delivery Network，用更聪明的预热和调度来减少大模型冷启动，号称能缩短 2–3 倍。对多租户、长尾模型和 Agent 堆叠应用，会直接改善首 token 延迟体验。 > 相关链接：Baseten 公告

---

#### 研究与方法 ##### 继续预训练 + 好的 RL 环境，重新变成模型差距的关键杠杆 Cursor 把 Composer 2 的提升主要归因于“先继续预训练，再做 RL”，多位研究者认为这会成为垂直模型的标配路径。Pratyush 提出“微调者谬误”：早期预训练数据对表示的影响很难靠后期微调完全抹掉，想改模型习性得在更早阶段动手。 > 相关链接：Composer 2 技术文｜Finetuner’s Fallacy 讨论

##### M²RNN 与混合架构：Transformer 之外的路线仍在升温 M²RNN 重新探索带矩阵状态的非线性 RNN，用于可扩展语言建模；Tri Dao 指出非线性 RNN 层提供了不同于注意力和线性 SSM 的能力。NVIDIA Nemotron 3 则把 Transformer + Mamba2、MoE/LatentMoE、多 token 预测和 NVFP4 精度混用，目标是更便宜的长上下文 Agent 推理。 > 相关链接：M²RNN 论文｜Tri Dao 评论｜Nemotron 3 总结

##### 生成媒体的“百毫秒内回路”可能比画质更重要 业界有人提醒：在图像/视频生成里，真正决定生产力的可能不是模型峰值质量，而是从 Prompt 到结果的闭环能否控制在 100ms 级。否则再好看的图，也很难嵌入实时交互和专业工具链。 > 相关链接：相关讨论

---

#### 政策、治理与安全 ##### CEO 用 ChatGPT“问怎么废掉 2.5 亿美元合同”，无视律师惨败官司 Krafton CEO 试图依赖 ChatGPT 给出的策略来废除 2.5 亿美元收购合同，基本没听自家律师意见，最后在法庭上惨败。案例提醒：LLM 能帮你找问题、整理资料，但不能替代承担责任的专业律师，尤其在有特殊立法和复杂上下文时。 > 相关链接：404 Media 报道｜Reddit 讨论

##### Jeremy O. Harris 在奥斯卡派对骂 Sam Altman“纳粹”，矛头指向军方合作 剧作家 Jeremy O. Harris 在 Vanity Fair 奥斯卡派对当面质问 Altman，称其与美国国防部合作让 OpenAI 走向“军火商”，事后解释自己是把他类比为战犯资本家 Friedrich Flick。事件放大了 AI 实验室与军方合作的伦理争议。 > 相关链接：新闻报道｜Reddit 讨论

---

#### 产品与应用落地 ##### Qwen Image 2.0 与开源争议 （合并补充）Qwen‑Image‑2.0 支持专业排版、1k token 指令和原生 2K 分辨率，适合信息图和漫画创作。但因为不再开源、且 UI 和社区生态弱于 Midjourney 等，许多开发者表示“闭源就没什么吸引力了”。 > 相关链接：Qwen 官方页面｜Reddit 讨论贴

---

#### 研究与方法 ##### ChatGPT+AlphaFold 帮研究员给自家狗做个性化 mRNA 疫苗 澳大利亚一位 ML 研究员花约 2000 美元测序自家狗的肿瘤 DNA，用 ChatGPT 找潜在新抗原，再用 AlphaFold 预测蛋白结构，在科研伙伴帮助下合成 mRNA 疫苗，两个月内让恶性肿瘤缩小 75%。社区一边赞 AI 民主化医学，一边担心激励大家“自己给自己动手”。 > 相关链接：新闻原文｜Reddit 讨论

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-03-20

📅 2026年03月20日 AI行业动态

🌟 智谱 GLM-5 已上线