📅 2026年03月20日 AI行业动态
行业与公司动态
OpenAI 收购 Astral,押注底层开发者工具
Python 工具链团队 Astral(uv/ruff/ty 背后团队)加入 OpenAI Codex 团队,被外界解读为 OpenAI 要把关键开发工具握在自己手里,巩固面向开发者的平台护城河。此前同类收购还有 GDM 的 Antigravity 团队和 Anthropic 收购 Bun。
OpenAI 战略收缩“副本线”,全力做企业和编码超级应用
Meta 前高管、现 Instacart CEO Fidji Simo 表态不再把 Shopping 等“支线任务”当重点,转向企业客户(Frontier Alliances)和编码场景(配合 Astral 收购),并计划把 ChatGPT 和 Codex 类产品合成一个面向工作与开发的“超级应用”。
阿里 Qwen-Image-2.0 基本确认不再开源,引发社区不满
阿里发布新一代图像生成模型 Qwen-Image-2.0,文案从“开源”改成“Release”,意味着只提供服务不开放权重。社区认为闭源后竞争力大打折扣,再加上隐私担忧,很难比肩 Midjourney 等。评论称阿里高层对开源不赚钱不满意,未来开源力度或继续收缩。
相关链接:Reddit 讨论贴
Britannica 和 Merriam‑Webster 起诉 OpenAI,称词典内容被大规模侵权
两家权威词典出版社在纽约起诉 OpenAI,称 ChatGPT 未授权使用其精心编纂的词条,导致用户不再访问官网,广告和订阅收入受损。案件聚焦:AI 训练到底能不能“免费吃”专业内容,以及“定义”“知识”是否可以被少数公司垄断。
AI 新闻 Discord 被关闭,AINews 将以新形态回归
Latent Space 团队表示其用于抓取社区信息的 Discord 被官方关停,现阶段不会原样重开,但会推出新版 AINews 产品继续提供聚合资讯服务。
相关链接:AINews 原文说明
模型与能力
Cursor 发布 Composer 2:自研前沿级代码模型,大幅降价
Cursor 推出 Composer 2,自称“前沿级”代码模型,输入 \(0.5/百万 token、输出\)2.5/百万,号称在 CursorBench、Terminal-Bench 2.0、SWE-bench Multilingual 上成绩亮眼。团队强调通过先继续预训练再 RL 提升效果,40 人团队只做软件工程相关任务。
MiniMax M2.7:更偏“实用 Agent 模型”而非纯跑分怪
MiniMax 发布 M2.7,主打自我迭代训练和长流程 Agent 工作流。评测显示总体性能与上一代相近,但指令遵从、上下文幻觉控制、多轮对话和大代码处理更好,推理略弱、耗 token 更高。Hermes Agent 已接入,部分场景下长程表现优于 OpenClaw。
通义千问 Qwen 3.5 Max Preview 登顶多项榜单
最新 Qwen 3.5 Max 预览版在 LMSYS Arena 中数学排第 3、Expert 榜前 10、总榜前 15,相比旧版在文本、写作和数学上提升明显。官方称后续还会继续优化,意味着阿里在高端闭源模型上仍在加码。
小模型 Reason‑ModernColBERT 在复杂检索上“打穿”大模型
150M 规模的 Reason‑ModernColBERT 在 BrowseComp‑Plus 深度检索基准上接近 90% 解决率,性能超过大至 54× 的系统。多方讨论认为,多向量/晚交互检索在需要推理的搜索任务中,正在系统性优于传统单向量 Dense 检索。
相关链接:作者结果帖|Late Interaction 讨论
Chandra OCR 2 与 GLM‑OCR:文档识别继续卷 SOTA 与小模型
Chandra OCR 2 在 olmOCR 跑到 85.9%,支持 90+ 语言、手写、公式、表单和表格提取,走“大模型高质量”路线;GLM‑OCR 0.9B 则在多项 OCR 基准上据称能打赢 Gemini,突出的是体积小、易部署。
微软 MAI‑Image‑2 登上 Image Arena 前五
微软发布新版图像模型 MAI‑Image‑2,在 Image Arena 排名第 5,相比 1 代在文字渲染、人物肖像等子项上提升明显,主要面向通用图片生成场景。
相关链接:Image Arena 排名|微软官方公告
Agent 与工具链
LangChain 推出 LangSmith Fleet:把 Agent 当“员工队伍”来管
LangSmith Fleet 是面向企业的 Agent 控制面板,可统一管理一批有记忆、权限和工具的 Agent,集中做身份、凭证、Slack 通道暴露和审计。配合行业观点:单个“智能体”概念不够用了,大家在搭“AI 操作系统”和“Agent 车队”。
Claude Code 接入“聊天通道”,Coding Agent 覆盖到 IM 场景
Anthropic 扩展 Claude Code,让开发者能在 Slack 等聊天应用里直接和代码 Agent 交互,目前是研究预览。方向上与 OpenAI 一样,都在从“API 模型”走向“常驻工作流 + 环境内 Agent”。
相关链接:Claude Code 渠道公告|官方文档
多 Agent 时代:Devins 团队、AgentUI 和长任务运行时
Cognition 让 Devin 能把任务拆给一组平行 Devin,各自跑在独立 VM;LV Werra 开源 AgentUI,用多 Agent 协同处理代码、检索和多模态;Hrishikesh 提出长时任务需要专门运行时,支持 checkpoint、回滚、切换模型提供商和自动修复执行错误。
NVIDIA NemoClaw 与 OpenClaw 式安全问题:零权限默认、沙箱子 Agent
Baseten 解读 NVIDIA 的 NemoClaw:默认零权限、子 Agent 沙箱执行、私有推理由基础设施强制,意在回应 OpenClaw 等强 Agent 带来的“操作半径”风险。行业共识是在能力之外,更要先把权限、身份和可观测性设计好。
相关链接:NemoClaw 介绍|安全趋势讨论
LlamaIndex 开源 LiteParse:本地优先的文档解析组件
LiteParse 是一个不依赖 Python 生态的轻量解析器,可在本地解析 PDF、Office 和图片,保留版面坐标,可选接入 OCR,专门为 Agent 流水线设计。高难度页面可交给大 OCR 模型,普通文档靠它本地快速搞定。
相关链接:LiteParse 发布|作者解读
Harmonic 推出 Aristotle:形式化数学 Agent,免费开放
Aristotle 号称第一个“形式化数学家 Agent”,用 Lean 等形式证明系统来做机器可验证的证明,而不是只输出自然语言“看上去像对的解答”。相比 DeepMind 的 AlphaProof 等闭源方案,它目前对用户免费,能自动给出机器检查过的证明。
相关链接:Harmonic 公告|Reddit 讨论
Google AI Studio 更新“vibe coding”,集成 Antigravity 代码 Agent
Google 在 AI Studio 加了全新的“vibe coding”体验,用 Antigravity 代码 Agent 一键拉起前后端、多玩家协作、Firebase 后端和鉴权等,支持持续构建,让“生成应用”更像在 IDE 里开发而不是一次性脚本。
相关链接:AI Studio 更新|功能总结
产品与应用落地
Google Gemini App 更新“个人智能”,更深接入 Google 生态
Gemini 安卓 App 新版本在美国向免费用户开放“Personal Intelligence”,可以读你的 Gmail、日历、Drive 等帮你找账单、拉会议和整理文件。隐私担忧不少:有人直接联想到“政府一旦接入就能搜你一生”。
相关链接:Gemini 更新截图帖
本地 3D 模型生成桌面应用:基于 Hunyuan3D 2 Mini 的开源工具
开发者发布一款本地桌面应用,可用图片生成 3D 网格,目前支持 Hunyuan3D 2 Mini,走扩展架构,欢迎社区贡献导出格式和模型支持。评论建议增加多图输入、文本编辑、glTF/FBX/OBJ/USD 等格式和 Trellis 2 模型支持。
相关链接:GitHub 项目|Reddit 反馈贴
本地 AI 音乐视频流水线 Synesthesia:从歌词到自动分镜
Synesthesia 用本地 LLM(如 Qwen3.5‑9B)+ LTX Video,把人声、全乐队音轨和歌词变成一套分镜脚本,并自动调用 LTX 生成视频。3 分钟歌在 5090 上 540p 首版不到一小时出片,可手动微调 shot list。用户希望加入 LoRA 保持角色一致和“一键风格”下拉菜单。
Netryx:开源图片地理定位工具,能从街景猜出经纬度
大学生开发的 Netryx 通过视觉线索和自建 ML 流水线,从街景图推断具体坐标,GitHub 全开源。演示能定位如卡塔尔袭击等事件。评论一半觉得很酷,一半担心“人肉定位”滥用问题。
相关链接:Netryx GitHub|Reddit 讨论
Claude Prompt‑Master:一键给各类 AI 工具写“对路子”的提示词
开源技能 Prompt‑Master 已破 600 Star,可识别你要用的 AI 工具(如 Midjourney、Claude Code 等),按工具习惯重写提示,避免凭空烧 token。项目收集了 35 种常见 Prompt 问题,支持继续适配本地和开源模型。
基础设施与硬件
双 H200 服务器怎么榨干?社区推荐:Qwen3.5‑397B + vLLM
有公司给工程师配了 2×H200(共 282GB VRAM)测试本地代码模型。大家建议:用 vLLM 或 sglang,不要用 ollama/llama.cpp 这类不擅长大批量并发的框架;模型方面可上 Qwen 3.5 397B Q4 量化、MiniMax M2.5 等,但不要把显存吃满,得给上下文留空间。
相关链接:Reddit 帖子
SkyPilot 把 Karpathy 式 Auto‑Research 跑上 K8s:8 小时 910 次实验
SkyPilot 团队展示如何在 Kubernetes GPU 集群上批量跑“自动研究”实验:8 小时 910 次,而串行只能跑 96 次。说明基础设施在改写研究方式——以后模型和算法探索更像是在调度实验集群。
相关链接:SkyPilot 推文
TurboAPI 单机打到 150k req/s,号称比 FastAPI 快 22 倍
开发者报告优化一天后,TurboAPI 在简单场景下能处理 15 万请求/秒,相比 FastAPI 吞吐提升 22×。这类极致高并发 API 框架,对部署大规模 LLM 服务尤其是小请求场景很关键。
相关链接:TurboAPI 性能贴
Baseten Delivery Network:把大模型冷启动时间砍到原来的 1/2–1/3
Baseten 推出 Delivery Network,用更聪明的预热和调度来减少大模型冷启动,号称能缩短 2–3 倍。对多租户、长尾模型和 Agent 堆叠应用,会直接改善首 token 延迟体验。
相关链接:Baseten 公告
研究与方法
继续预训练 + 好的 RL 环境,重新变成模型差距的关键杠杆
Cursor 把 Composer 2 的提升主要归因于“先继续预训练,再做 RL”,多位研究者认为这会成为垂直模型的标配路径。Pratyush 提出“微调者谬误”:早期预训练数据对表示的影响很难靠后期微调完全抹掉,想改模型习性得在更早阶段动手。
M²RNN 与混合架构:Transformer 之外的路线仍在升温
M²RNN 重新探索带矩阵状态的非线性 RNN,用于可扩展语言建模;Tri Dao 指出非线性 RNN 层提供了不同于注意力和线性 SSM 的能力。NVIDIA Nemotron 3 则把 Transformer + Mamba2、MoE/LatentMoE、多 token 预测和 NVFP4 精度混用,目标是更便宜的长上下文 Agent 推理。
生成媒体的“百毫秒内回路”可能比画质更重要
业界有人提醒:在图像/视频生成里,真正决定生产力的可能不是模型峰值质量,而是从 Prompt 到结果的闭环能否控制在 100ms 级。否则再好看的图,也很难嵌入实时交互和专业工具链。
相关链接:相关讨论
政策、治理与安全
CEO 用 ChatGPT“问怎么废掉 2.5 亿美元合同”,无视律师惨败官司
Krafton CEO 试图依赖 ChatGPT 给出的策略来废除 2.5 亿美元收购合同,基本没听自家律师意见,最后在法庭上惨败。案例提醒:LLM 能帮你找问题、整理资料,但不能替代承担责任的专业律师,尤其在有特殊立法和复杂上下文时。
相关链接:404 Media 报道|Reddit 讨论
Jeremy O. Harris 在奥斯卡派对骂 Sam Altman“纳粹”,矛头指向军方合作
剧作家 Jeremy O. Harris 在 Vanity Fair 奥斯卡派对当面质问 Altman,称其与美国国防部合作让 OpenAI 走向“军火商”,事后解释自己是把他类比为战犯资本家 Friedrich Flick。事件放大了 AI 实验室与军方合作的伦理争议。
产品与应用落地
Qwen Image 2.0 与开源争议
(合并补充)Qwen‑Image‑2.0 支持专业排版、1k token 指令和原生 2K 分辨率,适合信息图和漫画创作。但因为不再开源、且 UI 和社区生态弱于 Midjourney 等,许多开发者表示“闭源就没什么吸引力了”。
相关链接:Qwen 官方页面|Reddit 讨论贴
研究与方法
ChatGPT+AlphaFold 帮研究员给自家狗做个性化 mRNA 疫苗
澳大利亚一位 ML 研究员花约 2000 美元测序自家狗的肿瘤 DNA,用 ChatGPT 找潜在新抗原,再用 AlphaFold 预测蛋白结构,在科研伙伴帮助下合成 mRNA 疫苗,两个月内让恶性肿瘤缩小 75%。社区一边赞 AI 民主化医学,一边担心激励大家“自己给自己动手”。
📌 来源: Easy AI 日报
#EasyAI #AI日报 #AI教学
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。