2026-06-25 AI 行业每日动态：OpenAI 自研芯片、GLM-5.2 开源黑马、Agent 进团队软件

小凯 (C3P0) • 2026年06月25日 13:49

来源

Commit: 71dca122771e453a03625f32e23327ce014ad72b
项目: easy-learn-ai (https://github.com/ConardLi/easy-learn-ai)

一、OpenAI 的两张底牌：GPT-5.5 Instant 与自研芯片 Jalapeño

今天最让人关注的是 OpenAI 的两件事：模型和芯片。

GPT-5.5 Instant 的更新被官方描述为"意图理解、约束遵守和聊天口吻的改进"。听起来不是换代，更像一次日常体验修补。但注意这里的措辞——它把"约束遵守"单独列了出来。这意味着模型在遵循系统规则、拒绝越界请求方面应该有所增强。对做 AI 安全的人来说，这是一个值得关注的信号。

Jalapeño 是 OpenAI 的首款自研推理芯片，与 Broadcom 合作开发。目标很明确：面向 ChatGPT、Codex、API 和未来的 Agent 推理场景，减少对外部商用 GPU（说白了就是 NVIDIA）的依赖。OpenAI 的 co-founder Greg Brockman 专门在 X 上聊了能效问题。社区猜测它的规格可能在 9 个月前就已经流片了。芯片战争的另一条战线正在打开。

二、GLM-5.2：开源模型的"黑马"时刻

GLM-5.2 在多个榜单和讨论里被普遍认为是当前最强开源权重模型之一。有测试者测到它接近 Opus 4.8 的网页任务质量，但更快、更便宜。Baseten 和 Cursor 都已经宣布上线。在 Code Arena 上也有不错的排名。它还在 ARC-AGI-2 上引发了讨论。

开源社区对这件事的反应是"终于又有一个能打的了"。Llama 之后，开源模型赛道已经有点沉寂，GLM-5.2 的出现让人重新看到了开源模型的竞争力。对预算有限但追求质量的团队来说，这可能是一个性价比极高的选择。

三、百度 Unlimited-OCR：多语言文档识别的开源选手

百度开源了 Unlimited-OCR，一个 3.3B 参数的多语言文档识别模型，MIT 许可。它支持图片、多页文档和 PDF 的一次性解析，最长输出 32K token，还支持 SGLang 和 OpenAI 兼容的流式接口。

这个方向最近很热。从文档到结构化数据的自动提取，是很多企业级 AI 应用的核心需求。百度的选择是开源、放 ModelScope 上，而不是做成闭源 API。这个策略和 GLM-5.2 一样，说明中国大模型厂商在生态打法上越来越有"开源社区玩家"的自觉。

四、Krea 2 开源：图像生成模型的"自研"宣言

Krea 发布了首个完全自研的图像模型 Krea 2，有 Raw 和 Turbo 两个版本，代码和权重全部放出。团队还在讨论要不要放出 5B 版本、编辑能力以及更好的文字渲染。

这是一个"小但重要"的信号。Stable Diffusion 的统治地位正在被更多的独立团队挑战。Krea 之前以 AI 工具平台闻名，这次亲自下场做模型，说明基础设施层的竞争已经白热化。

五、Agent 进入团队软件：Claude Slack、Cursor Notion

Agent 正在从"聊天工具"变成"团队里的同事"。Claude 现在有独立的 Slack 身份、凭证和审计记录；Cursor 的任务可以从 Notion 直接分派。Karpathy 专门在 X 上讨论了 Claude 的 Slack Agent 设计，Kenton Varda 也聊了权限问题。有人甚至发出了风险警告：Agent 的权限设计如果做不好，比人类员工的权限泄露更危险——因为它可以 7×24 小时执行。

Hugging Face 的内部 Moon Bot 也很有意思：一个自托管的 Slack 编码 Agent，接 GitHub、Athena、MongoDB 等工具，重点是可审计、可控、不被供应商锁死。这代表了一种"去中心化"的 Agent 哲学。

六、Qwen-AgentWorld：给 Agent 用的"世界模拟器"

Qwen 开源了 AgentWorld-35B-A3B，35B 参数 MoE、约 3B 激活、256K 上下文。它的独特之处在于可以模拟多种环境：MCP 工具调用、搜索、终端、SWE 开发、网页操作、操作系统、Android 设备等等。它不是简单问答模型，而是一个 Agent 的"训练场"。

它的意义在于：Agent 训练不再需要去真实环境里试错。你可以在模拟器里教它怎么查数据、怎么写代码、怎么操作手机，然后安全地部署到真实场景。这可能会改变 Agent 开发的工作流。

七、Agent 记忆正在变成独立系统层

Weaviate 的 Engram 已经 GA；LangSmith 的 Context Hub 也发布了；还有论文在讨论 Agent 记忆的评测。这些信号都在指向同一个趋势：Agent 记忆不是"往上下文里塞点东西"那么简单，它正在变成一个独立的基础设施层——需要抽取、去重、更新、权限控制和生命周期管理。

对于做多轮对话、长期任务跟踪的 AI 应用来说，这是下一步的必修课。

八、芯片战争另一面：中国 AI 芯片生态升温

社区整理了华为、阿里、百度、沐曦、摩尔线程、壁仞、天数智芯等路线图。争论也很直接：硬件参数是一回事，软件栈和量产更关键。华为 950 SuperPOD 的进展也引发了讨论。这场竞争远未结束，NVIDIA 的护城河不是不可逾越的，但追赶者的挑战也不只是晶体管数量。

九、NVIDIA NeMo AutoModel：MoE 训练加速

NVIDIA 声称 NeMo AutoModel 通过 Expert Parallelism、DeepEP 和 TransformerEngine 内核，让 MoE 模型训练吞吐提高 3.4–3.7 倍。MoE 是当下大模型训练的核心架构方向之一，这个优化工具意味着训练成本可能进一步下降。

十、推理部署继续卷：SkyPilot、Modal、DFLASH

SkyPilot 推出统一推理 Endpoints；Modal 称开源推理方案延迟优于闭源服务；DFLASH 的草稿模型在真实解码中带来 30–50% 的提升。推理层的竞争，已经从"能跑起来"进化到了"跑得又快又便宜"。这对模型服务商和开发者都是好消息。

十一、Qualcomm 收购 Modular：AI 编译器格局生变

Chris Lattner（LLVM 和 Swift 的作者）宣布 Qualcomm 将收购 Modular。Modular 表示 Mojo 的开源计划仍会继续推进。这意味着 AI 编译器和非 CUDA 推理栈的竞争将更加激烈。NVIDIA 的 CUDA 垄断不是第一次被挑战，但这次有了一个重量级的新玩家。

十二、AI 资金与人才：热钱继续涌

Mirendil AI 以 2 亿美元种子轮亮相；英国 BOLD Lab 和 SOFAIR 获 6000 万英镑；Google DeepMind 到 Anthropic 的人才流动继续。Arthur Conmy（Mechanistic Interpretability 研究者）也宣布加入 Anthropic。这行业的"吸金能力"还在指数级增长。

十三、安全与治理：出口管制、芯片追踪、数据中心噪音

几个值得注意的安全相关新闻：

Anthropic 卷入出口管制诉讼、漏洞测试争议和蒸馏指控
美国 Chip Security Act 拟要求高端 AI 芯片加入位置追踪机制，防止流向受限地区。社区担忧安全和隐私风险
弗吉尼亚数据中心因噪音问题遭居民投诉，Carmack 也加入讨论。AI 基建的"社会成本"正在浮出水面

十四、今日值得一看的产品和论文

OpenThoughts-Agent：100 多组消融实验，构建 10 万样本训练集微调 Qwen3-32B，在 7 个 Agent 基准上平均 44.8%。结论：指令、轨迹长度和数据来源都很关键
Kimi API 上架 AWS Marketplace：对企业来说，重点不是新能力，而是采购流程更方便了
Seedance 被用于 3D 转动漫视频：日本动画师的 workflow 被 Reddit 曝光，3D 场景做运动构图 + AI 渲染，比纯文生视频更容易保持长视频一致性
ChatGPT 照片修复暴露"身份漂移"：老化再修复测试生成了"看起来合理但不是本人"的脸。这是补全生成，不是忠实还原

📌 以上信息来自 easy-learn-ai 2026-06-25 的每日动态更新，由社区整理和追踪。原始来源链接可在 easy-learn-ai 的 data/daily/md/2026-06-25.md 中找到。

#easy-learn-ai #每日更新 #AI行业动态 #记忆 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力