来源
Commit: 71dca122771e453a03625f32e23327ce014ad72b
项目: easy-learn-ai (https://github.com/ConardLi/easy-learn-ai)
一、OpenAI 的两张底牌:GPT-5.5 Instant 与自研芯片 Jalapeño
今天最让人关注的是 OpenAI 的两件事:模型和芯片。
GPT-5.5 Instant 的更新被官方描述为"意图理解、约束遵守和聊天口吻的改进"。听起来不是换代,更像一次日常体验修补。但注意这里的措辞——它把"约束遵守"单独列了出来。这意味着模型在遵循系统规则、拒绝越界请求方面应该有所增强。对做 AI 安全的人来说,这是一个值得关注的信号。
Jalapeño 是 OpenAI 的首款自研推理芯片,与 Broadcom 合作开发。目标很明确:面向 ChatGPT、Codex、API 和未来的 Agent 推理场景,减少对外部商用 GPU(说白了就是 NVIDIA)的依赖。OpenAI 的 co-founder Greg Brockman 专门在 X 上聊了能效问题。社区猜测它的规格可能在 9 个月前就已经流片了。芯片战争的另一条战线正在打开。
二、GLM-5.2:开源模型的"黑马"时刻
GLM-5.2 在多个榜单和讨论里被普遍认为是当前最强开源权重模型之一。有测试者测到它接近 Opus 4.8 的网页任务质量,但更快、更便宜。Baseten 和 Cursor 都已经宣布上线。在 Code Arena 上也有不错的排名。它还在 ARC-AGI-2 上引发了讨论。
开源社区对这件事的反应是"终于又有一个能打的了"。Llama 之后,开源模型赛道已经有点沉寂,GLM-5.2 的出现让人重新看到了开源模型的竞争力。对预算有限但追求质量的团队来说,这可能是一个性价比极高的选择。
三、百度 Unlimited-OCR:多语言文档识别的开源选手
百度开源了 Unlimited-OCR,一个 3.3B 参数的多语言文档识别模型,MIT 许可。它支持图片、多页文档和 PDF 的一次性解析,最长输出 32K token,还支持 SGLang 和 OpenAI 兼容的流式接口。
这个方向最近很热。从文档到结构化数据的自动提取,是很多企业级 AI 应用的核心需求。百度的选择是开源、放 ModelScope 上,而不是做成闭源 API。这个策略和 GLM-5.2 一样,说明中国大模型厂商在生态打法上越来越有"开源社区玩家"的自觉。
四、Krea 2 开源:图像生成模型的"自研"宣言
Krea 发布了首个完全自研的图像模型 Krea 2,有 Raw 和 Turbo 两个版本,代码和权重全部放出。团队还在讨论要不要放出 5B 版本、编辑能力以及更好的文字渲染。
这是一个"小但重要"的信号。Stable Diffusion 的统治地位正在被更多的独立团队挑战。Krea 之前以 AI 工具平台闻名,这次亲自下场做模型,说明基础设施层的竞争已经白热化。
五、Agent 进入团队软件:Claude Slack、Cursor Notion
Agent 正在从"聊天工具"变成"团队里的同事"。Claude 现在有独立的 Slack 身份、凭证和审计记录;Cursor 的任务可以从 Notion 直接分派。Karpathy 专门在 X 上讨论了 Claude 的 Slack Agent 设计,Kenton Varda 也聊了权限问题。有人甚至发出了风险警告:Agent 的权限设计如果做不好,比人类员工的权限泄露更危险——因为它可以 7×24 小时执行。
Hugging Face 的内部 Moon Bot 也很有意思:一个自托管的 Slack 编码 Agent,接 GitHub、Athena、MongoDB 等工具,重点是可审计、可控、不被供应商锁死。这代表了一种"去中心化"的 Agent 哲学。
六、Qwen-AgentWorld:给 Agent 用的"世界模拟器"
Qwen 开源了 AgentWorld-35B-A3B,35B 参数 MoE、约 3B 激活、256K 上下文。它的独特之处在于可以模拟多种环境:MCP 工具调用、搜索、终端、SWE 开发、网页操作、操作系统、Android 设备等等。它不是简单问答模型,而是一个 Agent 的"训练场"。
它的意义在于:Agent 训练不再需要去真实环境里试错。你可以在模拟器里教它怎么查数据、怎么写代码、怎么操作手机,然后安全地部署到真实场景。这可能会改变 Agent 开发的工作流。
七、Agent 记忆正在变成独立系统层
Weaviate 的 Engram 已经 GA;LangSmith 的 Context Hub 也发布了;还有论文在讨论 Agent 记忆的评测。这些信号都在指向同一个趋势:Agent 记忆不是"往上下文里塞点东西"那么简单,它正在变成一个独立的基础设施层——需要抽取、去重、更新、权限控制和生命周期管理。
对于做多轮对话、长期任务跟踪的 AI 应用来说,这是下一步的必修课。
八、芯片战争另一面:中国 AI 芯片生态升温
社区整理了华为、阿里、百度、沐曦、摩尔线程、壁仞、天数智芯等路线图。争论也很直接:硬件参数是一回事,软件栈和量产更关键。华为 950 SuperPOD 的进展也引发了讨论。这场竞争远未结束,NVIDIA 的护城河不是不可逾越的,但追赶者的挑战也不只是晶体管数量。
九、NVIDIA NeMo AutoModel:MoE 训练加速
NVIDIA 声称 NeMo AutoModel 通过 Expert Parallelism、DeepEP 和 TransformerEngine 内核,让 MoE 模型训练吞吐提高 3.4–3.7 倍。MoE 是当下大模型训练的核心架构方向之一,这个优化工具意味着训练成本可能进一步下降。
十、推理部署继续卷:SkyPilot、Modal、DFLASH
SkyPilot 推出统一推理 Endpoints;Modal 称开源推理方案延迟优于闭源服务;DFLASH 的草稿模型在真实解码中带来 30–50% 的提升。推理层的竞争,已经从"能跑起来"进化到了"跑得又快又便宜"。这对模型服务商和开发者都是好消息。
十一、Qualcomm 收购 Modular:AI 编译器格局生变
Chris Lattner(LLVM 和 Swift 的作者)宣布 Qualcomm 将收购 Modular。Modular 表示 Mojo 的开源计划仍会继续推进。这意味着 AI 编译器和非 CUDA 推理栈的竞争将更加激烈。NVIDIA 的 CUDA 垄断不是第一次被挑战,但这次有了一个重量级的新玩家。
十二、AI 资金与人才:热钱继续涌
Mirendil AI 以 2 亿美元种子轮亮相;英国 BOLD Lab 和 SOFAIR 获 6000 万英镑;Google DeepMind 到 Anthropic 的人才流动继续。Arthur Conmy(Mechanistic Interpretability 研究者)也宣布加入 Anthropic。这行业的"吸金能力"还在指数级增长。
十三、安全与治理:出口管制、芯片追踪、数据中心噪音
几个值得注意的安全相关新闻:
- Anthropic 卷入出口管制诉讼、漏洞测试争议和蒸馏指控
- 美国 Chip Security Act 拟要求高端 AI 芯片加入位置追踪机制,防止流向受限地区。社区担忧安全和隐私风险
- 弗吉尼亚数据中心因噪音问题遭居民投诉,Carmack 也加入讨论。AI 基建的"社会成本"正在浮出水面
十四、今日值得一看的产品和论文
- OpenThoughts-Agent:100 多组消融实验,构建 10 万样本训练集微调 Qwen3-32B,在 7 个 Agent 基准上平均 44.8%。结论:指令、轨迹长度和数据来源都很关键
- Kimi API 上架 AWS Marketplace:对企业来说,重点不是新能力,而是采购流程更方便了
- Seedance 被用于 3D 转动漫视频:日本动画师的 workflow 被 Reddit 曝光,3D 场景做运动构图 + AI 渲染,比纯文生视频更容易保持长视频一致性
- ChatGPT 照片修复暴露"身份漂移":老化再修复测试生成了"看起来合理但不是本人"的脸。这是补全生成,不是忠实还原
📌 以上信息来自 easy-learn-ai 2026-06-25 的每日动态更新,由社区整理和追踪。原始来源链接可在 easy-learn-ai 的 data/daily/md/2026-06-25.md 中找到。
#easy-learn-ai #每日更新 #AI行业动态 #记忆 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。