📅 2026年01月15日 AI行业动态
#### 模型与能力 ##### OpenAI 发布 GPT‑5.2‑Codex:长周期编码模型上线多家 IDE OpenAI 将 GPT‑5.2‑Codex 上线到 Responses API,定位为当前最强“长任务”编码模型,可做大规模重构、找 bug,并被官方称为最擅长发现代码库安全漏洞的模型。Cursor、GitHub Copilot 等已第一时间集成,并开始在真实项目中跑长时间代理工作流。 > 相关链接:OpenAI Dev 公告|Cursor 集成说明|GitHub @code 集成
##### GPT‑5.2‑Codex 连续一周自主写浏览器:长时代理的实测案例 有团队在 Cursor 中用 GPT‑5.2 连续运行一周,生成 300 万行 Rust 代码,完成 HTML 解析、CSS 布局、绘制、JS VM 等,简单网页已能跑。这个案例成为“长时间连续代理”能力的标志,也让大家更重视在代理架构中加入强制人工 Review 环节。 > 相关链接:作者线程|gdb 讨论|关于审阅环路的讨论
##### GLM‑Image、LTX‑2、Veo 3.1:新一波多模态与视频模型 Zai 开源混合自回归+扩散图像模型 GLM‑Image,在文字渲染和知识型生成上表现突出;LTX‑2 作为开源视频模型,可生成最长 20 秒 4K 带声视频;Google Veo 3.1 增加竖屏、以图生视频和 1080p/4K 超分,已接入 Gemini、YouTube、AI Studio。 > 相关链接:GLM‑Image 代码与介绍|GLM‑Image 博文|LTX‑2 展示|Veo 3.1 更新
##### ERNIE‑5.0 进入 Text Arena 前十:首个上榜的中文大模型 ERNIE‑5.0‑0110 在 LMArena 文本榜单拿到总分 1460,排第 8,在专家模式排第 12,是首个进入 Top10 的中文模型,在数学和职业场景分项表现突出。 > 相关链接:Text Arena 排行榜|Leaderboard 变更日志
##### 本地大模型实测:16GB 显存大约适合 14B 级模型 Reddit 多帖讨论 16GB 显卡能跑多大的本地模型:共识是 14B 左右较合适,既能留足上下文,又不用极端量化。30B 虽可通过深度量化和 CPU offload 勉强跑,但速度和质量都不理想,实际体验不如 14B。 > 相关链接:16GB 显存可跑多大模型讨论
##### 小设备本地跑 120B 模型的意义:便携隐私优先,而非性能 TiinyAI 推出一款 30W 功耗、80GB 内存、号称可本地跑 120B 模型的小主机。社区质疑其内存带宽和定价,但认为在断网、隐私要求极高或被审查环境下,本地超大模型设备有独特价值。 > 相关链接:TiinyAI 设备讨论
##### 数学专项 Gemini 与 GPT‑5.2 在困难数学题上出现新成果 Google 的数学专项 Gemini 被称已证明一个新定理,另有工作用 5.2 Pro 在 Moser 虫子问题上刷新上界,并经 INRIA 数学家验证。实践表明,只要屏蔽网络、提供工具和文献、强制模型“死磕”,前沿难题也能取得实质进展。 > 相关链接:Gemini 数学定理论文|5.2 Pro 解决 Moser 问题推文
---
#### Agent 与工具链 ##### LangSmith Agent Builder 上线:官方给你一套“多代理工程脚手架” LangChain 推出 LangSmith Agent Builder,用“文件系统视角”管理代理,内置记忆、触发器、技能/MCP/子代理等。官方也给出实践建议:绝大多数场景先用单代理,只有遇到上下文、所有权或分解瓶颈再拆多代理。 > 相关链接:LangSmith Agent Builder 发布|多代理模式与最佳实践
##### “技能”成为通用插件层:Antigravity、MCP、CLI 正在收敛 Phil Schmid 为 antigravity 推出 Agent Skills 规范,用固定目录结构存放技能,在 Gemini CLI、Claude Code、OpenCode 等之间复用。HF 工程师认为,相比庞大插件生态,小而垂直的技能 + CLI/MCP 组合,更容易长期维护。 > 相关链接:Agent Skills 介绍
##### Claude Code、Cursor、Windsurf 等 IDE 争抢 GPT‑5.2‑Codex 长任务场景 Cursor 称 GPT‑5.2‑Codex 是“长时间任务前沿模型”,Windsurf 已内置并提供 0.5x–2x 不同推理强度价档;社区在测试其规划能力,有人吐槽 Codex 版在规划上甚至不如通用 GPT,需要更好的工作流和审阅机制兜底。 > 相关链接:Windsurf 宣布支持 GPT‑5.2‑Codex|Cursor 社区反馈
##### Claude Code /compact 丢上下文之谜:社区给出本地文件+检索替代方案 用户发现 Claude Code 的 /compact 会在服务端只保留摘要,原文难以恢复,导致“记忆蒸发”。社区提出做法:先把长消息写入本地文件,压缩后只保留摘要+文件引用,再通过本地全文检索按需拉回细节,类似 Cursor 的动态上下文发现。 > 相关链接:社区改造 /compact 讨论
---
#### 基础设施与硬件 ##### OpenAI 与 Cerebras 结盟:推理速度正式变成“产品特性” OpenAI 宣布与 Cerebras 建立算力合作,被视为对 Groq 等专用推理硬件的回应。Cerebras 正在用自家芯片高吞吐服务 GLM‑4.7 等模型,业界普遍认为延迟和 tokens/s 已变成 ChatGPT 类产品的核心差异点,而不只是底层基础设施指标。 > 相关链接:Cerebras 官方公告|OpenAI 合作说明
##### GLM‑4.7 多家服务商横评:Cerebras 吞吐最高,GPU 方案上下文更长 Artificial Analysis 对多家 GLM‑4.7 服务商做了对比:Cerebras 约 1445 token/s,TTFAT ~1.6s;Fireworks、Baseten 等 GPU 方案吞吐略低,但大多支持 200k 上下文(Cerebras 约 131k),可配合不同缓存和折扣策略。 > 相关链接:GLM‑4.7 供应商评测
##### Modal、自建推理与 2 万块 GPU 运维经验公开 Modal 发文称在很多场景自建推理已经能比公有 API 更便宜,并给出代码示例和经验。SemiAnalysis 同时解读了 Modal 如何运营 2 万块 GPU 集群,vLLM、FlashInfer 等配合大批量推理,把 H100 利用率“榨干”。 > 相关链接:Modal 自建推理指南|SemiAnalysis 解读 Modal 运维|vLLM 批量推理实践
##### Helion 0.2.10、FP8 Primer:训推一体栈继续往低精度走 NVIDIA 发布 TransformerEngine FP8 教程,社区讨论未来 NVFP4 训练格式;PyTorch Helion 0.2.10 支持 flex attention 示例 kernel 和 SM oversubscription,使持久内核在负载抖动时利用率更稳定。 > 相关链接:TransformerEngine FP8 教程|Helion 0.2.10 发布
##### NVLink 6 与多 GPU 一致性:实测和模型开发者的疑问 GPU MODE 社区在寻找 NVLink 6“72 块 GPU 像一块卡”这一宣传语背后的真实收益,希望看到跨 GPU 一致内存的基准数据。讨论集中在 B200 不稳定、NCCL 在多节点 8B 训练挂死等现实问题上,说明硬件规格到实际收益之间还有不少坑要填。 > 相关链接:NVLink 讨论摘录
---
#### 研究与方法 ##### DroPE、Engram、Ministral3:长上下文与“小大模型”的几条新路 Twitter 上有三条研究线被工程师讨论:DroPE 主张直接去掉 RoPE 再微调以改善长上下文;DeepSeek/PKU 的 Engram 模块用哈希 O(1) 稀疏记忆表把“记忆”从计算中分离;Mistral 的 Ministral3 报告系统总结了层剪枝、PCA 旋转、在线 DPO 等小模型瘦身配方。 > 相关链接:DroPE 讨论|Engram 介绍|Ministral3 解读
##### 多模态 RAG 新方案 UniversalRAG:先选模态再检索粒度 UniversalRAG 提出不要把所有模态硬塞进一个向量空间,而是先做模态路由,再在段落、整文、图像片段、视频片段等不同粒度间检索。路由可训练也可用大模型零样本决策,在 10 个多模态检索基准上都有明显提升。 > 相关链接:UniversalRAG 介绍|ViDoRe V3 基准
##### VLM 榜单并不稳:VPBench 展示“换个颜色就掉段位” VPBench 发现,只是把图里的标记颜色从红换成蓝,就足以让很多视觉大模型在榜单上的名次大幅波动。对天天刷 leaderboard 的人是个提醒:细微呈现差异会放大成“性能差距”,结论要谨慎解读。 > 相关链接:VPBench 论文讨论
##### Spectral Sphere Optimizer:在“谱球面”上训练 LLM 新论文提出 SSO 优化器,对权重及更新施加谱约束,使最大奇异值受控,并与 muP 完全兼容,在 Megatron 框架下训练 1.7B 稠密和 8B MoE 模型优于 AdamW、Muon。实测显示激活更稳定、MoE 路由更均衡。 > 相关链接:SSO 论文讨论串
##### SlopCodeBench:系统性暴露“写大项目的代理有多懒” SprocketLab 发布 SlopCodeBench,设计多阶段大型编程任务,发现现有代码代理在早期架构决策和后续“整理重构”上表现很差,经常无法把临时实现抽象成可扩展方案。作者计划投稿 ICLR 工作坊,强调不应靠重度提示工程才能跑得像样。 > 相关链接:SlopCodeBench 基准
##### 上下文管理当作环境:长上下文性能可以“学会”管理 Unsloth 社区分享一篇论文,把上下文视为环境的一部分,让模型学会主动整理、删减、重排上下文,而不只是被动吃长序列。初步结果显示,这种“递归语言模型+代理壳”的思路,能在长上下文场景里显著减缓性能衰减。 > 相关链接:上下文作为环境论文
---
#### 产品与应用落地 ##### Google 推出 Universal Commerce Protocol:给电商代理的一套“标准动作” Google 开源 Universal Commerce Protocol(UCP),让 AI 代理可以标准化地逛商品、加购物车、支付。协议内含 Agent2Agent 工作流、支付协议 AP2、以及与 vLLM/Ollama 等 LLM 栈对接的 MCP。社区关心的点是:有多少零售商会真正接入,以及 Google 会维护多久。 > 相关链接:UCP 仓库|Reddit 讨论
##### 本地健康日志应用 Loggr:用 Apple Silicon+Qwen VLM 做手写 OCR Loggr 在 Apple Silicon 上做离线健康日记,前端自研 NLP 管线,延迟低于 100ms;新增功能是用 Qwen2.5‑VL‑3B/7B(经 MLX 量化)识别手写日记,夜间批处理。社区建议尝试 PaddleOCR 或 MiMo‑VL‑7B‑RL 以提升脏手写效果。 > 相关链接:Loggr 招募测试者|MiMo‑VL‑7B‑RL 模型
##### AI 外联工作坊:Clay + LLM 的“批量私信”流水线教程 Chipro 社区将举办两场“外联提示工程”工作坊,讲如何用 Clay + AI 搭建端到端外联流水线:目标筛选、名单、富化、模板生成、A/B 测试,配合 Apollo、Attio、n8n 等。主办方宣称可以做到 40%+ 接受率和 18%+ 回复率。 > 相关链接:工作坊报名页
##### Manus × Similarweb 爆雷:用户几秒钟烧掉数千积分 Manus 新接入 Similarweb 后,有用户反馈单次运行几秒就消费 2500–5000 点数,完全没提示,客服响应又极慢,引发大量抱怨。大家呼吁增加消费上限、预估提示和“保险丝”,否则企业很难放心接入这类昂贵工具。 > 相关链接:Manus 积分异常讨论
##### Code‑jp:面向本地模型的免费 IDE 有人在 HuggingFace 社区发布 Code‑jp,一款基于开源 VS Code 魔改的本地 AI IDE,支持 Ollama、LM Studio,后续会直接支持 llama.cpp。作者强调完全免费且不依赖 GitHub Copilot 之类闭源后端。 > 相关链接:Code‑jp 官网
---
#### 行业与公司动态 ##### Airbnb 挖走 Meta Llama 负责人当 CTO:开放模型成履历加分项 原 Meta Llama 负责人 Ahmad Al‑Dahle 宣布出任 Airbnb CTO,特别强调 Llama 开源后 1.2B+ 下载、6 万+ 衍生模型。HF CEO 等人解读为:中大型互联网公司也能在开源 AI 和开放科研上起到很大作用,不再只是大厂实验室的游戏。 > 相关链接:Ahmad 加入 Airbnb 声明|Clement Delangue 评论
##### OpenAI/TML 人事洗牌:Soumith 当 CTO,Barret Zoph 回归 OpenAI Mira Murati 宣布 Soumith Chintala 出任 Thinking Machines Lab CTO,Barret Zoph 离任不久后,OpenAI 又宣布 Zoph、Luke Metz、Sam Schoenholz 回归。高端研究人才在 OpenAI 内外轮换,加深外界对其组织架构和研究方向调整的猜测。 > 相关链接:Mira 人事公告|Zoph 回归声明
##### Diffraqtion 融资 420 万美金:想用“量子光学镜头”重建视网膜 AI 视觉创业公司 Diffraqtion 完成 420 万美元 pre‑seed,ADIN 等参投。公司在做可编程量子光学器件,用特定波前形状直接在光学层实现“推理优化”,目标是辅助重建视网膜和更高质量视觉采集。 > 相关链接:融资公告
##### OpenRouter 开源生态加速:awesome‑openrouter & apps 仓库上线 OpenRouter 团队新建 awesome‑openrouter 和 openrouter‑apps 仓库,鼓励社区提交集成案例(如 JanitorAI)和示例应用,希望把多模型、多供应商接入做成更统一的“基础设施层”。 > 相关链接:awesome‑openrouter|openrouter‑apps
---
#### 政策、治理与安全 ##### Chutes 采用 TEE 做“可验证隐私”推理,OpenRouter 生态需配合调整 推理服务商 Chutes 宣布全面迁移到 TEE(可信执行环境)架构,承诺对企业用户提供可验证的隐私保障。由于 TEE 对模型加载和网络有额外限制,OpenRouter 上部分模型(如 R1 0528)暂时下线,后续需按新架构恢复。 > 相关链接:Chutes 架构说明
##### 越狱社区新动向:Grok、Gemini、Llama 3.2 成重点“攻坚目标” BASI 等越狱社区集中讨论如何绕过 Grok 图像安全、Gemini 3.0 Pro 限制和 Llama 3.2 新版安全策略,包括把 jailbreak 写进 Gemini 的个性化设置、利用哲学语录+黑话混淆等。Google AI Studio 被提醒会记录越狱数据用于训练,很多 payload 可能会快速失效。 > 相关链接:BASI 越狱讨论示例
##### 关于 LLM 抽取和版权风险的担忧再次被提起 Eleuther 社区有人担心最近的“LLM 抽取分析”研究会被外界误读:论文展示模型会复现小说人物和情节,这在法律和舆论上可能被放大成“系统性抄袭”,而很多技术背景的细节不容易被非技术读者理解。 > 相关链接:相关抽取论文
---
---
📌 来源: Easy AI 日报 🤖 整理: AI助手
#EasyAI #AI日报 #AI教学