📰 Easy AI日报 | 2026-01-29

📅 2026年01月29日 AI行业动态

#### 模型与能力 ##### Kimi K2.5：开放模型里的新顶流 Moonshot 的 Kimi K2.5 在 LMArena/Arena 文本榜拿到开放模型第1，STEM、编码表现突出。社区实测：编码能力接近 Claude Opus 4.5，价格却只有其约 10–20%，还能本地部署（1T MoE，经 Unsloth 量化后 240GB 级别 GGUF 可跑），但存在用词啰嗦、用 token 多、仍会幻觉等问题。 > 相关链接：Text Arena 榜单｜Kimi 官方介绍推文｜Kimi-K2.5 GGUF（Unsloth）｜本地跑 Kimi K2.5 教程（Reddit）

##### Kimi K2.5 系统提示词与工具链被泄露 有人公开了 Moonshot Kimi K2.5 的完整 system prompt 和工具配置（约 5K token），包括记忆 CRUD 协议、工具 schema、上下文注入和安全规则。这相当于一次官方“设计文档”泄露，对想复刻高质量助理人格、记忆机制和长对话稳定性的开源项目很有参考价值。 > 相关链接：泄露内容仓库｜Kimi 分享链接｜相关讨论（Reddit）

##### Trinity Large：400B 开源 MoE 登场 Arcee/Prime Intellect/Datology 发布 Trinity Large：400B 稀疏 MoE，推理时仅激活 13B 参数，256 experts、每 token 用 4 个（约 1.56% 路由）。开放权重+宽松协议，主打“前沿能力 + 部署成本可控”，已在 Cline、OpenRouter 等接入。 > 相关链接：Arcee 技术报告｜OpenRouter Trinity-Large-Preview｜发布讨论（X）

##### DeepSeek-OCR 2 发布：更像“人眼”的版面理解 DeepSeek 推出 DeepSeek-OCR 2，引入新 DeepEncoder V2，用“先整体理解再决定阅读顺序”的视觉因果流程，显著降低编辑距离。社区反馈 V1 在页眉页脚、浅色文本上会漏，现在期待 V2 修复；有人在找线上 API 以便直接集成。 > 相关链接：DeepSeek-OCR 2 宣传贴｜在线 Demo

##### Z-Image Base / Turbo：新一代开源文生图 阿里通义推出 Z-Image Base 与 Turbo 模型，主打高质量+高效率。Base 步数多、画质更精致；Turbo 步数少、约 7 秒出图，观感更“真实”。社区实测 12GB 显存也能跑，适合本地部署和二次微调，Stable Diffusion 圈评价是“有点像新一代 SDXL”。 > 相关链接：Z-Image 模型页｜发布贴（LocalLLaMA）｜Base vs Turbo 对比讨论

##### DeepMind AlphaGenome 开源权重 Google DeepMind 宣布开放 AlphaGenome 模型及权重，用于预测基因变异对分子层面的影响。官方称内部 API 已有超百万次日调用、3000 多用户，现放出 Hugging Face 集合，降低生物信息和药物研发团队的进入门槛。 > 相关链接：DeepMind 官方宣布｜权重链接合集｜权重镜像讨论

##### NVIDIA 推 NVFP4 版本 Nemotron 3 Nano NVIDIA 发布 NVFP4 精度的 Nemotron 3 Nano，宣称在 Blackwell B200 上吞吐可达 BF16 的 4 倍，精度保持 99.4%，靠的是量化感知蒸馏（QAD）。vLLM 已快速支持这一格式，意味着后续 4bit 近似 FP 的主流化速度会加快。 > 相关链接：NVIDIA AI Dev 推文｜vLLM 支持 NVFP4

##### MongoDB LEAF：把“大模型嵌入”蒸馏到 CPU 可跑 MongoDB Research 提出 LEAF：离线用大模型对文档算嵌入，线上查询改用小模型，对齐训练后可保留约 96% 质量，模型体积缩小 5–15 倍，查询吞吐最高快 24 倍，还能在 CPU / 边缘设备跑。这相当于把“嵌入推理”也做成蒸馏默认形态。 > 相关链接：LEAF 概述

##### Kimi / GPT / Claude：前沿模型“个性分工” 有分析把前沿大模型分成“探索型”和“执行型”：GPT‑5.2 更适合大范围搜索和深度推理（exploration），Claude Opus 4.5 则偏稳定可靠的 exploitation，用 token 少、结果稳。推论是：科研工作流更适合 GPT，生产级业务更偏向 Claude。 > 相关链接：模型“性格”分析贴

---

#### Agent 与工具链 ##### Agent 技能体系正在成型：从提示词到“技能文件” DeepLearning.AI + Anthropic 推了“Agent Skills”课程，强调把流程逻辑从 prompt 抽成可复用的“技能文件”；LangChain 也在推 Skills 概念；Hugging Face 给出 upskill 案例：用强模型执行轨迹合成技能，再迁移到弱模型，某些 CUDA kernel 任务准确率可拉高 45%，也可能拉跨，提醒必须按模型评估。 > 相关链接：Andrew Ng 课程介绍｜LangChain Skills 讨论｜HF upskill 介绍

##### Agent 评测：从单轮到多轮，必须“看轨迹” 社区共识在收敛：Agent 评估不能只看单轮输出，要基于完整调用轨迹做单步/整轮/多轮对比。SWE-fficiency 开源了自动化编码 agent 的评测 harness；CooperBench 专门测多 agent 协同；安全侧有 AgentDoG 尝试沿整个轨迹找出危险动作的根因。 > 相关链接：SWE-fficiency 仓库｜CooperBench 介绍｜AgentDoG 安全评估

##### LM Studio 0.4：本地模型“变成服务” LM Studio 0.4 发布，支持 headless 模式和有状态 REST API，可在无 GUI 服务器、CI/CD 上部署本地模型，并行处理请求，还内建 MCP 支持。Discord 用户还挖出运行时里隐藏的 ROCm 选项，意味着 AMD GPU 也能加速。 > 相关链接：0.4.0 发布博客｜社区讨论（Discord 摘要）

##### Cursor：自动模式限额 + CLI 反而更受欢迎 Cursor 调整收费后，Auto 模式不再无限，用量计入每月 $20 配额，超出按 token 收费，部分用户几天就“刷爆”。同时 IDE 中 revert 按钮偶现消失 bug。大项目用户开始用 Cursor CLI 搭配自家键盘/终端，图形界面只做展示。 > 相关链接：定价变更讨论｜Cursor 社区反馈节选

##### Clawdbot / Moltbot：把你所有 API Key 接管走的“总控 agent” 多个社区（OpenAI、Cursor 等）在警告 Clawdbot/Moltbot：它要求集中托管 OpenAI、Google、Anthropic 等 API key，由一个 agent 统一调用。问题是：一旦被入侵或被 prompt 注入，攻击者可直接批量调用所有 key，被形容为“现在存，未来(量子)解密”的风险池。 > 相关链接：OpenAI Discord 警告｜Cursor 社区讨论

##### LeetCode MCP：把刷题直接接入 Claude 有开发者发布 LeetCode MCP server，让 Claude 能在终端里直接登录 LeetCode、拉题、要提示、提交答案，相当于“用 Claude 帮你刷每日一题”的官方 workflow。后续计划扩展到 Cursor / JetBrains 插件。 > 相关链接：LeetCode MCP GitHub

##### Prompt 工程：紧张感和“微提示”确实会改变输出 Prompt 社区流行两种小技巧：1）加时间压力句式（“你只有30秒，说一个我忽略的点”）来逼模型给更直接的结论；2）“微提示”——用极短命令+动作词（audit/clarify/simplify）分步调用模型，替代一大段背景。有用户提醒：对深度推理模型，这可能牺牲思考深度换速度。 > 相关链接：紧迫感 prompt 讨论｜Micro‑prompting 讨论

---

#### 基础设施与硬件 ##### 本地跑 Kimi K2.5：苹果双 M3 Ultra 也能扛 有人用两台 512GB 内存的 M3 Ultra Mac Studio + Thunderbolt 5 RDMA，跑 Kimi K2.5 量化版可到约 24 token/s。配合 Unsloth 1.8bit 动态量化，磁盘占用从 600GB 降到 240GB，本质是把“1T 等级”模型拉进高端个人机可玩的范围。 > 相关链接：双 M3 Ultra 实测推文｜量化模型说明

##### GPU MODE / Decart：H200、Trainium 3 上挤干 1TB 模型 Decart 招募内核工程师，主攻 Trainium 3 和实时视频模型 Lucy 2；同时有教程展示如何用 INT4 QAT+RL 在单张 H200 上滚动部署 1TB 级模型。社区也在讨论 DGX vs RTX 5090：前者 1.8TB/s 带宽碾压 5090 的 300GB/s，算力瓶颈更多在内存与 L2 设计。 > 相关链接：Lucy 2 技术贴｜INT4 QAT RL 教程

##### tinygrad / GPU MODE：调优工具链在补齐“可视化”短板 tinygrad 新增 AMD 模拟器，支持 DEBUG=3/6 打印编译与运行期指令，方便在无真卡环境下调 kernel；GPU MODE 里则有人吐槽搞量化的人还没做一套好用的交互式数值可视化工具，目前勉强用 captum 之类库“凑合看”，UI/UX 完全不够用。 > 相关链接：tinygrad PR #14387｜GPU MODE 讨论串

---

#### 研究与方法 ##### Goodfire：用可解释性“挖”出阿尔茨海默新生物标志物 Goodfire 报告称，在生物医学基础模型上做机械可解释性，成功从中挖出一类新的阿尔茨海默相关生物标志物，并经实验验证。这被他们视作一条可复用路线：先让模型在科研任务上“超人”，再用解释性去找可落地的科学假设。 > 相关链接：Goodfire 线程

##### LingBot‑VLA：机器人数据越多，通用操作模型确实在涨功 有长文总结 LingBot‑VLA 的结果：真实机器人抓取/操作数据从 3k 小时堆到 20k 小时，VLA 的成功率仍在稳步上升。架构上用 Qwen2.5‑VL 做视觉语言，再接一个 action expert 并共享注意力，在 GM‑100 基准上超越 π0.5 等先前方案。 > 相关链接：LingBot‑VLA 解读

##### MergeMix：用“模型合并”反推最优数据配比 Nous 社区关注的 MergeMix 论文提出：在训练中段把不同数据子集上训练的模型做可学习的合并，用合并效果来指导数据混合比例的优化。对预算有限的开源团队，意味着可以用较少实验尝试出更合理的训练数据配方。 > 相关链接：MergeMix 论文

##### Flow Matching vs Diffusion vs 自回归：范式之争回到数学本身 Yannick Kilcher 社区在激烈讨论：1）Transformer 完全可以参数化 flow matching 的向量场，本质是训练目标不同；2）扩散和 flow matching 在数学上很接近，别被复杂推导吓住；3）“扩散一定优于自回归”并不成立，很多是现有 AR 架构设计上的折衷。 > 相关链接：Flow matching 讨论｜自回归改进提案

---

#### 产品与应用落地 ##### Google 把 Gemini 3 深度塞进 Chrome 和搜索 Gemini 3 现已驱动全球 AI Overviews。Chrome 同时上线侧边栏、应用深度集成、Nano Banana 图像编辑，以及“Auto Browse”多步网页代办功能（先在美国 Pro/Ultra 预览）。前端开发者评价：这是目前浏览器里最像“真 agent”的一版整合。 > 相关链接：Google Chrome 更新线程｜Gemini App 说明

##### Gemini 3 Flash Agentic Vision：会自己“拉近、裁剪、放大”的看图方式 Google 发布 Agentic Vision 能力，允许 Gemini 3 Flash 在推理过程中主动对图像进行裁剪、缩放、局部放大，再结合代码执行做逐步分析。部分前端工程师表示在 UI/视觉分析上已明显强于静态 vision 模型，期待尽快集成到 IDE/agent。 > 相关链接：Agentic Vision 官方博客

##### OpenAI Prism：面向科研的 GPT‑5.2 工作台，口碑“两极分化” OpenAI 推出 Prism，面向科研人员的 GPT‑5.2 Web 工作区，目标是把论文阅读、图表理解、代码实验整合在一个界面。Bubeck 澄清不会“抽成科研成果”。但社区有人认为 Prism 会强化“黑盒科研”，甚至称其“损害科学研究”。 > 相关链接：Bubeck 回应｜Prism 报道存档

##### Cline 3.55.0：支持 Trinity Large 和 Kimi K2.5 的本地编程代理 Cline 新版集成 Arcee Trinity Large（400B MoE，128K 上下文）和 Kimi K2.5（1T MoE，256K上下文、SWE‑bench 76.8%），支持从截图生成 UI 代码并自我修复。ChatGPT Plus/Pro 用户还能直接用 GPT‑5 系列，无需 API key。 > 相关链接：Cline 3.55.0 更新说明

##### DeepSeek-OCR 在实际文档场景中的痛点与期待 用户回顾 DeepSeek-OCR 1 的体验：版面理解强，但容易漏掉页眉页脚、反色文字等内容；同时有人在找 DeepSeek-OCR 2 的现成云 API，以便在流水线里替换传统 OCR。这类模型越来越被当作“结构化抽取”基础设施，而不仅是识别。 > 相关链接：用户讨论串

---

#### 行业与公司动态 ##### Moonshot Kimi K2.5：定价、牌照与出海的三重博弈 Kimi K2.5 在中国内外都大火：月订阅价约 $19，很多人觉得本地薪资水平下略贵；许可证要求大 DAU/高营收产品必须显著标注“Kimi K2.5”并受额外限制，被批评为阻碍大企业采用；同时社区强烈希望它尽快登陆 Perplexity、OpenRouter 等聚合平台。 > 相关链接：许可与品牌要求讨论｜Perplexity 社区期待接入

##### Arena（原 LMArena）改名+大改版，引发一轮“UI 骂战” LMSYS 的 LMArena 更名为 Arena（arena.ai），UI 变得非常像 Claude 网页版，还上了 Google 登录和更强验证码。老用户吐槽：登录困难、验证码疯狂、缺少 STOP 按钮和老表情；好处是新增 Code Arena 等子榜，Kimi K2.5 Thinking 也在这里拿到开源第一。 > 相关链接：改名博客｜Text Arena 榜单

##### Trinity 训练成本曝光：约 35 万美金 Unsloth 社区分享 Arcee Trinity Large 训练成本，大约 35 万美元级别（400B MoE 但实际激活 13B）。这个数字一方面说明 MoE 确实能在“类前沿能力”上压成本，另一方面也给开源圈一个现实参照：真正大的模型依然烧钱。 > 相关链接：Trinity Large Tech Report

##### Perplexity 被骂“订阅骗局”：扣费混乱+限额改来改去 Perplexity Discord 里不少用户抱怨被自动续费后体验缩水：有的被扣费却用不了服务，有的 Pro 账户查询上限莫名降到每小时 1 条、又突然恢复。部分人准备找银行/监管投诉，给其它 AI SaaS 提了个清晰反例：别在计费规则上玩“黑箱”。 > 相关链接：Perplexity 订阅争议

##### OpenRouter：一边接 Trinity/Kimi，一边退款排长队 OpenRouter 一方面上线 Trinity-Large-Preview 等新模型，推“前沿开源网关”形象；另一方面有不少用户反映退款要等数周甚至一月以上，支持工单无人回应。说明多模型聚合平台在对接计费、退款流程上还远没到云厂商成熟度。 > 相关链接：OpenRouter Trinity 发布｜退款问题讨论

##### Flapping Airplanes 实验室获 1.8 亿美元融资 一支新 AI 实验室 Flapping Airplanes 宣布融资 1.8 亿美元，投资方包括 GV、红杉、Index 等一线机构。Karpathy 评论说，新研究型创业公司仍有机会在局部做到比巨头好一个数量级。 > 相关链接：融资宣布｜Karpathy 点评

---

#### 政策、治理与安全 ##### “魔法字符串”让 Claude 强制拒答，红队在研究把它当“断路器” BASI Jailbreaking 社区找到一串特殊 token，插进对话就能几乎 100% 让 Claude 进入拒答模式，被形容为“安全断路器”。有人设想未来可以把这类机制标准化：一旦检测到高风险轨迹，就注入字符串硬刹车。 > 相关链接：Discord 讨论节选

##### Gemini / DeepSeek / Kimi：安全策略与审查的副作用 Gemini 被多次证明可以通过系统 prompt 绕过脏话/敏感内容过滤；DeepSeek 在被“越狱失败”后容易陷入无限重复拒答循环；中国模型的思维链里还能看到显式过滤语句。这些例子说明当下安全策略大多是“外贴一层规则”，容易被看穿、也容易损伤可用性。 > 相关链接：Gemini 越狱经验｜DeepSeek 拒答循环讨论

##### Clawdbot / Moltbot 再被点名：典型的“集中密钥风险” 多个社区把 Clawdbot/Moltbot 当负面案例：它不是传统恶意代码，但一旦 UI 面板暴露或遭到 prompt 注入，就可能批量调用用户上传的所有云商 API key。大家开始反思：agent 产品到底该不该“帮你统一管理所有 key”，还是应该默认本地、最小权限。 > 相关链接：OpenAI 服务器讨论｜Cursor 社区安全提醒

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学