📰 Easy AI日报 | 2026-01-28

📅 2026年01月28日 AI行业动态

#### 模型与能力 ##### Moonshot 发布 Kimi K2.5：开源多模态 MoE 新 SOTA Kimi K2.5 继续用 32B 激活 /1T 参数 MoE 架构，在 HLE、BrowseComp、MMMU Pro、VideoMMMU、SWE-bench 等代理、视觉和代码基准上拿到开源模型第一。模型原生支持图像+视频理解，可从屏幕录屏还原网页，支持 128K→256K 上下文、INT4 部分量化，并已在 HuggingFace、Ollama、Together、Fireworks 等平台上线，部分场景可在本地多卡 Mac 上跑起来。 > 相关链接：官方技术博客｜Moonshot 发布线程｜Zach Mueller 技术拆解｜LMArena 开源模型榜单｜本地运行示例（M3 Ultra）

##### Arcee / Prime Intellect 发布 Trinity Large：400B MoE 西方开源反击 Arcee 联合 Prime Intellect、Datology 推出 Trinity Large 预览版：400B MoE、13B 激活，训练 17T token，3:1 局部/全局 gated attention、SWA、NoPE+RoPE、深度缩放归一化、Muon 优化器等，约 2000 块 B300 连训 1 个月。vLLM 提供首日推理支持，OpenRouter 暂时免费开放。 > 相关链接：Arcee 公告｜Prime Intellect 介绍｜技术要点汇总｜vLLM 支持

##### DeepSeek-OCR 2：学会“阅读顺序”的文档 OCR DeepSeek-OCR 2 在 HuggingFace 上开源，引入 Visual Causal Flow 和 DeepEncoder V2，可将图片压缩到约 256–1120 视觉 token，OmniDocBench v1.5 得分 91.09%（+3.73）。社区评测认为在真实 SOTA 之下但路线值得关注，vLLM 已支持推理。 > 相关链接：模型主页｜vLLM 支持｜Jerry Liu 解读｜社区评价

##### OpenAI Prism：GPT‑5.2 驱动的“科研版 Overleaf” OpenAI 推出免费科研工作区 Prism，整合 LaTeX 写作、协作和文献管理，由 GPT‑5.2 提供改写、引用、检索等能力，对所有 ChatGPT 个人账号开放。官方强调数据使用遵循 ChatGPT 现有策略，不会自动攫取科研成果 IP。 > 相关链接：OpenAI 发布｜产品负责人说明｜数据/IP 说明

##### Qwen 系列：思考版与量化能力进展 阿里 Qwen3-Max-Thinking 宣称推理力接近商用闭源模型，但社区反馈其代码代理模式目前存在编译问题。Qwen3‑32B 在 H100 上做 INT4 量化测试，显示在 MMLU‑Pro 上仅损失约 1.9% 精度，却能将并发用户数从 4 提升到 47（4k 上下文），体现大模型在低比特部署上的潜力。 > 相关链接：Qwen3-Max-Thinking 介绍｜Qwen3‑32B 量化评测

##### Transformers v5 正式版：MoE 加速与大规模提速 Hugging Face Transformers v5 发布，对 MoE 提示 6–11 倍性能提升，并简化 tokenizer/后端配置，动态权重加载更快，支持量化+MoE+并行+PEFT。社区实测：单请求推理快约 50%，并发推理吞吐翻倍。 > 相关链接：Transformers v5 仓库与迁移指南

---

#### Agent 与工具链 ##### Kimi Agent Swarm：最多 100 个子 Agent 并行协作 Kimi K2.5 内置 Agent Swarm（付费用户 Beta），可动态生成多达 100 个子 Agent，最多执行 1500 次工具调用，号称端到端任务耗时可缩短到单 Agent 的约 1/4–1/3。背后采用并行 Agent 强化学习（PARL）训练调度策略。 > 相关链接：Agent Swarm 说明｜技术报告摘要

##### Kimi Code 与 Agent SDK：开源编码助手与私有 Agent 框架 Moonshot 同时发布 Kimi Code 开源编码 Agent（Apache‑2.0），支持常见 IDE/编辑器集成，并给出 Agent SDK 方便开发者构建自定义 Agent 工作流。官方帐号还开始集中发布提示词和场景案例。 > 相关链接：Kimi Code 公告｜Agent SDK 公告｜Kimi Product 账号｜视频转网页 Demo

##### LangChain、Jules 等推动“多子 Agent + 规划评论员”模式 Kimi Swarm、LangChain 子 Agent、Google Jules 的 Planning Critic 展现出共识架构：一个总控 Agent 动态拆任务给并行子 Agent，外加“规划审稿人”先批判再执行。Jules 声称通过计划评论器可降低约 9.5% 任务失败率。 > 相关链接：LangChain 子 Agent 模式｜Jules Planning Critic

##### IDE 侧 Agent：Cursor、VS Code MCP 等持续演进 Cursor 强调语义搜索索引大型代码库后，Agent 质量和响应速度显著提升；VS Code 正在增强“命令执行解释”等安全 UX，并通过 MCP Apps 让工具服务器直接返回 UI 组件（如智能灯控制面板）。 > 相关链接：Cursor 语义搜索更新｜VS Code Agent 体验更新｜MCP Apps UI 示例

##### 多 Agent 编程助手实践：Claude “蜂巢” 与 Autogen/CheshireCat 等 社区有人基于 Claude Code 搭了 7 个专职 Agent（写代码、测试、评审等）共享 SQLite+FTS5 记忆的“蜂巢”，以 MCP 服务器形式接入，也被拿来对比微软 Autogen、BMAD 等多 Agent 框架。CheshireCat 企业版则主打多租户 Agent 工作流。 > 相关链接：Claude 多 Agent 项目｜Microsoft Autogen｜CheshireCat 核心仓库

##### Karpathy 明确押注“Agent First 编程” Andrej Karpathy 公开表示将工作流迁移到以 Claude 等 LLM Agent 为核心，让模型持续改代码、跑实验、人只做监督，认为“模型永不疲倦”是关键优势。这与 Manus、Cursor 等产品的 Agent 化路线高度一致。 > 相关链接：Karpathy 相关帖子

---

#### 基础设施与硬件 ##### Unsloth：MoE 训练提速 14×，目标 30× Unsloth 宣布基于新内核和 Transformers v5，MoE 训练已经比 v4 快约 14 倍，并计划再翻倍达到 30×。同时支持最新 vLLM/Transformers 生态，主攻低成本在消费级/云 GPU 上训大 MoE 模型。 > 相关链接：官方加速公告

##### FlagOS：试图打通“模型–系统–芯片”的统一栈 GPU MODE 社区提出 FlagOS，目标是做一个开源系统软件栈，把模型、系统、芯片三层打通，让 AI 负载在不同硬件之间更易迁移和调优，强调从 ML 系统、编译器到硬件共设计的经验沉淀。 > 相关链接：FlagOS 讨论线程

##### Tinygrad 与 Megakernel：从 FlashAttention 到“GPU 上的 OS” tinygrad 社区已能从朴素 attention 前端自动重写生成 FlashAttention 内核，并探索把模型编译成大一体 Megakernel，减少调度和显存往返。George Hotz 引用 Luminal 文章，认为未来 GPU 更像跑一个内置“操作系统”的大内核。 > 相关链接：Megakernel 博文

##### 多 GPU / 老显卡本地 LLM：带宽和散热是硬伤 Reddit 和 Eleuther 讨论用二手 Tesla 等堆到 200GB+ VRAM 跑大模型。实测瓶颈多在 PCIe 带宽和大 prompt 预填充速度而非 token/s，散热和功耗也不划算。很多 benchmark 还没覆盖“多卡切片大模型在线服务”这一真实场景。 > 相关链接：本地多 GPU 基准与讨论

##### FlashInfer-Bench / MLSYS26：开源推理内核竞赛数据集放出 FlashInfer 团队在 HuggingFace 发布推理 trace 和专门为 MLSys 2026 大赛准备的工作负载数据集，并计划做双周排行榜，方便大家在统一数据上优化解码内核、MoE 内核等。 > 相关链接：通用 trace 数据集｜MLSys26 竞赛数据集

---

#### 研究与方法 ##### 数学证明：LLM“永远会幻觉”，越越狱越严重 一篇在 BASI 讨论的论文从理论上证明，在当前范式下 LLM 不可能彻底杜绝幻觉，很多 jailbreak 技巧正是利用了这一点。社区指出，越狱会把模型语境拉偏，使其不再识别本应标记为恶意/不可靠的内容，从而进一步放大幻觉与安全风险。 > 相关链接：论文：On the Inevitable Hallucinations of LLMs

##### Anthropic 生物风险论文：微量微调即可“解锁”被压制能力 Anthropic 新论文表明，把开源模型在前沿闭源模型输出上做少量微调，就能恢复甚至增强本被安全训练压制的生物风险等危险能力，且算力需求不高。Eleuther 社区认为这证明“仅靠拒答”非常脆弱，开源模型的双重用途风险被低估。 > 相关链接：Anthropic 论文 PDF｜官方推文

##### DeepPlanning 等长程规划与 RL 提效研究 DeepPlanning 提出可验算约束的长程任务基准（多日旅行、购物等），显示当前 Agent 在真实规划上仍吃力。PrefixRL 等工作尝试用“前缀条件”重用旧轨迹，让复杂推理 RL 收敛速度提升约 2 倍。 > 相关链接：DeepPlanning 讨论｜PrefixRL 讨论

##### 多语种 scaling law 与 FrontierMath：离“解决数学研究问题”还很远 Google Research 的 ATLAS 给出多语种大模型在数据配比与模型大小上的 scaling law 指南；Epoch 的 FrontierMath: Open Problems 榜单开放给模型挑战，目前还没有任何 AI 解出收录的真·数学难题，用来校准对“AI 研究员”能力的预期。 > 相关链接：ATLAS 多语种 scaling law｜FrontierMath 基准

##### MergeMix：用“可学习模型合并”调数据配比 MergeMix 提出在训练中期通过“可学习的模型合并”来自动搜索更优数据混合比例，面向预算有限的开源项目。社区认为对想在有限算力下挤出更多性能的团队很实用。 > 相关链接：MergeMix 论文

---

#### 产品与应用落地 ##### Kimi K2.5 办公网 Agent：大体量“综述+写作”场景落地 K2.5 在国内用户中被大量用于报告撰写、资料汇总等长文档办公场景，Moonshot 专门做了“Office Productivity / K2.5 Agent”，强调从多文档检索到成稿的一站式自动化，部分公司已经用它替代传统周报/分析报告流程。 > 相关链接：K2.5 办公 Agent 介绍图

##### Gemini AI Studio 大幅降配：长上下文用户被迫找替代品 Google 下调了 Gemini AI Studio 免费额度，并被曝 Pro/Ultra 实际“热内存”仅 32k–128k token，远低于宣传的百万级，用户抱怨 Pro 体验甚至不如免费版。很多依赖长上下文工作流的用户开始转向 Grok 4.1（2M）和 Claude Sonnet 4.5（1M）等方案，或改用向量检索替代生吃大上下文。 > 相关链接：上限缩水讨论帖｜AI Studio 限额公告讨论

##### Perplexity Pro 与 Kagi：用户开始用“钱包”投票 Perplexity Pro 用户频繁遇到搜索和图像生成被限流、计费不透明等问题，特别是印度地区支付失败，部分人考虑转向主打隐私和 Claude 接入的 Kagi 搜索。说明“类浏览器问答”赛道已经从模型能力拼到稳定性与计费体验。 > 相关链接：Perplexity Discord 投诉串

##### 本地代码助手：Qwen Coder + Cline/LM Studio 的真实门槛 在 8GB VRAM + 32GB RAM 的大众配置下，大家实测 Qwen2.5/3 Coder 7B/30B 是可用上限，但结合 Cline 等多 Agent 插件时很容易遇到 CUDA 内存错误，需要手动降上下文长度和仔细调参数，本地“Copilot 级体验”离即插即用还有距离。 > 相关链接：LM Studio 硬件与模型讨论

---

#### 行业与公司动态 ##### 中美开源大模型“反向碾压”：Kimi K2.5 vs 西方闭源 Kimi K2.5 在多项代理、代码和多模态基准上接近甚至超越 Claude Opus 4.5、Gemini 3 Pro 等闭源模型，且以开源权重形式发布。部分分析认为，中国开源/廉价模型在企业侧已经对美国封闭模型形成明显性价比优势，a16z 也称 80% 初创在用中国产开源模型。 > 相关链接：Artificial Analysis 榜单解读｜Reddit 投资视角长文

##### MiniMax M2.2、Qwen 新型号等：春节前中资实验室密集“放烟雾” MiniMax 预告 M2.2，“M2.1 已够强，M2.2 再升级”，社区期待其与 GLM 5 搭配在本地编码上的表现；Qwen 官方也在 ComfyUI PR 和 Twitter 通过 Z-Image 等名称暗示新一波视觉/多模态模型即将上线，典型“过年压轴发布”节奏。 > 相关链接：MiniMax M2.2 预告｜Qwen 新模型预热

##### Trinity Large 等“美国回归”：从微调回到从零预训练 Trinity Large 的出现被圈内视作“美国这边终于又有人从头训大模型，而不只是玩后处理和评测”。借助 Datology 提供的大规模精调数据和 Prime Intellect 自建算力，这条线如果跑通，会给西方开源注入新鲜血液。 > 相关链接：Trinity Large 发布讨论

##### Clawdbot 更名 Moltbot：安全与商标双重压力 热门编码 Agent Clawdbot 因与 Anthropic“Claude”商标冲突被迫更名为 Moltbot，更严重的是社区曝出其可无授权读取环境变量等敏感信息，被质疑为“零权限爬所有密钥”的安全雷区，多个社区开始明确劝退使用。 > 相关链接：更名公告｜安全问题视频

##### Decart 发布 Lucy 2，招人做实时视频模型内核优化 Decart 发布自回归视频编辑模型 Lucy 2，并在 GPU MODE 频道招工程师，重点是为实时视频/世界模型写低延迟 kernel，在 Trainium 3 等新加速器上跑。工作内容和传统 LLM 推理不同，偏视频和世界建模。 > 相关链接：Lucy 2 技术报告

---

#### 政策、治理与安全 ##### AI 检测工具“乱杀真人论文”：学术场景误伤严重 OpenAI Discord 等多处反馈，现有 AI 文本检测器把 GPT 出现前的论文也判成“AI 生成”，准确率极差，但高校和招聘仍在用。对研究者和学生来说，等于多了一层随机噪声审核。 > 相关链接：OpenAI 服务器讨论

##### Gemini Pro 实际上下文缩水被质疑“消费欺诈” 用户通过实验发现 Gemini Pro 热上下文实际只有 32k 左右，企业版也远低于宣称的 1–2M，且性能被认为倒退到 GPT‑3 级别，引发“虚标参数”的指控。再叠加限额下调和计费 bug（有人被错误扣费超 7 万美元），Google 在开发者口碑上受损。 > 相关链接：上下文缩水爆料｜计费问题讨论

##### GPT‑5 “控制壳”泄露：更重的前置规则锁定 BASI Jailbreaking 有人贴出名为 GPT5_Hotfix.md 的文件，宣称是 GPT‑5 的“预生成控制壳”，在正式生成前先做语法约束、意图锁定和漂移防护。若属实，说明前沿闭源厂越来越依赖外围规则层来弥补模型本体问题。 > 相关链接：控制壳文件截图

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-01-28

📅 2026年01月28日 AI行业动态

🌟 智谱 GLM-5 已上线