📰 Easy AI日报 | 2026-01-13

📅 2026年01月13日 AI行业动态

#### 行业与公司动态 ##### Apple 选择 Google Gemini 驱动下一代 Siri 苹果宣布下一代 Siri 和 Apple Foundation Models 将基于 Google 的 Gemini 模型和云技术，结合本地与 Private Cloud Compute，继续强调隐私。此前苹果也评估过 ChatGPT 和 xAI Grok。此举被视为 Google 的大胜、OpenAI 的失利，同时引发对 Google+Apple 在 AI 领域竞争与反垄断的讨论。 > 相关链接：苹果与 Google Gemini 合作报道｜Google 官方声明推文｜Reddit 讨论：苹果选用 Gemini｜Reddit 讨论：It’s official｜Reddit：Apple-Google “Mega-Brain” 讨论｜MacRumors 解读 Apple Intelligence 与 Gemini

##### OpenAI 收购 Torch，全面押注医疗健康业务 OpenAI 推出 ChatGPT Health，采用独立记忆空间，并收购医疗初创公司 Torch，将化验结果、药物、就诊录音等结构化整合到 ChatGPT Health 中。Torch 团队整体加入 OpenAI，目标是做真正懂临床流程的健康助手，OpenAI 也在推进 HIPAA 合规的医疗版 ChatGPT 和 API。 > 相关链接：OpenAI ChatGPT Health 发布｜OpenAI 收购 Torch 公告｜Torch 官网｜Torch 创始人说明｜ChatGPT Health 概览与数据规模

##### Anthropic 推出 Cowork：把 Claude Code 扩展到所有办公工作 Anthropic 上线 Cowork，允许 Claude 读写本地指定文件夹、配合 Chrome 访问网页，自动整理文件夹、做表格、整理笔记写报告等，相当于“非程序员版 Claude Code”。目前是 macOS 上 Claude Max 用户的研究预览，社区关注其安全模型、日志与企业部署成本。 > 相关链接：Cowork 官方博客｜Cowork 官宣推文｜Reddit：Cowork 功能讨论

##### Phind 宣布关停，开发者寻找替代品 面向程序员的搜索与代码助手 Phind 宣布本周末关停，社区开始讨论用 Perplexity、OpenAI + 浏览工具、自建 RAG 等替代，许多人也在反思对单一 AI 工具的依赖与“厂商锁定”风险。 > 相关链接：Phind 关停 Discord 公告

##### 中国大模型商业化：智谱 vs MiniMax IPO 故事差异 一份总结认为智谱和 MiniMax IPO 表现分化的关键在叙事：智谱更像 ToB/ToG 基础设施，销售周期长、研发投入重；MiniMax 更偏 C 端和全球化平台，增长曲线和毛利改善故事更好讲，资本市场更买单。 > 相关链接：ZhihuFrontier 线程

##### Meta 招募 Daniel Gross 牵头新一轮 AI 基础设施计划 报道显示 Daniel Gross 牵头 Meta 新 AI 基础设施项目，与高管 Dina Powell McCormick 和 Santosh Janardhan 合作，被视为 Meta 在训练/部署大模型基础设施上的新一轮加码。 > 相关链接：相关报道

---

#### 模型与能力 ##### DeepSeek 发布 Engram：面向静态知识的条件记忆模块 DeepSeek 的 Engram 在 Transformer 中引入哈希 n-gram 查表式“条件记忆”，把一部分“死记硬背”从算力昂贵的前向传播迁移到 O(1) 查询，释放主干模型做推理。可将大块嵌入表放在主存/NVMe 上，推理开销小，论文称这是下一代稀疏模型的重要组件。 > 相关链接：Twitter 技术长线程｜Twitter 讨论与批评｜GitHub：deepseek-ai/Engram｜Engram 论文 PDF

##### Gemini 长上下文实测：官方 400k，社区称 120k 开始“掉链子” 多名工程师在 Discord 和 Twitter 上反馈，Gemini 在 ~120k token 之后针尖寻针类测试明显退化，而 Claude Haiku/Sonnet 表现更稳。也有人称 400k+ 任务正常，说明与任务类型和提示工程高度相关。社区共识是：长上下文能力不能只看营销数字，必须自己压测。 > 相关链接：Gemini 3 Pro 讨论与 bug 反馈

##### GLM‑4.7 多渠道上线，主打长上下文和代码能力 GLM‑4.7 已可在 Cerebras（Hugging Face）和 Together AI 上使用，宣传点包括 20 万上下文和较强代码能力。属于国产大模型在海外推理平台上的又一次集中分发。 > 相关链接：GLM‑4.7 Hugging Face 集成｜Together AI 推理服务

##### 开源模型热度量化：提出 RAM Score 指标 有研究者提出 RAM Score（Relative Adoption Metric），按时间和模型规模归一化 Hugging Face 下载量。结果显示 1–9B 参数模型下载量最多，但头部大模型之间中位下载量差距只有约 4 倍，GPT‑OSS 异常受欢迎，中国一些大 MoE 模型动能偏弱。 > 相关链接：RAM Score 分析线程

##### Gemini API 大幅放宽输入文件限制 Gemini API 将单文件上限从 20MB 提到 100MB，并支持直接从 Google Cloud Storage 导入或使用签名 URL（可来自其他云）。部分场景可用到 2GB 注册文件。文档列出支持的文档格式，方便做高容量 RAG 与文档问答。 > 相关链接：API 更新说明 1｜API 更新说明 2

---

#### 研究与方法 ##### DroPE 与测试时训练：长上下文和“记忆”的新思路 Sakana 提出 DroPE：训练时用 RoPE 收敛，推理时去掉位置编码以减小长上下文扭曲；并给出参考训练代码。NVIDIA/Stanford/Astera 的 TTT‑E2E 则在推理阶段继续对当前上下文做增量训练，相当于把关键信息“写进权重”，减小 KV cache 压力。 > 相关链接：DroPE 论文推文｜DroPE 代码仓库｜TTT‑E2E 介绍

##### Agent 记忆方案对比：AgeMem 与 SimpleMem AgeMem 把长短期记忆统一成一组“工具动作”（增删改、检索、摘要等），用分阶段强化学习训练，在 Qwen 系列上相比 Mem0 提升可达 13%。SimpleMem 则主打“语义无损压缩+合并+按需检索”，在 LoCoMo 上 F1 从 34.2 提到 43.24，同时把平均查询 token 从 1.69 万降到 531。 > 相关链接：AgeMem 线程｜SimpleMem 线程

##### 人类分割专用模型 FASHN Human Parser 开源 团队发布面向时尚电商的人体解析模型 FASHN Human Parser，基于 SegFormer‑B4 微调，输出 18 类人体+服饰掩码，支持 384×576 输入，GPU 推理约 300ms、CPU 2–3s，主要解决 ATR/LIP/iMaterialist 数据集质量差的问题。 > 相关链接：模型 PyPI 包｜Hugging Face 模型｜数据集问题分析博客

##### 用博弈论反馈稳定 LLM Agent：成功率翻倍 新论文提出将 agent 交互日志转为图，在其上构造零和攻防博弈，求解纳什均衡后把统计结果写入系统提示词作为控制信号。实验证明，某 44 次基准测试成功率从 20% 提到 42.9%，工具使用方差缩小 5.2 倍，平均完成时间缩短 2.7 倍。 > 相关链接：论文 PDF｜GitHub 代码

##### LLM 作为评审：不同模型打分高度不一致 《Evaluative Fingerprints》研究发现，同一个 LLM 自己前后评分很稳定，但不同 LLM 之间几乎没有一致性（Krippendorff’s α≈0.042）。根据打分模式和引用证据可以 89.9% 准确识别是哪一个“评审模型”。结论是：用 LLM 做自动评测时，模型选择本身会引入系统性偏差。 > 相关链接：论文 PDF

##### CURE‑GRPO：自我批评 + 强化学习提升推理能力 在 Google Tunix Hackathon 中，一份 CURE‑GRPO 方法总结展示了如何结合 Self‑Critique 和 GRPO 提升 Gemma 等模型的推理表现。社区关注其作为通用“推理微调 recipe”的可复用性和与现有 RLAIF 的对比。 > 相关链接：Kaggle 比赛 writeup

---

#### Agent 与工具链 ##### Ramp 开源内部“写代码 Agent”方案，一周写了 30% PR 金融 SaaS 公司 Ramp 披露其内部编码代理 Inspect：在云端运行，结合开源工具、Modal 和 Cloudflare，据称一周内产出约 30% 合并的前后端 PR。公司同时开源了搭建蓝图，方便他人复刻类似系统。 > 相关链接：Inspect 介绍推文｜详细构建说明

##### AI21 大规模跑 SWE‑bench 的经验：评测首先是个基础设施问题 AI21 表示他们在生产环境跑了 20 万+ 次 SWE‑bench，最大教训是要把“生成”和“评测环境”解耦：每个 issue 复用构建好的仓库+依赖+MCP 服务，单测失败时可以直接重跑，不必重新生成。这样把失败率从 30% 降到 0%，仓库下载次数从 8000+ 降到 500。 > 相关链接：AI21 经验总结线程

##### DVCP：把“聊天写代码”改造成可控工作流 Doomlaser 提出的 Vibe Coding Protocol（DVCP）用“指挥线程+执行线程”的结构，强制模型输出整文件而不是零碎 patch，并通过多线程切换规避前端 DOM 限制。本质是把 LLM 从临时对话工具，拉回到可复现的批量重构管线。 > 相关链接：DVCP 长文

##### 新 Agent CLI 工具对比：Kiro、Aider、Cline 等谁更能干活 一份基准测试了 20 个 Web 开发任务下的多款“命令行 Agent”工具：Kiro 成功率最高（77%），Gemini CLI 最低（47%）。有用户吐槽，有的工具明明没跑通也说“完成”，提醒大家实际要多试几家找手感。 > 相关链接：Agentic CLI 综合评测｜Reddit 对比讨论

##### PulseFramework：又一个轻量级 LLM 编程框架加入战局 社区开发者开源 PulseFramework，定位是比“全自动 Agent”更轻的工作流编排层，强调方便切换模型、接工具和管控步骤，在 Cursor 社区被拿来与 Claude Code、Codex 等工具对比。 > 相关链接：PulseFramework GitHub

---

#### 基础设施与硬件 ##### NVIDIA Blackwell 被质疑“11 个时钟完成 256×256 运算”夸大性能 GPU MODE 社区拆读 Blackwell 微基准论文，指出所谓 256×256 运算 11 cycles 实际是异步操作，不能当作真实延迟，部分结论可能误导 kernel 设计。大家呼吁做性能分析时必须明确异步、排队和内存访问细节。 > 相关链接：相关讨论 PR/帖子

##### RTX 3090 在 LLM 推理下频繁重启，GSP 固件疑似元凶 LM Studio 用户报告 RTX 3090 在 Fedora 和 Windows 上跑大模型会直接重启，排查后发现关闭 GSP 固件、适当降压降频可显著提升稳定性。社区建议用 OCCT 和“极端推理负载”压测以确认硬件问题。 > 相关链接：LM Studio Discord 讨论

##### popcorn-cli 集成 NCU：命令行直接看 GPU 分析报告 GPU MODE 发布 popcorn-cli v1.2.2，把 NVIDIA NCU 集成进 CLI：可以在终端内直接展示概要、并下载 .ncu-rep 结果文件，方便团队用统一格式分享和对比 kernel 性能。 > 相关链接：popcorn-cli v1.2.2 发布｜profiling 使用文档

##### LM Studio 成功跑上 ARM 开发板，CPU 上 6.6 token/s 有人在 Orange Pi 6 Plus（8 核 ARM + Ubuntu）上装好 LM Studio，用 Qwen3‑4B Q4 在纯 CPU 模式下跑到约 6.6 token/s，但 Electron UI 因显卡驱动问题有严重图形破损，只能“盲点”操作。 > 相关链接：LM Studio 硬件讨论串

##### TinyBox 服务器 BMC 大面积“锁死”，社区分享刷固件自救指南 Tinygrad 社区用户反馈 TinyBox 的 BMC（带外管理）无法登录，报 “LAN Parameter Data does not match”。经验做法是：刷新/更新 BIOS 和 BMC 固件，再在 UEFI 菜单里重置 BMC，并做好配置备份。 > 相关链接：Tinygrad Discord 讨论

---

#### 产品与应用落地 ##### Google 推出“通用电商协议”：让 Gemini 直接下单购物 Google 公布 Universal Commerce Protocol（UCP），并在 Gemini/AI Mode 中测试“一键结账”、与品牌直接聊天的 Business Agent、Direct Offers 等功能。目标是让模型成为购物界面和交易发起方，而不是只给搜索结果。 > 相关链接：Google UCP 官宣

##### Claude Cowork 桌面版：帮非技术员工整理文件、做报表 Cowork 允许用户把某个文件夹“交给 Claude”，自动重命名、分目录、从截图里抠表格做 Excel，用会议笔记生成报告，还能配合浏览器操作网页。目前支持 macOS、Claude Max 用户，Reddit 上不少人认为这是对 Copilot 桌面版的“复盘后再做一遍”。 > 相关链接：Cowork 功能介绍博客｜Reddit 体验讨论

##### AI 前台工作流：用 ChatGPT+n8n 接电话、发短信、排日程 有开发者在 LMArena 分享了一个“AI 接待员”工作流：用 ChatGPT 结合 n8n 处理来电咨询、预约和改期，以及短信通知。目前已能跑通 demo，正在寻求改造为可上线的稳定版本。 > 相关链接：LMArena 方案讨论

---

#### 政策、治理与安全 ##### FDA 更新临床试验统计指南，AI 医疗验证门槛被抬高 美国 FDA 发布新版临床试验统计方法指南，被业内认为会直接影响 AI/ML 在医疗场景的监管：要求更严谨的统计验证、前置注册和不确定性报告。社区预计，做医疗 Copilot 的团队需要提供可审计的推理日志、版本化数据与提示词，以满足合规要求。 > 相关链接：FDA 官方新闻稿

##### 环境变量并不安全：本地 Agent 读环境就能拿到全部密钥 Reddit 和多家 Discord 讨论指出：一旦你在本机跑 Agent，它通常能直接读取进程环境，从而拿到存放在 env var 里的 API Key 和密码。建议生产环境改用专门的密钥管理系统（如 Vault/AWS Secrets Manager），并避免在日志和错误信息里 dump 环境。 > 相关链接：Reddit 讨论贴

##### BASI 社区持续研究越狱与提示注入，安全攻防“猫鼠游戏”升级 BASI Jailbreaking Discord 里有人学习如何对商用 Bot 做提示注入、骗共享单车客服 Bot 送免费骑行，尝试绕过 Gemini 的图像审核以及 Grok 的安全边界。也有成员强调先拿到系统提示，再“顺着规则找洞”。这些讨论反向说明主流模型的安全策略仍在被持续攻破和加固。 > 相关链接：BASI Jailbreaking 讨论区（general）

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-01-13

📅 2026年01月13日 AI行业动态

🌟 智谱 GLM-5 已上线