📰 Easy AI日报 | 2026-01-17

📅 2026年01月17日 AI行业动态

#### 产品与应用落地 ##### OpenAI 上线 ChatGPT Go，开始在免费与低价档测试广告 OpenAI 在全球推出低价档 ChatGPT Go（8 美元/月），比免费版多 10 倍消息、支持文件上传、画图、更长记忆和上下文，并可不限量使用 GPT‑5.2 instant。同时宣布将在 Free 和 Go 档测试广告，付费 Plus/Pro/Business/Enterprise 仍无广告。 > 相关链接：ChatGPT Go 介绍｜OpenAI 广告原则说明｜OpenAI Ads 公告推文｜Go 计划公告推文

##### Claude Cowork 向 Pro 用户开放，实际用量压力不小 Anthropic 宣布 Claude Cowork 面向 Pro 用户开放（仍是研究预览），支持会话重命名、连接器优化等。但有用户反馈，用 Cowork 批量整理 400 多个文件就耗尽 97% 会话额度，认为当前用量上限对复杂任务仍偏紧。 > 相关链接：Reddit 讨论贴

##### Gemini 3 Pro 被开发者吐槽“用不动了”，疑似缩小上下文窗口 不少 Pro 用户称 Gemini 3 Pro 近期性能明显变差：长项目里频繁答非所问、代码乱串，有人怀疑 Google 私下缩短了上下文窗口导致幻觉增加。部分重度用户开始转向 GPT‑5.2 Thinking、Claude 等替代方案。 > 相关链接：Reddit 反馈

##### Perplexity Pro 每日 100 次高级对话被嫌太少 Perplexity Pro 把高级模型请求限制在每天 100 条，不少重度用户反映几小时就打满配额，之后一整天基本废掉，开始考虑退订或换到 OpenAI 等按 token 计费方案。 > 相关链接：Perplexity Discord 讨论

##### Cursor、Qoder、Gemini CLI 等“智能 IDE/CLI”被指烧钱严重 多名用户分享账单：Cursor Ultra 单次 orchestrator 运行就吃掉 20% 配额，Qoder 月账单接近 400 美元，Gemini CLI 一天跑掉 1000 万 token 约 120 美元。大家呼吁 IDE 和平台提供更清晰的用量统计、上限控制和“子代理用小模型、主代理用大模型”的配置能力。 > 相关链接：Cursor 社区讨论｜Perplexity / Gemini CLI 讨论

##### LMArena 新增 PDF 对话与图像模型榜单更新 LMArena 正测试上传 PDF 后直接聊天的功能，部分模型已支持。图像编辑与文生图榜单也更新，FLUX.2 klein 系列在中高名次区间占位，显示小模型图像质量在快速追赶。 > 相关链接：Image Edit 排行｜Text-to-Image 排行｜Leaderboard 更新日志

##### Hawk Ultra 被社区吹成“Opus 杀手”的代码喷射机 Movement Labs 的 Hawk Ultra 在 LMArena 等社区被疯狂安利：单次 prompt 就能生成 9k–2 万行代码，适合一口气搭出工程骨架。大家关心它和 Gemini 3 Pro、Claude Opus 对比如何，以及是否有开源计划。 > 相关链接：Movement Labs X 介绍

---

#### 模型与能力 ##### OpenAI 预告“Very fast Codex”，强调记忆升级与速度/智能权衡 Sam Altman 提到 ChatGPT 记忆有改进，并多次暗示“Very fast Codex 要来了”。开发者讨论：当模型足够快时，工作流会从“慢模型一步到位”转向“高速模型+人类牧羊式多轮调度”。 > 相关链接：Altman 关于记忆与 Codex 的推文

##### Codex CLI 支持接入开源权重和更长上下文 Ollama 宣布开源模型可以通过 Codex CLI 以 codex --oss 使用，并建议把上下文上限调到 32K 以上提升体验。Codex 还在试验新交互：支持在模型思考中途“插话”调整方向，而不强制中断回复。 > 相关链接：Ollama 关于 Codex OSS 支持｜上下文长度说明

##### SWE-rebench 最新榜：Claude 4.5 继续领先，GLM‑4.7 成最强开源 SWE‑rebench 2025 年 12 月榜单测了 48 个新 GitHub PR 任务：Claude Opus 4.5 解决率 63.3% 第一，GPT‑5.2 xhigh 61.5% 紧随其后。Gemini 3 Flash Preview 以更小更便宜的体量，跑赢自家 Pro。GLM‑4.7 是榜单最强开源模型，接近 GPT‑5.1‑codex 水平。 > 相关链接：Reddit 榜单总结｜SWE‑rebench 官网

##### 长上下文训练：Unsloth 把 RL 上下文做到了几十万 tokens Unsloth 宣称通过数据迁移和新批处理算法，可在 24GB 显存上用 RL 训练到 20K 上下文，在 192GB B200 上最高到 380K，上下文扩展 7–12 倍且不降精度。社区一边关心数据是否真的有这么长，一边在问这些技巧能否迁移到 Qwen3 30B 等模型。 > 相关链接：Reddit 讨论贴｜Unsloth 上下文文档

##### Zhipu & 华为发布 GLM‑Image：在国产 Ascend 910 上训练的多模态模型 Zhipu 与华为联合推出多模态模型 GLM‑Image，全程在昇腾 910 上训练，支持 1024–2048 分辨率无需额外训练，主打中文文字渲染和图文生成，声称在“每焦耳 token 数”上比 NVIDIA H200 高约 60%。API 定价约 0.1 元一张图。 > 相关链接：Reddit 讨论

##### VoxCPM：开源“无 token 化”实时语音克隆 TTS OpenBMB 开源 VoxCPM 语音模型，宣称直接生成连续语音波形而不是离散音频 token，减少格子感和延迟。支持 LoRA 微调，在一张 4090 上流式推理实时系数约 0.15，对想做语音智能体的人很有吸引力。 > 相关链接：VoxCPM 推文与仓库链接

##### Translate Gemma 正式上线，多语翻译模型可在 Hugging Face 直接拉 Google 的 Translate Gemma 因支持包括马拉雅拉姆语在内的多语种而被广泛讨论。官方在 Hugging Face 上发布了完整集合，Ollama 也已接入并给出推荐提示格式，方便直接塞进翻译流水线。 > 相关链接：Translate Gemma 集合｜Jeff Dean 点评｜Ollama 集成

##### OpenBMB AIR：把偏好数据拆成 A/I/R 三块来做对齐 OpenBMB 提出 AIR 框架，把偏好数据拆成 Annotation / Instruction / Response，主张用简单打分、过滤方差大的指令、控制样本差距，称用 1.4 万条精炼样本在 6 个基准上平均提升 5.3 分。 > 相关链接：AIR 框架推文

---

#### Agent 与工具链 ##### “人类在环”再次被证明是可靠性倍增器 多位工程师复盘后发现：同样的模型，完全自动跑经常翻车，而拉一个人做“保姆”把不确定结果拦下来，整体体验好很多。有人用两条曲线之间的差解释：这部分就是人类在环带来的价值。 > 相关链接：关于 human-in-the-loop 的讨论｜价值曲线解读

##### “chunk 已死”？Jerry Liu 主张文件工具优先于传统 RAG LlamaIndex 创始人 Jerry Liu 认为 RAG 本身没死，但死的是固定切块+向量库那套；在几百份文档规模内，让 agent 直接打开文件、用 ls/grep 搜索并按需展开上下文，往往比提前切块嵌入更稳更简单。规模再大才需要数据库。 > 相关链接：文件优先检索长帖

##### Claude、OpenRouter 等支持一次请求并行多工具调用 Anthropic 文档显示 Claude 已能在一次 API 调用中调多工具，并支持并行 tool use 控制。OpenRouter 社区认为这会显著减少多轮来回，降低延迟和费用，是 agent 编排层的一个重要能力点。 > 相关链接：Claude 工具调用文档

##### 各种 Agent 编排 UI/CLI 快速冒头 Anthropic Cowork、SpecStory CLI、sled UI、OpenWork 本地电脑代理等纷纷上线：有人做统一记录 agent 会话与合同的 CLI，有人做“把 Claude Code/Codex 瞬移到手机”的 UI，还有人集成 Ollama，在 Mac 上跑全本地电脑控制 agent。 > 相关链接：SpecStory CLI 介绍｜sled / Agent Control Protocol｜OpenWork 本地 agent

##### Claude Flow v3 自称能把 Claude Max 用量“榨出 2.5 倍”，社区半信半疑 社区项目 Claude Flow v3 号称用 TypeScript+WASM 重写，做多代理 swarm、共享记忆、离线执行，把 Claude Max token 消耗降 75–80%，等于订阅容量提升 2.5 倍。评论区有人直指营销词堆砌严重，缺乏清晰基准和复现实验。 > 相关链接：Claude Flow v3 介绍｜GitHub 仓库

---

#### 基础设施与硬件 ##### “训练已过巅峰，真正痛点在推理”：一年被称为“推理爆炸年” 一篇被广转的知乎长帖认为：agent 提高了 I/O 比例，prefill 成为主成本；上下文缓存会变成标配；prefill/decoding 分离把设备利用率搞得更差，必须重做调度和内存层级。整体观点：现在优化重点已从训练转向推理系统工程。 > 相关链接：推理爆炸讨论摘要

##### SambaNova SN40L 跑 DeepSeek R1，在吞吐和延迟上压了一头 NVIDIA 集群 Artificial Analysis 把 DeepSeek R1 跑上 SambaNova SN40L，对比多种 NVIDIA 配置后发现：在高并发时 SN40L 吞吐更高，单用户 token/s 峰值约 269。因为官方没给按小时价格，性价比暂时不好直接算，但说明非 NVIDIA 方案在推理侧已有竞争力。 > 相关链接：DeepSeek R1 on SN40L 基准

##### Epoch AI：全球 AI 数据中心总装机功率已接近 30GW Epoch AI 粗算：按 GPU 销量乘额定功率再乘 2.5 倍机房系数，当前 AI 数据中心装机容量约 30GW，和纽约州夏季用电峰值差不多。注意这算的是“能耗上限”，不代表长期实际负载。 > 相关链接：Epoch AI 估算贴

##### CUDA/ROCm 内核工程师：从 CuTe tiling 到 gfx942 一致性坑 工程圈在热聊新一代 tiling 抽象：NVIDIA 的 CuTe/cuTile 能用更简洁的 block 级代码逼近 cuBLAS 性能，还改进了 swizzling。AMD 这边则在研究 gfx942 的多 L2 一致性，需要用 buffer_inv sc1 手动清非本地 L2，否则多 XCD+HBM 会出现鬼一样的缓存错误。 > 相关链接：CuTe/CUDA Tile 讨论｜ROCm gfx942 内存模型文档

##### PCIe 与电源管理对推理性能影响远比很多人以为的大 LM Studio 用户发现 3090 插在 Gen3 x1 槽上推理从 120t/s 掉到 90t/s；GPU MODE 指出 benchmark 中 sleep(2s) 会导致 GPU 降频，测到的时延全是“热身成本”。结论：测性能前先检查主板走线和功耗策略，不然白优化模型。 > 相关链接：LM Studio 带宽案例｜GPU MODE benchmark 讨论

##### 消费级/二手机 GPU 市场：A100 捡垃圾、RTX 5060Ti 16GB 宣布停产 LocalLLaMA 社区有人 500 美元淘到“坏卡”A100 40GB 结果完好，用来跑大模型但被提醒要加主动散热；另一边传出 RTX 5070Ti 停产、5060Ti 16GB 大幅减产，导致 16GB 版本涨价，这块原本是便宜堆显存、跑 70B 模型的选择。 > 相关链接：A100 升级晒机｜5060Ti 16GB 供应缩减

---

#### 研究与方法 ##### Mamba‑2 为吃满 Tensor Core 重写核心算法，RetNet 被微软“弃坑” 一篇长文分析：Mamba‑2 把原先并行 scan 改成 block 对角 GEMM，把 Tensor Core 利用率从 10–20% 拉到 60–70%，算是向 NVIDIA 硬件妥协。相对地，微软 2023 发的 RetNet 很快被自家 Phi 系列的密集 Transformer 取代，显示“架构+硬件+公司资源”共同形成强力锁定，想脱离 Transformer 阵营很难。 > 相关链接：Transformer Attractor 长文｜Reddit 讨论

##### 多向量检索回潮：小模型 + 多向量能打大模型 多位检索研究者分享实验：用 ColBERT/ColPali 一类的多向量检索，一个 3200 万参数模型配多向量，就能逼近 8B 模型的效果。有人甚至放话“multi‑vector 是唯一出路”，理由是把复杂性放到索引结构上，比盲目放大模型更划算。 > 相关链接：aaxsh 多向量实验

##### 信息引力 + 滞回防火墙：有人试图从物理隐喻来治理幻觉 GPU MODE 社区有人提出“Information Gravity”理论：把 token 选择过程看成激发流，激发度 S>45 时系统进入线性爆炸导致幻觉循环，于是在 S=1.0 处加“滞回防火墙”，以 2.2×gamma flush 强制重置状态。暂时更像思想实验，但代表大家在尝试新角度理解稳定性问题。 > 相关链接：Information Gravity GitHub

##### MMLU‑Pro 数据集和评测框架修复，提醒大家别再拿旧分数比较 Eleuther 发布补丁修正 TIGER‑Lab/MMLU‑Pro 的问题，并在 lm‑evaluation‑harness 中更新。之前用旧 harness 跑的 MMLU‑Pro 分数可能有偏差，想做横向对比的需要重跑一遍。 > 相关链接：lm‑evaluation‑harness PR｜MMLU‑Pro 数据集讨论

---

#### 行业与公司动态 ##### OpenAI 把 9 亿周活用户货币化：广告 + 更多订阅档成主线 在外界长期吐槽“迟早要上广告”后，OpenAI 终于宣布在 ChatGPT 免费与 Go 档测试广告，并推出更细分的订阅梯度。有评论把这视作从“研究公司”向传统互联网广告/订阅混合模式的彻底转身。 > 相关链接：Ads 公告｜外界评论示例

##### Higgsfield AI 9 个月做到 2 亿美金年化收入，融资 1.3 亿美金 视频生成创业公司 Higgsfield 宣布完成 1.3 亿美元 A 轮，估值 13 亿美元，自称上线不到 9 个月就做到 2 亿美元年化收入，属于少见的“早期即高营收” AI 公司。 > 相关链接：Higgsfield X 公告

##### 税务自动化创业公司获 350 万美元种子轮，想“干掉报税季” Saket Kumar 创立的新公司获得 General Catalyst 等 350 万美元种子融资，目标是让美国个人报税变成“免费且一键完成”。他们计划大量使用 AI 自动读取和生成报税表，直接挑战现有报税软件和代报税行业。 > 相关链接：创始人推文

##### Anthropic 发布第 4 期《经济指数》，尝试用“经济原语”量化 AI 影响 Anthropic 新报告把 AI 使用拆成任务复杂度、教育水平、自治程度、成功率等“经济原语”，试图比简单的“多少岗位可被自动化”更细地描述 AI 对劳动市场的冲击和替代/增强关系。 > 相关链接：Economic Index 原文

---

#### 政策、治理与安全 ##### OpenAI 广告原则：不改回答、不泄露对话，但大家更担心长期激励漂移 OpenAI 承诺 ChatGPT 的回答不会被广告商影响，广告会清晰标注，对话内容不会给广告主用。社区一边表示这套说法“现在看起来是对的”，一边担心，随着营收压力增大，未来会不会在推荐顺序、默认工具等细节上慢慢向广告倾斜。 > 相关链接：广告与隐私原则｜Sam Altman 关于广告的补充推文

##### BASI 社区疯狂研究主流模型越狱与安全绕过，新技巧每天都在被封堵 BASI Jailbreaking Discord 汇总了一堆越狱方法：Gemini 的 NSFW 越狱“免费但活不久”，Grok 被称为最野的模型之一；有人对 Meta Llama3 做拒绝反转，让它从“我不能”变成“我可以”；还分享通过“冷链接”和 OCR 注入绕过 URL/文本过滤的办法。模型厂商则在持续封堵这些洞。 > 相关链接：BASI Jailbreaking 服务器

##### 利用 ZKP 做“隐私友好型”AI 内容审查的设想 Yannick Kilcher 服务器有人提出，用零知识证明做 AI 治理：先用统一的内容分类模型判断是否违规，再用 ZKP 证明“这段内容已经过审核且结果安全”，但不透露内容本身。这样平台可以强制只运行通过审核的模型/应用，同时不窥探用户具体说了什么。 > 相关链接：治理思路讨论

##### 机器意识被搬上 AAAI 正式议程：2026 年将办专门研讨会 Nous 社区转发：AAAI 2026 将由 CIMC 主办“机器意识”专题研讨会，讨论怎么定义与检测 AI 意识、如何区分行为表象和内部状态，以及伦理后果。投稿截止 1 月 23 日，主办方强调希望看到具体可操作的方法，而不是哲学空谈。 > 相关链接：研讨会说明

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-01-17

📅 2026年01月17日 AI行业动态

🌟 智谱 GLM-5 已上线