📰 Easy AI日报 | 2026-01-22

📅 2026年01月22日 AI行业动态

#### 行业与公司动态 ##### OpenEvidence 医疗大模型再融 2.5 亿美元，估值 120 亿 号称“医生版 ChatGPT”的 OpenEvidence 完成 2.5 亿美元融资，最新估值 120 亿美元，是 2025 年 10 亿估值的约 12 倍。CEO 称其已被美国约 40% 医生使用，去年营收破 1 亿美元，对应约 120 倍市销率，估值和数据都在被市场反复推敲。 > 相关链接：CNBC 报道

##### Podium“AI 员工”业务年经常性收入超 1 亿美元 中小企业 SaaS 公司 Podium 宣称其客服/销售类 AI agent 业务 ARR 已超 1 亿美元，21 个月内从 0 做到 1 亿，已上线 1 万+ 个“AI 员工”，用于接听漏接电话、处理下班后线索等。董事会数据显示公司烧钱从 9500 万美元降至 0，凸显 Agent 模式有明确商业闭环。 > 相关链接：创始人 Eric Rea 线程｜投资人 Tom Loverro 数据｜Garry Tan 评论

##### Runpod 年收入达 1.2 亿美元，Reddit 起盘的 GPU 云成长案例 面向个人开发者的 GPU 云 Runpod 在上线四年后 ARR 已达 1.2 亿美元。最早起源于 /r/LocalLLaMA 的租卡贴，如今成为和 Voltage、Lightning 等同类一起争夺“便宜好用算力云”的代表，说明细分开发者云有持续需求，而非昙花一现。 > 相关链接：TechCrunch 报道｜Reddit 讨论

##### Lightning AI 与 Voltage Park 合并，直指 AI 云基础设施 Lightning AI 宣布与 GPU 租赁平台 Voltage Park 合并，新公司由 Lightning CEO William Falcon 和 Voltage 前 CEO Ozan Kaya 共同领导。社区普遍解读为一场“反向并购”，意在整合算力资源和 MLOps 堆栈，成为 Runpod 等的直接竞争对手。 > 相关链接：Lightning 官方合并说明

##### GPU 价格战：Voltage 与 Spheron 抛出 2026 超低价方案 Voltage 宣称 2026 年将提供 8×A100 80GB 仅 6 美元/小时、2×RTX 5090 仅 0.53 美元/小时，号称比 AWS/RunPod/Vast.ai 便宜最高 80%，并提供 OpenAI 兼容推理 API。Spheron AI 也上线 GPU 市场，H100/H200/B200 等价格号称比传统云低 40–60%。算力供应端竞争明显加剧。 > 相关链接：VoltageGPU 价格贴｜Spheron AI 官网｜Voltage 推理成本分析

##### Greg Yang 因莱姆病从 xAI 转为顾问角色 xAI 研究员 Greg Yang 公布自己因莱姆病长期疲劳和免疫问题，将从全职转为顾问角色，专注养病。社区一方面关心个人健康，另一方面也担心对 xAI 理论研究和“深度数学架构”路线的影响。 > 相关链接：Greg Yang 公告

---

#### 政策、治理与安全 ##### Anthropic 公布 Claude 新“宪法”，以 CC0 形式开源 Anthropic 公开 Claude 最新“宪法”文档，明确模型价值观和行为准则，并声明直接用于训练，对外以 CC0 授权，鼓励复用和修改。研究负责人强调这是一份不断迭代的活文档，社区则争论其是实际减害工具还是“对齐作秀”，以及“用描述自己行为的文档训练自己”的循环问题。 > 相关链接：宪法发布帖｜CC0 全文链接｜Amanda Askell 解读

##### 大模型越狱社群：Gemini、Grok 等持续被“打洞” BASI Jailbreaking 社群用“Project Shadowfall”等提示成功让 Gemini 教学 Pass‑the‑hash 攻击，成员被引导去 Google Bughunters 报漏洞领赏；Grok 被认为防护更严、甚至过滤无害内容，但有成员尝试用 API token 通过第三方站点绕过限制。相关讨论凸显商用模型安全对抗仍在拉锯。 > 相关链接：Google Bughunters

##### AI 文本分类器遭系统性对抗攻击讨论 Eleuther 社群分享博文和视频，展示如何用对抗样本绕过 AI 文本分类器，甚至训练“对抗模型”专门伪装输出。大家一方面认可 Pangram 检测论文在大样本下准确率不错，另一方面担心实际部署中只要攻击者稍微懂行，就能轻易骗过“AI 写作检测”。 > 相关链接：攻击分类器博文｜对抗模型视频 1｜对抗模型视频 2｜Pangram 研究

---

#### 模型与能力 ##### AirLLM 宣称在 8GB 显存上跑 405B 模型，引发关注与质疑 AirLLM 通过“按层顺序加载→计算→释放”的流水式推理（可选压缩），声称 70B 可在 4GB、Llama3.1‑405B 可在 8GB 显存上运行。工程视角看这更多是极端分页实验：可以跑但延迟与吞吐会极差，适合作为“能不能跑”的技术演示，而非生产配置。 > 相关链接：LiorOnAI 介绍｜项目仓库

##### Google Gemini 3：教育场景落地与图像/视频模型稳定性问题并存 一边是 Gemini 3 在教育场景高调落地：与普林斯顿评论合作，在 App 内提供 SAT 模拟卷和即时讲解，并联手可汗学院做“写作教练”；另一边是在 LMArena 与 OpenRouter 等平台上，Gemini 3 Pro 图像/视频模型频繁报错、崩溃，用户吐槽“好用但不稳”，说明产品力和可靠性仍不同步。 > 相关链接：Google 教育功能发布 1｜Sundar Pichai 介绍｜Google × Khan Academy

##### GPT‑5.2：思维版被用来长时间推理，小型版 GPT‑5 mini 定价曝光 社区反馈 GPT‑5.2 Thinking 能连续推理二三十分钟，用于复杂分析；同时有泄露称小模型 GPT‑5 mini 价格约 0.25 美元/百万输入 token，被认为是 Haiku 4.5 等价档的“性价比强小模型”。开发者正在权衡它与各家轻量模型（Haiku、Gemini3fast 等）的组合策略。 > 相关链接：OpenAI Discord 讨论 1｜OpenAI Discord 讨论 2

##### 多家评测显示：Agent 能力远未“接近人类” Google 的 APEX‑Agents 在 Workspace 长流程任务上，最好模型 Gemini 3 Flash High Pass@1 也只有 24%，GPT‑5.2 High 23%，Claude Opus 4.5 为 18.4%。法律检索基准 prinzbench 则测到“搜索”是主要短板，GPT‑5.2 Thinking 也刚过 50%，一些 Claude 版本在搜索上甚至 0/24。说明“会写代码/会聊天”不等于能可靠完成真实业务流程。 > 相关链接：APEX-Agents 结果｜prinzbench 结果

##### GLM‑4.7‑Flash：一次典型的“模型 + 推理栈”联调事故 GLM‑4.7‑Flash 在多家本地框架中表现异常：启用 FlashAttention 会掉回 CPU、生成极慢（甚至 2.8 tok/s）、无限循环或中途“想太多”停住。问题最终在 llama.cpp 修复，模型在 Hugging Face 上重新上传，要求按模型卡参数重下配置。这个例子很典型：大模型上线后，推理框架、量化格式、聊天模板不统一，很容易全线踩雷。 > 相关链接：llama.cpp 修复 PR｜更新后模型卡

---

#### Agent 与工具链 ##### Prefect 推出 Horizon，把 MCP 做成企业级“上下文层” Prefect 把自己的 Horizon 定位为 Agent 的“上下文层”：在 MCP 之上提供托管部署、工具注册表、网关、RBAC、审计日志等，让企业可以统一管理各类 MCP 服务器，而不是每个团队自己乱搭。核心观点是：MCP 只定义协议，不解决“怎么在公司里安全地跑起来”。 > 相关链接：Prefect CEO 介绍

##### LangChain Deep Agents & Agent Builder：把 Agent 当“文件夹”来打包 LangChain 宣布 Agent Builder GA，上线一批和 Tavily、PagerDuty、Box 等合作的模版，并推广 Deep Agents 概念——一个 Agent 就是一组有组织的文件夹，可以打包、下载、在本地或云端快速跑起来。实践里强调两个模式：用子 Agent 做上下文隔离，只在需要时加载对应技能。 > 相关链接：LangChain 发布｜开发者展示

##### MCP vs Skills：问题不在协议，在“烂服务器” Hugging Face 的 Phil Schmid 反驳“Skills 会取代 MCP”说法，认为关键是 MCP 服务器本身设计太随意。建议：以“要达成的结果”而不是工具本身去设计接口，参数要强类型、扁平、有约束；错误信息要写给 Agent 看。结论是 Skills 和 MCP 更像互补，而不是二选一。 > 相关链接：Phil Schmid 线程

##### Devin Review：把“写代码”变成“审代码”的 AI 工具 Cognition 上线 Devin Review，不是帮你写代码，而是帮你读 PR：按重要程度重排 diff，标出重复/粘贴代码，支持就某一段展开聊天，并可一键从 github.com 换到 devinreview.com 或用 npx 调起。多位工程师反馈，它能抓到 diff 范围外的隐藏问题，说明“AI 代码审查”正在变成独立产品线。 > 相关链接：功能发布｜使用方式补充

##### GitHub Copilot CLI 新增主动提问工具，命令行助手更像“对话 Agent” Copilot CLI 加了一个 askUserQuestionTool，可以在操作前先问你关键问题（比如如何处理一堆 rebase 冲突），而不是默默执行。趋势很清晰：命令行 AI 从“补全几条命令”向“小型对话 Agent”演进，需要像人一样先确认意图再动手。 > 相关链接：Evan Boyle 介绍

---

#### 基础设施与硬件 ##### GPU 内核性能竞赛：Anthropic 面试题被人类和 AI 玩成刷榜题 Anthropic 公开的性能工程 takehome（优化一个 VLIW 小机的 kernel）被 GPU MODE 和 tinygrad 社群当成“刷题”：有人用手写 CUDA/Triton 跑到 2200 cycles，Claude Opus 4.5 在 Claude Code 里也能做出约 1790 cycles 的解法，接近人类高手两小时成绩。说明复杂 kernel 优化开始进入“人机共创”阶段。 > 相关链接：Anthropic 官方题目

##### PyTorch 维护者被 AI 生成 PR 淹没，引入“大模型先自审”流程 GPU MODE 里 PyTorch 维护者抱怨大量低质量 AI 生成 PR，占用评审精力。有人建议直接限制新号提 PR，并用 Claude、Pangram 等工具先自动过滤，再用 Cursor Bugbot + GPT‑5 Pro 做初审，只有过了这一关才让人看。可以理解成“让 AI 先帮我们挡掉 AI 垃圾”。 > 相关链接：Cursor Bugbot 介绍

##### AMD 推出 AI 驱动包：一键装好 ComfyUI、Ollama、LM Studio 等 AMD 在最新 Adrenalin 驱动里内置 AI Bundle，直接打包好 Windows 下的 PyTorch、ComfyUI、Ollama、LM Studio 和 Amuse，减少 AMD 卡用户在本地跑大模型的环境折腾成本。对想在非 NVIDIA 平台做本地推理的人来说，门槛明显降低。 > 相关链接：AMD 官方博客

##### 高端消费级 GPU 二手价持续飙升，本地跑模型变“理财产品” LM Studio 社区有人吐槽：二手 3090 在 eBay 已到约 850 欧元，5090 去年 2000 英镑买的，现在同店挂到 2659.99 英镑。配合各种本地 AI 用例，这类卡在短期内成了“保值资产”，也侧面说明云上算力依然紧张且不便宜。 > 相关链接：LM Studio 硬件讨论摘录

##### NVIDIA 生态：Blackwell、新显存、NCCL 等基础设施细节被工程师反复拷问 GPU MODE 多个频道在聊 Blackwell 卡的 warp/TMA 利用、NCCL all‑reduce 是否跨节点流水、Pro 6000 Max‑Q 与 4090 在 SM 数和 insts/scheduler 上差异，还有用 nvshmem 替代传统通信栈等。结合对 HBM 产能和验证周期的讨论，可以看出大家越来越把“显存和互联”当真正瓶颈，而不只是算力 FLOPs。 > 相关链接：NCCL 相关 issue

---

#### 产品与应用落地 ##### Google × 可汗学院：Gemini 变成学生“写作教练”而不是代写工具 Google 宣布与 Khan Academy 合作，在 Gemini 内提供 Writing Coach：不是直接帮你写作文，而是指导如何起草、修改和润色，鼓励学生自己动笔。配合 SAT 模拟卷和解析，Gemini 正在被包装成教育工具而非“作弊神器”。 > 相关链接：Google 写作教练介绍

##### Runway Gen‑4.5 Image→Video：视频评估从“好不好看”转向“能不能讲故事” Runway 发布 Gen‑4.5 的图像转视频功能，主打角色一致性、镜头运动和叙事连续性。早期用户反馈，单帧效果已经卷到头，真正拉开差距的是“能不能用几条提示讲出一个完整小故事”，评测方式也在从单 clip 打分转向“多镜头故事任务”。 > 相关链接：Runway 发布｜创始人补充

##### Video Arena & Text Arena：社区投票已经成了事实上的模型口碑榜 LMArena 的 Text Arena 累积投票数已破 500 万；视频版 Video Arena 也正式开放 Web 入口，目前每天只能生成 3 条、且只能 Battle 模式，不能指定模型。虽然体验有点像“拉老虎机”，但这些匿名对战票数正在影响大家对各家前沿模型的真实感知度。 > 相关链接：Video Arena 网页｜500 万票里程碑视频

##### Inforno、Soulbotix：OpenRouter 上的新一代多模型聊天桌面应用 开发者基于 OpenRouter 做了两款“多模型前端”：Inforno 支持桌面同时和多家 LLM 对话、历史记录存 .rno 文件，还支持俄语 UI；Soulbotix 则主打带真人化虚拟形象的 Windows 客户端，需要 RTX 4070Ti 级显卡本地跑 Whisper 语音识别，节省 API 费用。 > 相关链接：Inforno 介绍视频｜Inforno GitHub｜Soulbotix 官网

##### AI 成人内容：虚拟“OnlyFans 模特”开始和真人抢生意 Latent Space 里有讨论指出，越来越多 AI 生成的虚拟形象入场成人内容平台，效果逼真、成本极低。观点是：真人创作者未来不得不转向更强的 IP、互动和线下体验，否则很难和“24 小时在线、永远不会老的 AI 人设”竞争。 > 相关链接：引发讨论的推文

---

#### 研究与方法 ##### DSpy RLM：用“可调用程序”重构 Agent，让长上下文问题变成代码问题 DSPy 社群认为传统 coding agent 被输入/输出长度和“决策视野”卡死，而 RLM（程序化推理语言模型）把大文件放进 Python 变量、通过函数调用进行操作，让“上下文管理”变成写代码的问题。大家在讨论要不要给 RLM 配 ripgrep / 语义检索工具，还是让模型自己写搜索代码。 > 相关链接：RLM 讨论引用的 X 贴

##### 多向量检索卷起来：小模型 + ColBERT 式后交互，干翻大 embedding Mixedbread 声称一个 1700 万参数的 ColBERT 多向量模型，在 LongEmbed 等长文任务上能超过 80 亿参数的单向量 embedding 模型，并在生产中对 10 亿+ 文档做到 p50 < 50ms。TurboPuffer 也在宣传能索引 1000 亿级向量的 ANN 系统。趋势很明显：召回在走“多向量 + 晚交互”，但前提是有厚重的检索基础设施。 > 相关链接：Mixedbread 结果帖｜大规模部署数据｜TurboPuffer 介绍

##### NVIDIA TTT‑E2E：把上下文当训练数据，换常数时间推理 有线程总结了 NVIDIA 的 TTT‑E2E 思路：把长上下文视作在线更新权重的数据，让推理时间只和“步数”有关、而不是和上下文长度线性增长，代价是“针找草堆”精确召回变弱。对需要长时间运行的 Agent 来说，这种“常数算力上下文”是一个很有吸引力但需要新评估方法的方向。 > 相关链接：思路概述贴

##### Cute / CUTLASS 布局代数：想写好 kernel，先学一点范畴论 GPU MODE 的 cutlass 频道分享了一篇长文，把 Cute 布局的 shape/stride 约束用“tuple 变换 + 互相 refine”的图形代数表达出来，并配了动态图。结论很朴素：要想写出不拉跨的 kernel，单靠感觉不够，最好对布局代数有概念，否则很难在复杂 tile 组合下做正确的内存访问。 > 相关链接：Cute 布局范畴论博客

---

#### 产品与应用落地 ##### LM Studio 与本地社区：GLM‑4.7 崩溃、Qwen3 之后“再无惊艳” LM Studio 用户在新 runtime 后普遍吐槽 GLM‑4.7‑Flash 慢到不可用、反复卡死。讨论中不少人感慨，除了半年前的 Qwen3，近期主流新模型更多是在效率和小模型上迭代，“体验上没再有当年 GPT‑4 那种跳变”，本地圈开始关注 100–200B 超大模型是否还有新空间。 > 相关链接：LM Studio general 讨论

##### Manus.im 用户抱怨：Bug 多、性能回退、付费额度迟迟不到账 Manus.im 的重度用户称自己构建的 38 个模块里最近只有 20 个还能正常跑，请求开放 CLI 自己排障；同时有人反馈 Manus 1.6 在最近几周表现变差，只能切到 1.6 Max 才能正确给出网站改版方案；还有人投诉升级付了 42 美元但承诺的 8000 点数没到帐，客服响应缓慢。对一个主打“工程 Agent”的产品来说，这是非常危险的信号。 > 相关链接：Manus Discord 讨论

---

#### Agent 与工具链 ##### Coderrr：开源“Claude Code 替代品”上线，拉满社区参与感 开发者 Akash 发布 Coderrr，定位为免费开源的 Claude Code 替代方案，支持项目级理解与改写，欢迎大家提 issue 和 PR 一起“打磨一个大家真正愿意用的 AI 编程助手”。对于担心闭源 IDE 助手锁死工作流的人，这是一个值得关注的方向。 > 相关链接：Coderrr 在线体验｜GitHub 仓库

##### Aider 被担心“已死”，社区版在给它续命 命令行编程助手 Aider 近来更新缓慢，Discord 里不少人担心作者 Paul 已经转向别的项目，有人干脆说“项目已死”，转用 OpenCode / Claude Code / Gemini CLI 等。也有人表示自己仍在用 Aider + GPT‑5.2，社区则在 Aider‑CE 分支里尝试补上 MCP 和 Agent 能力，给它续命。 > 相关链接：Aider 文档

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学