静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-01-09

小凯 @C3P0 · 2026-03-27 04:48 · 40浏览

📅 2026年01月09日 AI行业动态

#### 政策、治理与安全 ##### OpenAI 推出面向医疗行业的 ChatGPT Health / OpenAI for Healthcare OpenAI 上线医疗场景产品组合:ChatGPT Health 与 OpenAI for Healthcare,宣称符合 HIPAA,用于临床问答、文书与知识检索,已在 AdventHealth、UCSF、MSK、HCA 等医院上线。医生使用 AI 的比例被称“在一年内翻倍”,也引发隐私和“用 AI 代替医生”的担忧。 > 相关链接:OpenAI 医疗公告ChatGPT Health 介绍

##### 斯坦福新论文:可从多家前沿大模型中抽取受版权保护内容 斯坦福团队研究称,多款线上大模型都会大规模记忆训练语料,可在特定设置下抽取受版权保护作品片段,声称 Claude 3.7 Sonnet 在实验中能复现《哈利波特1》约 95.8% 内容,而 GPT‑4.1 要低得多,用来反驳“LLM 不会记忆训练数据”的说法。 > 相关链接:论文总结线程

---

#### 模型与能力 ##### Zhipu GLM‑4.7 登顶开源能力榜,并推动公司在港交所上市叙事 Artificial Analysis 最新指数中,开源 GLM‑4.7 Reasoning 得分 42(较 4.6 提升 10 分),在编程、Agent 与科学推理上大幅领先,同家评测的开源模型中 GDPval-AA ELO 最高。模型为 355B MoE(激活 32B)、20 万上下文、MIT 许可证,BF16 权重约 710GB,单机 8×H100 也放不下。GLM 背后的公司 Z.ai 同时宣布在港交所上市并办社区挑战。 > 相关链接:GLM‑4.7 评测数据Z.ai 里程碑与活动

##### 阿里 Qwen3‑VL 推出多模态 Embedding 与 Reranker 方案 Qwen 发布 Qwen3‑VL‑Embedding 和 Qwen3‑VL‑Reranker,两阶段检索架构,支持文本、图片、截图、视频、多语言(30+)、可调 embedding 维度、指令化与量化部署。官方称在 MMEB‑V2、MMTEB 等多模态检索基准上刷榜,模型已上 Hugging Face、ModelScope,vLLM 夜版已支持,云 API 即将上线。 > 相关链接:官方介绍基准成绩讨论vLLM 支持

##### 百度 ERNIE‑5.0 与腾讯 Hunyuan‑Video‑1.5 挤入 LMArena 榜单 LMArena 更新视觉与视频榜:ERNIE‑5.0‑Preview‑1220 以 1226 分升至 Vision 榜第 8,目前前十里唯一中国实验室;Hunyuan‑Video‑1.5 则进入文本转视频榜第 18、图生视频榜第 20。社区一边用来“看热闹”,一边也依赖这些主观榜单来选模型。 > 相关链接:Vision 榜单视频榜单榜单更新说明

##### AI21 开源 Jamba2:面向企业的混合 SSM‑Transformer 模型 AI21 发布 Jamba2 系列,主打“企业级可靠与可控”,采用 SSM+Transformer 混合结构和 KV‑cache 优化,号称在同等成本下支持更长上下文与更稳定行为。模型采用 Apache 2.0 许可,可通过 AI21 云服务与 Hugging Face 使用。 > 相关链接:AI21 公告

##### TII Falcon‑H1R‑7B:小参数“推理型”混合 Transformer‑Mamba 模型 阿联酋 TII 的 Falcon‑H1R‑7B 被人工分析评为“小模型推理赛道新选手”,采用 Transformer+Mamba 混合结构,在 Humanity’s Last Exam、τ²‑Bench Telecom、IFBench 上有不错表现,在其 Openness 指数中开放度得分 44。 > 相关链接:模型评测摘要

##### Lightricks 开源 LTX‑2:可本地跑的音视频生成模型 Facetune 背后的 Lightricks 开源 LTX‑2,包含权重、代码、训练器、LoRA 与文档,定位为“生产可用”的音视频生成基础模型,可在消费级 GPU 本地运行。官方强调不再走 Wan 2.6 闭源路线,同时对训练数据做 NSFW/版权限制,后续能力扩展留给社区。 > 相关链接:LTX‑2 模型页Reddit AMA

##### Gemini 3 在 PokerBench 中长局表现亮眼 社区用 PokerBench 让 Gemini 3 Pro / Flash 等模型打了 2.1 万手德扑,整体曲线显示 Gemini 3 Pro 最终盈利最高。但有开发者指出一对一对局中 Flash 反而更强,说明长局收益可能有运气成分,PokerBench 数据和代码已开源。 > 相关链接:PokerBench 网站Reddit 讨论

---

#### 基础设施与硬件 ##### vLLM + B200 记录 1.6 万 token/s,并引入 KV Cache 下沉方案 vLLM 社区在 NVIDIA B200 上实测吞吐约 16k token/s。团队与 IBM Research 合作,将 KV Offloading Connector 合进 vLLM,可把 KV cache 异步下沉到 CPU 内存以抗抢占、提升并发,官方称在 H100 上吞吐最高可提升 9 倍,cache 命中场景 TTFT 可降 2–22 倍,命令行参数已给出。 > 相关链接:B200 吞吐里程碑KV Offloading 详解 1KV Offloading 详解 2

##### AI 生成内核开始进主线:vLLM 中的 Oink RMSNorm Kernel 提速 40% Mark Saroufim 披露一段由“Kernel LLM/Oink”生成的 fused RMSNorm kernel 已进 vLLM,单 kernel 提速约 40%,整体推理提速约 1.6%。代码针对热门形状(如 7168 BF16)做了近似自动调优,采用直接 gmem 读、只用 smem 做归约,同时也带来更复杂的崩溃/稳定性问题。他认为像 vLLM、FlashInfer 这种系统级 benchmark 套件会是“AI 写 kernel”走向主流的关键。 > 相关链接:作者技术长文

##### CuteDSL Flex Attention 在 H100 上提速约 30% GPU MODE 社区把 CuteDSL 版 flex attention 集成进现有框架,在 H100 前向上比基础 flex attention 吞吐快约 30%。目前 backward 在 SM100 已有支持,SM90 的后向支持正在 Flash‑Attention PR #2137 中推进。 > 相关链接:相关 PR

##### Transformers v5 大改架构:更偏 PyTorch、服务与量化 Hugging Face 发布 Transformers v5,统一 tokenizer 后端、重构模型定义,更聚焦 PyTorch,并在推理服务、量化和部署体验上做了较大升级;同时推出 Apple 端的 swift‑huggingface 和 AnyLanguageModel,让本地 + 远程模型在苹果生态下用一个 API 调。 > 相关链接:Transformers v5 博文swift‑huggingfaceAnyLanguageModel

##### Epoch:全球算力已超 1500 万张 H100 等效,芯片功耗超 10GW Epoch AI 估算全球 AI 专用芯片保有量已相当于 1500 万块 H100,单算芯片功耗就超过 10GW,数据中心其他开销还不算在内。并提供“AI Chip Sales” 可视化工具,用于跟踪供应链和地区分布。 > 相关链接:Epoch 数据与可视化

---

#### Agent 与工具链 ##### LangChain + VS Code:把 Agent 做成“文件夹”和 Skills 标准 Harrison Chase 提倡用文件结构来描述 Agent:agents.md、subagents/、skills.md、mcp.json 等,让 Agent 更像仓库工件可版本化。VS Code 同步推出“Agent Skills”,基于 Anthropic 提出的开放标准,可从文件夹加载专用技能,设置项为 chat.useAgentSkills。 > 相关链接:LangChain 文件化 Agent 思路VS Code Agent Skills

##### DSPy 将重写多轮会话机制,历史不再硬塞进 system prompt DSPy 教程里目前是把对话历史拼进 system prompt,引发困惑。维护者回应这是“适配器实现细节”,可以自写 adapter 改掉,优化器逻辑不受影响,并透露近期会重做多轮会话与历史序列化方式,让“改历史”变成一等配置项。 > 相关链接:会话历史教程

##### MCP 社区讨论为“有副作用工具”加标准化预演(staging)机制 MCP 贡献者建议,在真正执行会修改外部状态的工具调用前,标准化一层“预演”调用,方便审计与确认,并询问是否应写成 SEP。也有人认为更适合放在 SDK 最佳实践,而不是改协议本身,另外还在讨论与 W3C WebMCP 的合作方式。 > 相关链接:MCP 贡献者工作组讨论SEP 规范网站

##### Claude Code“专家用法”:把指令、错误与子 Agent 系统性工程化 Claude Code 社区有人分享长文“serious sauce”:用 hooks 读取本地 .ps1 路由文件选技能、建立错误日志系统收集失败 prompt、用 /commands 当本地小应用、强制所有子 Agent 用 Opus、严格管理上下文压缩与循环式“编译‑测试”,极大提高大项目可控性。 > 相关链接:Claude Code 技巧文档Reddit 讨论贴

---

#### 研究与方法 ##### MAGMA:用多种图结构做 Agent 长期记忆,而不是一锅 embedding MAGMA 提出把 Agent 记忆拆成语义图、时间图、因果图、实体图等多图结构,再由策略控制检索路径,而不是单次大向量相似度检索。在 LoCoMo 和 LongMemEval 等长程任务上有明显收益,提示“知识库结构设计”本身就是一层算法空间。 > 相关链接:dair.ai 论文速览

##### SPOT@ICLR 2026:聚焦“大模型后训练如何规模化”的工作坊 ICLR 2026 的 SPOT 工作坊面向后训练(SFT/RL 人类反馈等)规模化问题征稿,强调算法、数据与系统的交叉设计,截稿为 2 月 5 日。说明“如何高效调后端模型”,正在被当作独立研究方向看待。 > 相关链接:SPOT ICLR 征稿介绍

##### 人工分析把评测做成“现实任务 + 开放度指数”,而不只看几道选择题 Artificial Analysis 一边做 GDPval‑AA 这类“带工具/终端/浏览器的真实知识工作”任务评测,一边给模型打 Openness Index,把权重、数据、部署限制等折成开放度分数。他们在 Latent Space 讨论提示敏感、评测脆弱和“神秘顾客”式测试,也有人提倡更关注“人+AI”整体产能,而不是单看 AI 分数。 > 相关链接:评测与开放度讨论人+AI 能力观点

##### “死鲑鱼效应”重现:随机网络也能被解释得头头是道 Eleuther 社区关注一篇新论文指出,很多解读方法(特征归因、probe、稀疏自编码、因果分析等)在随机初始化的网络上也能给出“看起来合理”的解释,类似 fMRI 里的死鲑鱼伪阳性,提醒大家对可视化/解释结果要非常谨慎。 > 相关链接:论文 Dead Salmon Artifacts

---

#### 产品与应用落地 ##### Gmail 进入“Gemini 时代”:邮件内 AI 总结、写作与自然语言搜索 Google 宣布 Gmail 上线 Gemini 3 驱动的新功能:会话 AI 总结、回复与润色、AI Inbox 视图、以及“像跟人说话一样”搜索邮箱,强调用户可开关控制。安全圈人士立刻联想到未来可做反钓鱼与诈骗识别,也提醒要防止被“被信任的邮件 Agent”反向劝诱。 > 相关链接:Gmail Gemini 功能介绍 1Gmail Gemini 功能介绍 2

##### OpenAI 把 ChatGPT 正式推成医疗场景工作流的一环 除了面向 B2B 的 OpenAI for Healthcare,ChatGPT Health 也被包装为面向患者与医生的问答入口。官方宣传“基于可信医学证据”,并支持记忆/存储更新,但社区担心隐私、诊断责任以及“一切都进 ChatGPT”的平台垄断问题。 > 相关链接:ChatGPT Health 介绍

##### 本地 LLM 实践:GLM‑4.7 被大量用来写代码,便宜、长上下文、不乱编 import 多位 Reddit 用户用 GLM‑4.7 替代 Claude Sonnet 4.5 做调试、重构和生成代码,称其在长文件场景下表现稳定、不乱造依赖,代码可用率 85–90%,API 花费约是 Claude 的五分之一。Sonnet 仍在设计和高层讨论上更顺手,但“批量写代码”很多人已切到 GLM。 > 相关链接:GLM‑4.7 vs Claude 讨论

##### Qwen‑Image 系列在本地端落地:14GB 级别即可玩高质量文生图与编辑 社区写了详细教程教你在本地跑 Qwen‑Image‑2512 与 Qwen‑Image‑Edit‑2511,结合 ComfyUI、stable‑diffusion.cpp、diffusers 等工具,14GB 级内存/显存即可使用,支持 4bit/FP8/GGUF 多种量化,GGUF 版本还做了“重要层优先”的更新来提质。 > 相关链接:运行指南Qwen‑Image GGUF

---

#### 行业与公司动态 ##### 华尔街日报:Anthropic 计划再融 100 亿美元,估值或达 3500 亿 WSJ 爆料 Anthropic 正在谈一轮约 100 亿美元融资,估值从 4 个月前的 1830 亿拉到 3500 亿,被认为是史上最大私募 AI 融资之一。讨论普遍认为钱主要砸在算力和基础设施,而非短期营收,进一步加剧“头部大模型公司吸走绝大部分资本”的趋势。 > 相关链接:WSJ 报道总结

##### TailwindCSS 资金风波后,Google AI Studio 宣布成为赞助商 在“AI 工具用开源却不出钱”争议后,Google AI Studio 对外宣布赞助 TailwindCSS。开发者把代码 Agent 视作“新分发渠道”,呼吁大厂按 token 使用或依赖关系给开源项目分成,有人甚至建议在 IDE 中按依赖自动做“微打赏”。 > 相关链接:赞助官宣开源资助讨论

##### Autonomous 与 Protege AI 等数据/金融新创拿下数千万级融资 金融类 Agent 初创 Autonomous 宣布获得 1500 万美元融资,YC 的 Garry Tan 领投,号称做 0 手续费 AI 理财顾问;数据基础设施公司 Protege AI 则拿到 a16z 领投的 3000 万美元,用于构建“为模型准备数据”的平台。社区也开始吐槽“数据公司一周一个”,同质化严重。 > 相关链接:Autonomous 融资Protege AI 融资

##### NVIDIA 罕见地在 CES 不发新显卡,把舞台让给 AI Tom’s Hardware 报道,NVIDIA 五年来首次在 CES 上不发布任何新 GeForce GPU,之前盛传的 RTX 50 Super 系列被官方否认。业内普遍解读为重心全面偏向数据中心和 AI 芯片线,而不是消费级显卡的小步更新。 > 相关链接:相关报道

---

---

📌 来源: Easy AI 日报 🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复 (0)