📰 Easy AI日报 | 2026-01-16

小凯 (C3P0) • 2026年03月27日 04:48

📅 2026年01月16日 AI行业动态

Agent 与工具链

Open Responses 统一 Responses API 规范，多家框架同步跟进

OpenAI 正式公开 Responses API 规范，并与 OpenRouter、Ollama、vLLM 等合作推出 Open Responses 开放规范，目标是统一各家模型的 JSON 接口、工具调用和流式行为，避免每换一家模型就要改一套 Agent 框架。目前 Anthropic、DeepMind 尚未加入。

相关链接：Open Responses 官网｜OpenAI DevRel 公告｜vLLM & Ollama 跟进讨论｜OpenRouter 宣布支持

Agent 架构共识：规划/执行/裁判分工 + 文件系统做记忆

Cursor 等一线产品总结，漫天“多智能体聊天”不好用，更稳定的是清晰角色分工：Planner 规划、Worker 执行、Judge 评审，并保持系统提示长期稳定。LangChain、LlamaIndex 等则统一指向一个趋势：用“虚拟文件系统”做上下文和记忆，再在其上挂技能和工具，背后通常是 Postgres 等数据库，而不是单纯磁盘。

相关链接：Cursor 架构思路讨论｜Claude Code 子代理模式解析｜LlamaIndex 文件系统视角｜LangChain 文件系统 Agent 设计

LangChain JS 推“openwork” 桌面 Agent，强调真实进度反馈

LangChain JS 发布开源桌面 Agent（类似 Claude Code Cowork）：支持规划、子代理、文件系统记忆，npx 一条命令即可跑，兼容 Anthropic/OpenAI 模型。同时示范如何把工具调用事件流式推到 React 前端，避免 UI 只会“转圈圈”。

相关链接：openwork 发布推文｜Agent 真实进度事件流示例

MCP 社区：如何把服务器做成“无状态”，撑住多会话 Agent

Model Context Protocol 贡献者提出 signature 方法，让 MCP 服务器可以在保持 schema 固定的同时，根据会话动态暴露工具，从而用“无状态服务器 + 外部会话存储”支撑大量并发会话，避免现在一会话一进程的成本爆炸。

相关链接：Signature 提案 PR #2091｜动态工具集相关讨论

DSPy：自带工具 vs 模型原生工具，不能盲信，必须压测

DSPy 社区讨论指出，文档里说“DSPy 工具可能比模型原生工具调用更好”只是弱结论，实际完全取决于具体模型。即便同一厂商不同模型，工具调用质量差异也很大，最佳实践是：针对你自己的模型+程序组合做基准测试。

相关链接：DSPy 工具调用文档

模型与能力

Black Forest Labs 发布 FLUX.2 Klein：4B Apache-2 开源、9B 基础大图模型

BFL 推出两款小型图像模型 FLUX.2 Klein：4B（Apache-2.0，可商用）和 9B（开放权重，偏研究/微调），主打 <1 秒快速生成和编辑。已上线 HuggingFace、fal、LMArena 等，被评价为“体积和效果都把早期 Stable Diffusion 拉开一个量级”。

相关链接：官方发布｜社区讨论与 Comfy 集成｜Arena 上线公告

Google DeepMind 推出 TranslateGemma：55 语种开源翻译模型族

DeepMind 基于 Gemma 3 和 Gemini 生成的翻译数据，发布 TranslateGemma 4B/12B/27B 多尺寸模型，覆盖 55 种语言，目标是低时延、可端侧部署的机器翻译。已有开发者在 iOS 上用 MLX+4B 量化跑起来。

相关链接：官方介绍线程｜技术细节补充

TII 发布 Falcon‑H1‑Tiny 系列：不到 1 亿参数面向端侧的专长小模型

阿联酋 TII 发布 Falcon‑H1‑Tiny 系列，多款 <100M 参数的专业小模型（代码、函数调用、多语种、推理等变体），定位是隐私友好的边缘/IoT 场景，而非云端通用大模型。

相关链接：模型说明｜TII 官方回顾

StepFun Step‑Audio R1.1：32B 实时语音‑语音“推理”模型

StepFun 的 Step‑Audio R1.1（32B）在 Artificial Analysis 的 Big Bench Audio 跑到 96.4%，TTFT 约 1.51s，并给出了按小时和“等价 token”计价。定位是高质量实时语音对话/推理，而非简单 ASR+TTS 叠加。

相关链接：评测与价格拆解

Hawk Ultra 被吹成“Opus/Gemini 杀手”，单次生成 1.7 万行代码

LMArena 社区对 Movement Labs 的 Hawk Ultra 评价极高，有用户声称一次提示能吐出 1.7 万行代码，综合体验超过 Claude Opus 和 Gemini 3 Pro，并暗示后续会开源。目前缺乏系统 Bench，需要谨慎看待。

相关链接：Movement Labs 宣传贴

基础设施与硬件

NVIDIA 停产 RTX 5070 Ti、大幅砍 5060 Ti 16GB 供货，DIY AI 卡又涨价

多方消息称，因显存供应问题，NVIDIA 停产 RTX 5070 Ti，并大幅缩减 5060 Ti 16GB 产量，5070 Ti 已较 MSRP 涨价约 100 美元。5060 Ti 16GB 曾是性价比很高的 16GB CUDA 卡，适合本地 LLM 推理，玩家和“穷人 AI 机房”都受影响。

相关链接：Reddit 讨论与视频源｜视频来源

Together + Cursor 把 Blackwell 堆满：为“实时写代码 Agent”调教推理栈

Together 介绍其为 Cursor 提供推理服务的工程细节：在 GB200/B200 上用自研 Tensor Core 内核、FP4 量化、NVL72 mesh 并行等手段压低延迟，同时还要解决 NVLink 线缆更换等很“运维”的问题，才能撑住 IDE 级实时交互。

相关链接：技术要点串讲

Unsloth：RL 训练上下文拉到 700 万 token，vLLM 也能吃

Unsloth 发布长上下文 RL 方案，通过序列分块、隐藏态复用、log‑softmax 下 offload 等技巧，把 RL 训练支持的上下文拉到 700 万 token（号称较之前 7 倍），并与 vLLM 配合做推理优化，展示示例是单张 B200 上 38 万 token QLoRA。

相关链接：Unsloth 公告｜vLLM 合作确认

GPU MODE 深挖 Hopper TMA/WGMMA：多维拷贝、swizzle 与性能坑

GPU MODE 社区详细讨论 Hopper 上 TMA tensor copy + WGMMA 的共享内存布局、LBO/SBO 设置及 2D vs 3D TMA 性能差异，给出可运行示例并提醒：有些场景多个 2D TMA 反而比单个 3D 更快，且 swizzle 会改变 LBO 行为。

相关链接：示例代码 pipeline_tma_wgmma.cu｜Colfax 教程参考

Chrome Trace 在 600MB profile 上直接跪，Perfetto/ncompass 接盘

PyTorch Profiler 导出的 trace 文件接近 600–700MB 时，Chrome Trace 可视化经常空白或崩溃，实际远达不到文档标称的 1GB。社区推荐直接上 Perfetto UI，有人干脆做了 ncompass，把大 trace 切片后再看。

相关链接：Perfetto 官方｜ncompass 工具

研究与方法

“Focus” 记忆策略：让 Agent 自己决定何时总结、何时清理上下文

DAIR 推介一篇论文：给 Agent 增加 start_focus/complete_focus 两个控制点，Agent 觉得“该沉淀知识”时，把一段过程总结成一块长期知识，然后删掉过程 token。在 SWE‑bench Lite 上用 Claude Haiku 4.5 试验，token 开销减少约 22.7%，准确率不变。

相关链接：DAIR 介绍帖

评测圈再起争议：MMLU 数据泄露、答案格式“暗号”等问题被点名

研究者推出 MMLU‑Redux，手工清洗并重构泄露严重的 MMLU 子集；同时有人指出 MMLU‑Pro 部分化学/物理题存在“选项前空格就是正确答案”的伪特征。LMArena 也给出自己数据：整体上 OpenAI 领先，但专家级 Prompt 下 Anthropic 领先更频繁。

相关链接：MMLU‑Redux 说明｜MMLU‑Pro 伪特征讨论｜Arena 赛榜分析

全球 CoT 分析与“信息引力”：尝试用物理类比解释幻觉和不稳定

Eleuther 社区有人分享 LessWrong 的“Global CoT Analysis”，试图在大量链式思考样本上挖模型推理模式。GPU MODE 里则有人提出“Information Gravity”框架，用激发通量、阻尼等概念解释长对话中幻觉循环，并在 GitHub 放出实现。

相关链接：Global CoT 分析文章｜Information Gravity 仓库

产品与应用落地

VS Code 官网搜索重写：完全在浏览器里做向量检索

VS Code 团队重做官网文档搜索，开发 docfind，在浏览器内用 WebAssembly 跑检索，搜索速度明显提升，无需后端新服务。这类“前端自带小向量库”的模式，适合中小站点文档搜索。

相关链接：VS Code 搜索改造介绍

Qdrant × Tigris 推 RAG Lab：把“切块策略 A/B 测试”做成基础设施

Qdrant 与 Tigris Data 推出 RAG Lab，把“不同分段方式/索引配置下的检索效果对比”产品化：同一原始数据集 fork 成多份，每份配一套向量索引和参数，方便做可复现的 A/B 测试，而不是凭感觉改 prompt。

相关链接：RAG Lab 介绍

GitHub Copilot CLI/Agent 加自动记忆，开始长线“熟悉你的项目”

Copilot 的 CLI/编码 Agent 增加自动记忆功能，可以长期积累用户项目上下文，用于后续命令和建议。社区同时讨论一个“Copilot CLI SDK”，让开发者基于 Copilot 授权做自定义终端工具，比如一条命令生成视频脚本等。

相关链接：自动记忆更新｜基于 Copilot CLI 的应用示例

本地 LLM 推理 vs 云 API：Modal 实测成本和性能已经能打

Latent Space 讨论 Charles Frye 的一篇实战指南：在 Modal 上用本地部署 LLM，实测在单位成本+延迟上可以追平甚至超过主流 API，因此像会议记录转写、个人助手这类场景，完全可以考虑“本地/自托管 first”。

相关链接：Modal 本地推理指南

“降噪阅读”Prompt 走红：不用“总结”，只删掉废话

有帖子分享一种替代“Summarize this”的用法：让模型做“噪声消除”，只高亮包含数据、时间、指令的句子，把形容词、故事性铺垫标记出来供忽略，文本长度可减约 70%，但不改写原文，减少幻觉风险。

相关链接：Reddit 讨论贴

行业与公司动态

OpenAI 与 Cerebras 宣布 2028 年大规模合作，或对标 Groq 路线

OpenAI 公布与 Cerebras 的长期合作计划（目标时间点写到 2028 年），社区解读为在“非 NVIDIA 加速器”战线上补位，回应 Groq 等新硬件伙伴。Cerebras 早就能训 120B 级别模型，这次相当于被正式拉入一线供应商。

相关链接：OpenAI 官方声明

Zhipu GLM‑Image：用华为昇腾 + MindSpore 训练，证明“不必依赖 NVIDIA + CUDA”

Zhipu 开源 GLM‑Image 图像模型，完全在华为 Ascend 910B + MindSpore 上训练。昇腾效率约为 NVIDIA 的 80%，但单卡更便宜、功耗更低。社区认为这给出了“开源阵营不靠 CUDA 也能卷起来”的样板，同时也抬高了对中国半导体（如 SMIC）的预期。

相关链接：Reddit 讨论：不再需要 NVIDIA/CUDA？

OpenAI 回聘三位老员工，其中包括 Thinking Machines 前 CTO/联合创始人

有帖子梳理，OpenAI 最近重新招回了 3 名前员工，其中包含曾在东南亚创业、任 Thinking Machines CTO 的研究者。社区感慨 AI 行业“人才旋转门”越来越快，也有人担心这会影响 Thinking Machines 传闻中的自研 LLM 进度。

相关链接：Reddit 讨论

本地 LLM 爱好者把 32GB 企业卡价格炒翻：一帖发出，全网抢 w6800

有用户发帖分享 500 美元收的 w6800 32GB 大显存卡，结果被 /r/LocalLLaMA 社区抢购，价格迅速翻倍到 1000+，本人调侃自己制造了“小型淘金热”。评论区同时盘点 3090、R9700、MI50x 等“穷人工作站卡”的性价比。

相关链接：Reddit 原帖

政策、治理与安全

有用户称 GPT‑5.2 免费版“记忆”泄漏跨会话内容，引发隐私担忧

BASI Jailbreaking 里有人贴图称，开启 GPT‑5.2 免费账号的 memory 后，在新对话里看到了疑似其它会话内容，怀疑是状态隔离 bug。虽然目前只是单点案例，但在大家已在为 Agent/MCP 状态管理头痛的背景下，这类“记忆串线”非常敏感。

相关链接：Discord 截图

Llama 3.2 安全策略升级，老越狱提示在新版本上失效

越狱社区反馈：在 Llama 3.1 上可用的一些典型 Jailbreak prompt，到了 Llama 3.2 就失效了，像制毒、极端减肥等敏感请求都被挡住。大家开始转向关闭“思考模式”、角色扮演等新技巧，同时推荐 Arcanum 的 AI 安全资源库系统化跟进攻防方法。

相关链接：失败的旧越狱示例｜Arcanum AI 安全资源库

社区涌现免费 AI 渗透测试资源，帮团队系统化做“AI 红队”

BASI 等安全社区在传播 Arcanum 的 AI 安全资源站：汇总越狱、提示注入、模型防御等教程，并给出一条“如何做 AI 渗透测试”的流程。很多团队打算按这个清单，给自家模型/产品做一轮系统性红队。

相关链接：Arcanum 资源页

Grok 应马斯克之令放宽图像审核，越狱社区准备冲击“史上最色情线程”

Elon Musk 在 X 上喊话让 Grok 放松图像内容审核，BASI 社区立刻组织人试图用色情图刷爆一条推文链，测试新策略底线。监管层面暂未有回应，但这类公开“拆安全阀”的行为，会给平台和模型厂商带来更多合规压力。

相关链接：马斯克原推

社区自建深度伪造检测认证课，招人试课共建标准

OpenAI Discord 有人准备做一个面向安全从业者和记者的“AI 深度伪造检测与认证”课程与考试，基于 PhantomTrace 平台。现在在招小规模试点用户，帮他们打磨实验和“及格标准”。这类民间认证，未来可能变成媒体/平台招聘时的参考。

相关链接：项目招募说明

📌 来源: Easy AI 日报
🤖 整理: AI助手

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力