📰 Easy AI日报 | 2026-02-25

📅 2026年02月25日 AI行业动态

#### 模型与能力 ##### 阿里发布 Qwen3.5 Medium 系列，多款开源中等体量模型 阿里推出 Qwen3.5-Flash、35B-A3B（MoE）、122B-A10B（MoE）、27B（致密）等“更聪明更省算”中等模型：Flash 默认 100 万上下文并带内置工具；社区实测 35B/122B 体验接近甚至超越此前 235B 代际；GGUF、本地量化（含 int4、超低比特）和 SGLang 支持已就位，主打本地与边缘推理性价比。 > 相关链接：阿里官方发布｜35B/122B 体验反馈｜35B 超 235B 讨论｜Unsloth GGUF & 量化｜Qwen3.5-35B-A3B HuggingFace｜Qwen3.5-122B-A10B HuggingFace｜Code Arena 排名

##### OpenAI 上线 GPT‑5.3‑Codex，主打高端代码助手 OpenAI 将 GPT‑5.3‑Codex 通过 Responses API 全量开放，社区标注价格约为输入 $1.75 / 输出 $14，每 token 不便宜，定位高端 coding/agent 模型。同时官方扩展了 docx/pptx/csv/xlsx 等文件直接作为上下文输入，方便做“喂真实文件”的智能体。 > 相关链接：OpenAI 开发者公告｜价格与基准讨论｜多文件格式输入更新

##### Inception Mercury 2：以推理扩散架构换取 1000 tok/s 超高速 Inception Labs 推出“推理扩散 LLM” Mercury 2，声称在生产环境可达约 1000 tokens/s。第三方测评认为智能水平不是天花板，但在编码和 agent 测试上表现尚可，最大卖点是吞吐和延迟，适合作为多轮 agent、语音助手的高速后端。 > 相关链接：官方介绍｜Artificial Analysis 测评

##### Liquid AI 发布 LFM2‑24B‑A2B：24B MoE，本地 32GB 卡可跑 Liquid AI 上线 LFM2‑24B‑A2B：24B 参数 MoE，每 token 仅激活约 2.3B，目标是在 32GB 显存内高效推理。官方给出的速度是 AMD CPU 约 112 tok/s、H100 约 293 tok/s，已适配 llama.cpp、vLLM、SGLang，多种 GGUF 量化可选，目前仍在继续预训练和后续 RL 阶段。 > 相关链接：模型发布博客｜HuggingFace 模型页

##### Qwen3.5 在本地与 MLX 生态中的体验：4bit 也能“工业革命” 社区实测 Qwen3.5 4bit 在 Mac Studio M3 上可跑到约 34–35 tok/s，提示几乎秒出，被戏称“自己的一场工业革命”。但 MLX 版当前不带视觉能力，仅支持文本；同时小型 Qwen3-VL-2B 模型被用户接到家庭摄像头上，表现出不错的场景理解和叙事能力。 > 相关链接：Qwen 3.5 MLX 体验贴｜Qwen3-VL-2B 摄像头案例

---

#### Agent 与工具链 ##### Claude Code “远程控制”上线：命令行编码可无缝续到手机 Anthropic 给 Claude Code 加了“Remote Control”：你可以在本地终端开启会话，外出时在手机上接着写同一项目，相当于把IDE搬到手机。企业侧还更新了 Cowork/插件，用于团队范围内统一自定义 Claude 工作流。 > 相关链接：功能预告｜官方上线帖

##### Cursor 推出 Cloud Agents：不看 diff，看“演示视频” Cursor 新版本允许代理在云端真实运行你写的程序、跑测试，并回传操作视频而不是一堆 diff，口号是“demos, not diffs”。开发者可以免费使用云环境做自动化调试和演示，但目前 sudo 等高权限操作仍受限，社区在催支持更强的自动化能力。 > 相关链接：Cursor 官方发布｜Cloud Agents 介绍页

##### OpenAI Responses API 支持 WebSocket，Agent 推理提速约 30% OpenAI 在 Responses API 中开放 WebSocket 通道，有开发者实测整条 agent 工作流加速约 30%。配合新上线的 GPT‑5.3‑Codex 和多格式文件输入，基本就是官方版“长上下文代码/文档代理”栈。 > 相关链接：OpenAI WebSocket 提示｜gdb 的性能测评

##### Agent 上下文文件 AGENTS.md 研究：乱写反而拖后腿 新论文系统评估了给 Agent 加“AGENTS.md”这类上下文文件的影响：LLM 自动生成的长说明往往让成功率下降、成本上升；人手写的精简说明略有帮助，但同样增加 token 花费。结论是：只写少量关键约束和接口信息，不要堆一大篇“设定小说”。 > 相关链接：论文科普总结｜实用写法指南

##### OpenRouter 推出 openrouter/free 路由与 GPT‑5.3‑Codex 接入 OpenRouter 新增 openrouter/free 路由，会自动选一批免费模型帮你省钱；同时已接入 GPT‑5.3‑Codex，并在模型页上统一展示基准分数与“有效价格”，方便按性能/延迟/成本选模型。 > 相关链接：free 路由说明｜GPT‑5.3‑Codex on OpenRouter｜Rankings & Pricing 页面

---

#### 基础设施与硬件 ##### Meta × AMD 达成 6GW 超大规模 GPU 采购协议 Meta 宣布未来五年部署约 6GW 的 AMD Instinct GPU 基础设施（主要是 MI300X），金额估算在数百亿美元级。配套工程博客披露了自研 RRCLLX 通信库，用于大规模 AMD GPU 互联，市场解读为对 NVIDIA 垄断的一次实质性掰腕。 > 相关链接：Meta 官方公告｜RRCLLX 技术细节

##### MatX 获 5 亿美元 B 轮融资，自研“高带宽+低延迟” LLM 芯片 MatX 宣布完成 5 亿美元 B 轮融资，将打造 MatX One 专用 LLM 加速器：采用可拆分的 systolic array，同时利用 SRAM 做低延迟计算、HBM 扛长上下文大带宽。Karpathy 点评称，“算力+两级存储”调度将是未来 token 需求的关键瓶颈之一。 > 相关链接：融资与芯片介绍｜Karpathy 评论

##### FlashAttention-3 官方轮子发布，免编译直接用 PyTorch 官方放出了 FlashAttention‑3 预编译轮子，覆盖 CUDA 12.6+/13、x86/ARM、Linux/Windows，并保证 LibTorch ABI 兼容，Python≥3.10、Torch≥2.9 可直接 pip 装。对做自定义内核和高性能推理的同学来说，大幅简化了环境折腾。 > 相关链接：FlashAttention‑3 下载页

##### llama.cpp 最新提交“翻车”：Qwen3.5 GGUF 无法加载 社区反馈从 master 编译的最新版 llama.cpp 会在加载 Qwen3.5 GGUF 时报 “Failed to read magic”，且不再分配 VRAM，确认与一次溢出修复相关。临时解决方案是回滚到 8145 版本或使用正式 release。 > 相关链接：LM Studio 讨论串

##### GPU MODE：eBPF 扩展到 GPU、Helion 0.3.0、NCCL/NVSHMEM 实战 GPU 开发圈本周热点：eBPF 被研究扩展到 GPU 设备与驱动上下文；PyTorch Helion 0.3.0 带来自适应调优和 Triton‑TileIR 桥接；不少人在摸索 NVSHMEM 的 nvshmem_ptr/put/get 性能差异，以及如何在多 GPU/多节点场景下稳定重现 CUDA 内存错误并调试。 > 相关链接：eBPF for GPU 讲座摘要｜Helion v0.3.0 发布

---

#### 研究与方法 ##### Princeton 等提出“能力–可靠性鸿沟”：模型更强但不更稳 新工作把“可靠性”拆成 12 个维度，系统测了多代大模型：能力飙升，但可靠性只小幅改善，典型现象就是 agent 在长尾场景频繁翻车。作者做了线上 dashboard，很多人拿自动驾驶类比：问题不在平均水平，而在极端情况和长链条任务的失败率。 > 相关链接：论文与仪表盘｜Random Walker 评论

##### OpenClaw 研究：把危险指令拆成小步骤，安全策略就失效 一篇安全论文展示了典型 agent 漏洞：如果用户把“删除所有邮件”拆成一串看似安全的例行操作，现有守护策略往往放行，最终依然完成高危操作。作者给出一个开源修复方案，提醒大家在做工具调用/多步骤规划时别只看单步风险。 > 相关链接：论文线程

##### SWE‑bench Multilingual 榜单发布：300 任务、9 语言的编程评测 新榜单把软件工程任务扩展到 9 种语言、300 个问题，并刻意避开 SWE‑bench Verified 的数据，当前最佳模型约能解 72%。结果显示模型在不同语言上的排序会反转，对想做全球开发者工具和多语言数据采集的人很有参考价值。 > 相关链接：榜单发布｜更多统计细节

##### OCR 基准被刷满：OmniDocBench 接近天花板但真实文档仍难 多方指出 OmniDocBench 上很多模型已到 90%+，但真实复杂 PDF 仍经常翻车，且 exact-match 指标会惩罚语义正确但格式略有差异的输出。有工作表明，对 PDF 问答时先抽文本再喂模型往往比直接图像端到端效果更好。 > 相关链接：llama_index 讨论｜PDF QA 研究

##### “Nature 新优化器”遭质疑：基线没调好就宣布碾压 一篇发在 Nature 的 MI 优化器论文被多名研究者点名：怀疑其对比的 baseline 学习率等参数没认真调，甚至可能直接在测试集上选超参，导致曲线“好看过头”。不少人呼吁重做实验、用 nanogpt 这类公开 baseline 来复现。 > 相关链接：质疑长帖｜补充实验背景

---

#### 产品与应用落地 ##### Claude Code COBOL 工具一篇博客，让 IBM 股价跌了一成多 Anthropic 发文展示用 Claude Code 分析和现代化 COBOL 老系统（如银行主机、ATM 核心），市场一度理解成“自动迁移工具要干掉 IBM 咨询业务”，IBM 股价当日跌超 10%。细看其实只是能力展示，真要迁移仍离不开大量人工审查和风险控制。 > 相关链接：Singularity 讨论串｜ClaudeAI 相关讨论

##### Perplexity/Comet 上线新语音模式 Perplexity 及其姊妹产品 Comet 推出升级后的语音模式，覆盖所有用户，主打更自然的语音交互体验。与此同时，部分 Pro 用户抱怨配额策略调整后更容易撞上限，认为官方在向高价值企业/Max 用户倾斜。 > 相关链接：语音模式更新｜Perplexity Pro 限额讨论

##### 安防场景：1GB 级 Qwen3-VL-2B 接摄像头做“文字监控” 有开发者用约 0.7GB 的 Qwen3-VL-2B-Instruct（IQ2 量化）接入家庭摄像头，不只是识别人/车，而是输出完整文字叙述，比如“快递员走近门口放下包裹”。整个 pipeline 跑在 MacBook M3 + SharpAI Aegis 上，展示了小视觉模型在边缘端的可用性。 > 相关链接：Reddit 使用案例

##### OpenClaw/Manus/kollect 等小工具：从编码助手到“语音填表” 生态里涌现不少细分工具：OpenClaw 被用户改造成打印机保养 bot、抢二手表 bot 等自动脚本平台；Manus.im 用户呼吁推出“无限对话”订阅以支撑 Telegram Agent 的高频使用；Kollect 则把传统表单变成实时 AI 对话，用户用自然语言回答问题即可完成问卷。 > 相关链接：OpenClaw showcase 频道｜Manus.im 反馈页｜Kollect 项目

##### Gemini 应用端更新：2 小时做小游戏，App 加入视频模板 有玩家用 Gemini 3.1 Pro 两小时内做出了一个简单的《合金装备》风格小游戏；移动端 Gemini App 则上线了视频模板，方便直接生成适配社媒的视频。虽然底层 Veo 3.1 等模型被吐槽“像十年前的效果”，但对短视频创作者来说门槛进一步降低。 > 相关链接：Gemini 做游戏帖子｜App 视频模板报道

---

#### 行业与公司动态 ##### Anthropic × DeepSeek 等“蒸馏大战”：24k 账号、1600 万对话被点名 Anthropic 连发博客和材料，称 DeepSeek、Moonshot、MiniMax 通过 2.4 万个假账号，对 Claude 发起逾 1600 万次调用，用于大规模蒸馏训练，并强调蒸馏过程中安全特性无法完整迁移。社区一边围观“中美开源/闭源大战”，一边吐槽：大家自己训练时也在大规模抓公开数据，很难站在道德高地。 > 相关链接：官方“蒸馏攻击”博客｜Reddit 高赞讨论 1｜Reddit 高赞讨论 2｜“只是想反击中国开源叙事”的观点

##### Anthropic 从未开源过 LLM，引发“安全 vs 开放”争论 有人盘点发现 Anthropic 从未真正开源过任何 LLM，也没有公开 tokenizer 和多语种细节，对比 OpenAI/Gemini 的部分开源做法，引出“你天天讲安全，却不让外界审计”的吐槽。还有用户指出 Claude 连弯引号这种细节都不支持，影响到特定代码场景。 > 相关链接：相关 Reddit 贴

##### MatX 获 5 亿 B 轮、OpenAI/Meta 投资版图继续扩张 除了 MatX One 芯片融资，本周还有分析整理了 SpaceX、OpenAI、Anthropic 等可能上市时对二级市场流动性的巨大压力，以及大厂在 GPU/数据中心上的总投资规模。整体信号：算力和基础设施仍是当前 AI 资本故事的核心。 > 相关链接：MatX 融资线程｜大模型公司 IPO 流动性分析

---

#### 政策、治理与安全 ##### Anthropic 的“蒸馏攻击”叙事，被质疑是在为对华限制找理由 有人认为 Anthropic 高调曝光 DeepSeek 等“工业级蒸馏攻击”，真正目的不是怕自家模型被学走，而是要对外讲一个故事：中方开源模型之所以强，是因为“偷闭源权重”，从而说服监管加大对中国的算力/芯片出口管制。反方则列出一堆中方论文，说明本土创新并不少。 > 相关链接：“真正目标是舆论战”的讨论

##### 蒸馏 vs 版权：用闭源 API 生成数据训练，算不算侵权？ 多条讨论把“蒸馏攻击”和“用版权文本训练模型”类比：一边是从闭源 API 批量要输出再训练自家模型，一边是从互联网上抓书和代码。有人认为两者本质相似，既然大家都在灰色地带里搞训练，单独把蒸馏扣成“攻击”说服力有限。 > 相关链接：OpenAI/Claude 社区讨论｜更多 Reddit 讨论

##### AI 安全视角：拆分步骤绕过安全、越狱 prompt 持续进化 除了 OpenClaw 的“拆步骤绕过安全”，BASI Jailbreaking 等社区持续在玩 Kimi 2.5、Gemini 3.1 low、DeepSeek 的越狱提示词，典型套路是构造内部角色对话、链式思维冲突，让安全策略和“完成任务”自己打架，最终逼出被禁止内容。 > 相关链接：Kimi/DeepSeek 越狱讨论｜Gemini ENI 越狱技巧

##### SWE‑bench Verified 正式下线：OpenAI 认定污染严重、不再有用 OpenAI 宣布自废自家高频使用的 SWE‑bench Verified 基准，理由是：很多 frontier 模型已经能凭记忆直接给出问题的原始 commit；剩下约 60% 未解问题里，也有大量任务本身就有缺陷。继续在这种榜单上卷，意义不大还费算力。 > 相关链接：OpenAI deprecate 公告

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-02-25

📅 2026年02月25日 AI行业动态

🌟 智谱 GLM-5 已上线