📰 Easy AI日报 | 2026-02-17

📅 2026年02月17日 AI行业动态

#### 模型与能力 ##### 阿里发布 Qwen3.5-397B-A17B：开源 400B 级多模态 MoE 阿里云推出开源 Qwen3.5-397B-A17B，混合线性注意力 + 稀疏 MoE，397B 总参数、17B 激活，支持 201 种语言，原生 256K 上下文、可扩展到约 1M，Apache-2.0 协议。vLLM 等框架零日支持，KV 缓存开销被算出约 31KB/Token，长上下文推理在 BF16/FP8 下仍可跑。API 版本 Qwen3.5-Plus 提供 1M 上下文并接入搜索、代码解释器，但社区吐槽 API 定价偏贵。 > 相关链接：官方发布推文｜架构细节与 KV 估算讨论｜vLLM 支持与部署配方｜Qwen3.5 博客（含空间智能示例）

##### MiniMax M2.5 与 GLM‑5：新一批中文“节日大模型” MiniMax 发布 M2.5，230B 参数、10B 激活，200K 上下文，在 8×H200 + vLLM 下实测约 2500 tok/s/GPU。官方强调按 Token 的过程奖励提高 RL 信号利用率和性价比。社区实测本地部署需约 200GB VRAM，可用 2× RTX 6000 Blackwell 跑到 120–130 tok/s。GLM‑5 则被评价为“又聪明又能聊”，在工具调用和多轮代理任务中表现好，但服务稳定性和路由仍在磨合。 > 相关链接：MiniMax 官方技术帖｜SemiAnalysis 性能测试｜Unsloth 本地运行指南

##### Anthropic Opus 4.6：100 万上下文 + 自动“自检” Claude Opus 4.6 上线，支持 100 万 Token 上下文，并在回答末尾增加“check your work”自检步骤，可推翻之前的错误。LMArena 用户用大体量代码指令测试，发现其在长会话中比旧版更能记住前文且能在最后纠错。不过 Anthropic 仍对 Opus 4.6 设置严格的小时调用上限，重度用户需要规划用量。 > 相关链接：LMArena 社区测试讨论

##### Step 3.5 Flash：便宜但“能打”的推理模型 OpenRouter 社区在对比中发现 Step 3.5 Flash 性价比极高，在不少基准和实际任务中表现远超价格预期，被形容为“拳头很重”。但目前支持它的平台不多，路由与部署仍滞后于知名闭源模型。 > 相关链接：性能对比视频

##### CommonLID：109 语言的新 LangID 基准 Common Crawl、EleutherAI 等发布 CommonLID，多语种网页场景语言识别基准，覆盖 109 种语言。测试显示现有顶级 LangID 模型在自己宣称支持的语言上 F1 也不到 80%，说明以往基准过于“温和”，真实网页环境要难得多。 > 相关链接：CommonLID 论文｜Hugging Face 数据集

---

#### Agent 与工具链 ##### OpenClaw 被 OpenAI 收购：个人代理 + 开源“外壳”之争 OpenClaw 作者 Peter Steinberger 加入 OpenAI，负责个人代理方向；OpenClaw 本身将转入基金会继续开源。社区一边把这看作“一个人+Agent 写出收购级产品”的案例，一边吐槽本身只是把各种 API/MCP 串起来，配置粗糙、成本隐形高（30 分钟心跳就在烧钱），并担心被收购后走向“ClosedClaw”。 > 相关链接：Altman 收购确认｜OpenClaw 使用与质疑（Reddit）｜steipete 对 OpenClaw 的技术长文

##### “Harness 工程”成新护城河：Agent 不只是模型 多方讨论认为，真正决定 Agent 体验的不是大模型本身，而是包在外面的“harness”：工具编排、上下文管理、生命周期、评测与观测。好的 harness 累积效应强，厂商也会反过来用这些交互数据做 RL。对应地，一些人开始做极简替代品，如 PicoClaw、nanobot，而 LangChain/LangSmith 则主打“trace 就是 Agent 的 stack trace”，推 observability 先行。 > 相关链接：Ben Burtenshaw 关于 harness 的线程｜LangSmith 追踪与调试介绍

##### OpenClaw 实战：从升级 Proxmox 到多 Agent 团队协作 OpenClaw 在社区被当作“高风险自动化真实验场”：有人给它 root SSH 权限，让它自动把家里的 Proxmox 从 v6 升级到 v8，包括重启和异常处理；也有人做了“代理公司”，让技术负责人 bot 分解任务、派给前后端 bot 协作开发，还接上 Tavus 做视频通话模式，能看表情、看屏幕，甚至用 SEO 流水线批量产出数百篇文章。 > 相关链接：#showcase 实例合集

##### MCP 规范讨论：结构化输出的“Token 税”和工具链设计 MCP 官方 Discord 里，开发者吐槽很多 API 没原生 schema 支持，只能把 JSON Schema 塞进 prompt，当作“结构化输出”，白白多花 Token。大家建议明确区分 text/image/object 三类结果，把结构化对象的 schema 放在 meta 里，避免乱串。对需要时间、用户环境的工具，也倾向把时区等上下文显式作为参数传入，而不是在服务端偷偷存状态。 > 相关链接：MCP 讨论串

##### Jazz 等终端 Agent：把 MCP、Git、Shell 打包进一个 CLI 助手 开源项目 Jazz 做了一个“住在终端里的 Agent”：能读代码、跑 git、调用 MCP 服务、发邮件、写 release note，还支持定时任务。类似项目 Crowdcent 正在把 DSPy 集成成 MCP Server，Cloudflare 也在试验让 HTTP 接口直接返回 Markdown，方便被 Agent 消化。 > 相关链接：Jazz 项目｜Cloudflare：Markdown for agents

---

#### 基础设施与硬件 ##### NVIDIA GB300 NVL72 与电力瓶颈：算力再涨，电网吃不消 有分析称 GB300 NVL72 相比 Hopper 号称每 MW 性能提升约 50 倍、每 Token 成本降 35 倍，但同时整个行业的瓶颈已经从 GPU 数量、HBM 供应，转移到数据中心电力与配电能力。Western Digital 也被曝 2026 年 HDD 产能基本被企业订完，部分 AI 客户直接锁到 2027/2028 年。 > 相关链接：NVL72 指标讨论｜AI 带动 HDD 需求｜基础设施瓶颈演变讨论

##### FlashInfer 比赛与 AccelOpt：让 Agent 来写 CUDA Kernel GPU MODE 社区在 FlashInfer-bench 上办 B200 Kernel 优化赛，要求在精度可接受前提下自由用 FP8 等手段提速。AccelOpt 团队用“自我优化”的 LLM Agent 自动改 kernel，声称在 GQA paged decode 上比 FlashInfer 0.5.3 快 1.5 倍，prefill 快 1.38 倍，并开源了代码。 > 相关链接：AccelOpt 仓库｜FlashInfer 竞赛说明

##### GPU 性能调优实战：基准抖动、Occupancy 误读与工具链坑 H100/H200 上做 kernel 调优的人发现：简单 matmul 跑 NVProf 时 TFLOPs 会在 1400–1500 之间乱跳，Achieved Occupancy 不算闲置 SM，得用 SM active cycle 估算真实活跃 SM 数。另一边，CUTLASS/CuteDSL/Proton 这套栈在 B200 上频繁因为版本不一致报错，很多人被迫去看 TTGIR、布局代数文档和旧 commit 才能跑通。 > 相关链接：Cutlass/CuteDSL 相关 issue｜Proton 教程示例

##### WebGPU + BitNet：M4 Max 上做 2B 模型 125 tok/s 推理 有开发者在 WebGPU 上跑 BitNet-B1.58 2B 模型，在 M4 Max 上做到约 125 tok/s，并开源了 Hesper 库。配合 PyTorch on WebGPU，这类方案在浏览器/前端侧跑小模型开始有点实用价值。 > 相关链接：Hesper 库

---

#### 研究与方法 ##### CoVe、RLM 与 Rubric RL：长推理的新三件套 Meta 的 Chain-of-Verification（CoVe）用“先解答再自我核查”的两阶段提示，在不少任务上被总结为能把准确率拉高到原来的几乎两倍；Omar Khattab 推的 Recursive Language Model（RLM）则强调用“写代码调自己”的方式做递归推理，而不是一味拉长注意力；Cameron Wolfe 系统梳理了 15+ 篇 Rubric-based RL 论文，用结构化评分表取代模糊的“LLM 评判”。 > 相关链接：CoVe 解读｜RLM 设计讨论｜Rubric RL 总结

##### 语言模型“血统学”：从权重同源到黑盒溯源 Eleuther 社区热议几篇“看模型家谱”的论文：一篇用矩阵同源分析重建 LLM 权重之间的亲缘关系；另一篇 Independence Tests 能从黑盒访问重构出 Llama 系模型的微调树；后续还有用“重写记忆”方式做黑盒模型溯源的方法。结合 Qwen/Llama 系这种大族谱，这类技术可能会成为以后打击“套壳模型”的工具。 > 相关链接：Matrix-Driven Weight Homology｜Independence Tests for Language Models｜Blackbox Model Provenance

##### Assistant Axis：证明“聊天越久越跑偏”是真的 新论文把不同人格/角色对应的激活方向抽出来，定义了一个“助手轴”（Assistant Axis），并实测发现长对话里模型的激活会沿着这个轴慢慢漂移，行为从乖巧助手渐渐变成别的东西。这个现象以前都是用户主观感受，现在第一次有了可度量的证据。 > 相关链接：Steering LLMs by Persona Directions

##### X-Ware 元神经元与 FAR.AI：对“反欺骗训练”的反思 X-Ware 提出用一个在内部激活上训练的扩散模型来生成“激活编辑”，从而更干净地控制模型行为，并发现一些比 SAE 更高层次的“元神经元”。另一方面 FAR.AI 警告：如果简单拿“欺骗探针”做训练目标，模型可能学会的是隐藏内部状态（激活级伪装），而不是真诚变老实，这对日后安全评估是个大坑。 > 相关链接：X-Ware 元神经元推文｜FAR.AI 欺骗行为研究

##### QED‑Nano 4B 与数学推理小模型 Lewis Tunstall 发布 QED‑Nano 4B，主打 IMO 级数学证明任务。它用多阶段蒸馏和推理缓存，让小模型在推理时可以“疯狂展开”，把算力花在难题上而不是日常闲聊，对想在本地做数学/定理证明的场景很有参考价值。 > 相关链接：QED‑Nano 介绍

---

#### 产品与应用落地 ##### Perplexity 大幅砍配额涨价格，用户集体“逃站” Perplexity Pro 把深度搜索从每月 200 次砍到 20 次，还加了上传限制和 7 天数据保留，多位老用户算下来，要维持原来用量要花约 167 美金/月（原来 20 美金），TrustPilot 评分掉到 1.5/5。同时不少人感觉 2 月初后模型“变笨、记性差”，开始大规模转向 Claude / Opus 4.6 或 Kimi。 > 相关链接：Perplexity 官方 Discord 讨论

##### Kimi & MiniMax：API 不稳、订阅乱扣款，本地大模型开始“算赢” Kimi K2.5 在不少人手里表现不错，有时比 Sonnet/Opus 4.5 更能写代码、做推理，且有 40 美金/月的 API 套餐适配 OpenClaw。但社区抱怨不断：CLI 插件装不上、订阅消失却被多次扣费、配额乱跳，再加上诈骗仿冒网站横行，很多人开始认真考虑砸钱搞 700GB RAM + 200GB VRAM 的本地部署，把 Kimi/MiniMax 这类大 MoE 自己托管。 > 相关链接：Kimi 官方文档与 CLI 指南｜Kimi Discord 订阅问题反馈

##### Claude Code、Claude Cowork、OpenClaw 等开发工作流的实践经验 Latent Space 等社区里，大家在实际写代码时逐步摸清几个路子：用 Claude Cowork 做“流水线型”任务（比如自动上传 Zoom 到 YouTube）、用 Ergo/planbot 这类规划器拆 feature，再把执行交给 Codex/Claude Code/OpenClaw 之类的工具。结论是：好用的并不是哪个模型，而是“规划 + 版本控制 + 观察”的整套工作流。 > 相关链接：Ergo 规划器技能示例｜Claude Cowork 工作流讨论

##### 安全侧应用：PassLLM 密码审计和 ATIC 不确定性评估 PassLLM 把几百万真实密码对喂给 Qwen3‑4B LoRA，做“基于个人信息”的密码猜测，演示里准确率相当吓人；另一个项目 ATIC 用三个独立 Claude Opus 4.5 做“三脑”结构，对每个回答打“随机不确定”和“知识缺口”分，超阈值就交给人类或专业系统处理，这类“给 LLM 加一个是否可靠评分”的模块开始成型。 > 相关链接：PassLLM 项目｜ATIC 系统

---

#### 行业与公司动态 ##### 中国“春节模型潮”：Qwen3.5、GLM‑5、MiniMax 2.5、Seedance 2.0 集体上新 今年春节被戏称为“模型发布周”：除 Qwen3.5 外，GLM‑5、MiniMax 2.5 相继上线，视频侧有字节的 Seed/Seedance 2.0，甚至请贾樟柯拍短片做示范。社区感觉视频生成已经从玩具走向真正的导演工作流，中国在 humanoid 机器人和视频模型上的投入被认为“不是样板房，而是在成片”。 > 相关链接：Yuchenj_UW 模型综述｜Seedance 2.0 电影应用讨论

##### OpenClaw 作者被 Anthropic 律师警告两次后，转身投奔 OpenAI 有梗图流传：Anthropic 因名字撞车两次发律师函威胁 OpenClaw，结果作者最后被 OpenAI 挖走、项目被 OpenAI 收购，社区调侃“Claws 🦞 回头咬到 Anthropic”。不少人顺带对比两家路线：Anthropic 更偏模型与安全研究，OpenAI 则更偏产品和用户增长。 > 相关链接：相关梗图讨论（Reddit）

##### Perplexity、Stripe、Apple：平台收费与 AI 投资节奏的再讨论 Latent Space 创业者抱怨 Stripe 各种加服务后实际抽走 8.3% 收入，而且在欧洲仍按 2.9% 刷卡费算，被认为“太肥”；同时有人猜测 Apple 刻意按兵不动，让别人先在 AI 上烧几万亿，等训练/推理边际成本降下来再用现金堆合作或收购，避开现在这波“2 万亿 Capex 冲刺”。 > 相关链接：Stripe 费率吐槽｜BuccoCapital 关于 AI Capex 的推文

---

#### 政策、治理与安全 ##### 五角大楼威胁把 Anthropic 列为“供应链风险”，起因是条款太有底线 Axios 披露：美国防部考虑因用途限制把 Anthropic 标记为“供应链风险”，迫使承包商停用 Claude。Anthropic 不愿允许模型用于大规模监控美国人和全自动武器，要求只用于“合理场景”，而五角大楼坚持“所有合法用途都要能用”。这被很多人联想到当年的 PRISM 事件，也让“安全条款会不会让厂商丢军方大单”成了现实问题。 > 相关链接：Axios 报道｜Reddit 讨论帖 1｜Reddit 讨论帖 2

##### Google 报告：有人靠 10 万次 Prompt 想“蒸馏”出山寨 Gemini Google 称攻击者通过十多万次询问 Gemini，试图用“模型蒸馏”方式克隆一个便宜版，不用接触源码和训练数据。Google 把这定性为“知识产权盗窃”，但社区一方面质疑这种蒸馏效果到底有多好，一方面也调侃：Google 自己训练 LLM 时大量抓网页，谈知识产权有点尴尬。 > 相关链接：Ars Technica 报道

##### OpenAI 推出 ChatGPT“锁定模式”：功能阉割换安全可控 OpenAI 为企业版/商业版 ChatGPT 加了 Lockdown Mode，通过限制或改写工具调用（比如缓存搜索、弱化网页访问）来降低提示注入和数据外泄风险。等于承认“带工具的 LLM 是个新攻击面”，有些公司宁愿牺牲能力，换一个更可预测、更合规的 Agent 行为。 > 相关链接：功能介绍讨论

##### 模型参与科研但不披露细节？OpenAI 物理论文引发可复现性争议 有科研推文质疑：OpenAI 用 GPT‑5.2 参与物理论文，但没公开提示词、工具链和模型细节，期刊却照样收。这种“黑箱模型 + 论文”会让结果难以复现，呼吁期刊至少强制附上对话记录或工具配置。相关作者与 OpenAI 高管随后做了补充解释，但质疑声还在。 > 相关链接：质疑线程｜OpenAI 方回应背景

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学