📰 Easy AI日报 | 2026-02-19

📅 2026年02月19日 AI行业动态

#### 模型与能力 ##### Google 发布 Gemini 3.1 Pro：ARC‑AGI‑2 提到 77.1%，价格不变 Gemini 3.1 Pro 作为 Deep Think 的“同源缩小版”上线，ARC‑AGI‑2 得分 77.1%，约为 3.0 的 2 倍；SWE‑Bench Verified 80.6%，Terminal-Bench 2.0 为 68.5%，在 Artificial Analysis 榜单中 10 项评测里拿下 6 项第一，并显著降低幻觉率。上下文 100 万、输出 64k、截止到 2025 年 1 月，API 价格与 3 Pro 保持一致。 > 相关链接：官方发布博文｜Google X 宣传线程｜DeepMind 模型卡｜Artificial Analysis 详细评测｜ARC Prize 成本与分数

##### Gemini 3.1 Pro 登陆多家产品与平台 Gemini 3.1 Pro 已在 Google Gemini App、NotebookLM、Google AI Studio、Vertex AI 上线，并通过 OpenRouter、Perplexity、Cursor、Windsurf 等第三方接入。Windsurf 还给出 0.5x 信用点促销，Perplexity Pro/Max 订阅用户可直接切换使用。 > 相关链接：Sundar Pichai 宣布接入矩阵｜Gemini App 公告｜OpenRouter 上线通知｜Perplexity 接入公告｜Windsurf 上线与折扣

##### Gemini 3.1 Pro 在社区实测中：推理强，GDPval 仍偏弱 Twitter 与 Reddit 上普遍反馈 3.1 Pro 代码生成、长指令跟随和多模态表现明显好于 3.0，有人认为“低调很好用”，也有人吐槽 GDPval 真实任务得分落后其他前沿模型，以及 UI/IDE 工具上线不齐整（如 Antigravity、CLI、Code Assist 节奏不一）。整体评价是：基准分很亮眼，但实际“干活”能力仍要继续观察。 > 相关链接：社区基准与点评整理｜SVG/UI 能力展示｜Reddit 综合讨论贴

##### Lyria 3：DeepMind 推出新一代音乐生成模型 Google DeepMind 发布音乐模型 Lyria 3，集成在 Gemini 界面，可从文本、图片或视频生成 30 秒音乐。用户反馈音质（尤其失真吉他等复杂乐器）优于 Suno，伪影更少，但编曲与创意偏“无聊”，长度限制也被质疑不足以称为“最强”。 > 相关链接：官方介绍与演示｜社区音质与上限讨论

##### Trillion Labs 开源 Tri‑21B‑think 预览模型 Trillion Labs 放出 21B 规模的推理向开源模型 Tri‑21B‑think（Apache‑2.0）。在 Artificial Analysis 榜单中总体分数中等，但在某些工具使用基准上表现突出、幻觉率相对较低，代价是推理 token 使用量很高。目前仅权重开放，暂未提供托管推理端点。 > 相关链接：Artificial Analysis 评测与权重链接

##### Mistral Voxtral Realtime：开源实时语音识别模型 Mistral 发布 Voxtral Realtime 模型及论文，号称端到端延迟低于 500ms，支持实时转写场景，模型与代码以 Apache‑2 许可证发布，面向低时延语音应用。 > 相关链接：作者介绍与论文

---

#### Agent 与工具链 ##### OpenClaw 爆火：高成本、被封号风险与生态分叉 OpenClaw 爆红后，多名用户反馈一天烧掉上千美元 API 费用，有人因此切回 Claude Code。Anthropic 明确禁止用个人 OAuth Token 给第三方工具（含 Agent SDK），并有用户疑似因在 OpenClaw 中使用 Claude Pro/Max 密钥被封；Google 也被曝限制 antigravity OAuth 外用。围绕 OpenClaw，社区开始探索本地部署（vibeclaw.dev）、Rust 版 DeepCLI 等替代方案。 > 相关链接：OpenClaw 高额度消费讨论｜Anthropic OAuth 使用政策澄清｜DeepCLI 项目主页｜浏览器一键本地 OpenClaw（vibeclaw）

##### OpenClaw 智能体开始“自己写工具”：n8n 集成与游戏脚本 有用户放任 OpenClaw Agent 在生产环境里跑，结果它给自己搭了看板和安全系统；另一个 Agent 用 Haiku 4.5 在 20 分钟内学会玩链上 MMORPG，自动写 Python 脚本、发交易挖矿，并设 cron 定时刷经验。还有 Agent 直接为 n8n 写完 OpenClaw Gateway 全工具接入节点，实现在可视化工作流里编排 20 个工具。 > 相关链接：OpenClaw n8n 社区节点｜npm 包 n8n-nodes-openclaw

##### Agent 调试与可观测性：LangChain、Raindrop 等工具升级 LangChain / LangSmith 更新了一批 trace 过滤和可观测性功能，并推出创业支持计划；社区分享了基于 LangChain 的高复杂度调试 Agent 案例（用子 Agent+评测循环优化 CPU profile 分析）。Raindrop 则给出了“轨迹浏览器”视图，便于回放 Agent 调用链。 > 相关链接：LangChain 更新与案例｜Deep Agents 调试案例｜Raindrop 轨迹浏览器

##### Qbit：把终端、Git 和 MCP 接到一个 Agent IDE 里 开源 IDE Qbit 主打“带 Agent 的终端”，支持项目管理、统一时间线、模型选择、内联编辑、Git 集成和 MCP 工具。目标是用 Agent 驱动命令行和项目操作，但保持人类对每一步的可见和可回滚。 > 相关链接：Qbit 项目

##### Claude Code 深度工作流：3k 小时堆出的“多人联机 IDE” 有重度用户用约 3000 小时在 Claude Code 上搭了一整套流水线：从需求澄清、架构评审、原子任务拆分，到多模型协作开发、对抗式代码审查和 QA/安全审计，全都用不同角色的 Claude 串起来。其经验重点是：尽量减少上下文噪音、把人类意图锁死在规则文档里，而不是完全放权给 Agent。 > 相关链接：Claude Code 工作流分享

---

#### 基础设施与硬件 ##### OpenRouter 多次故障与计费 Bug：数据库宕机、登录掉线、图片白收钱 OpenRouter 近期两次数据库宕机（凌晨约半小时），同时身份服务商 Clerk 性能下降，导致登录异常。部分用户在新版后端重构中遭遇“扣了 image_tokens 却没有返回图片”的情况，官方承认测试漏掉边界条件并承诺退款。 > 相关链接：OpenRouter 宕机与说明｜社区图片计费问题讨论

##### GPU MODE 社区：FP8 长程训练、DirectML vs CUDA 与 NVIDIA 比赛坑点 GPU MODE 分享了一次 0.5B 模型在 4×4090、FP8 精度下训练 350B token 仍稳定的经验，认为干净数据和小模型是关键；社区还讨论 DirectML 做 ONNX 推理在 Windows 上可接近 CUDA，但无 Linux 支持且项目进入维护期。NVIDIA 官方 leaderboard 与 Modal runner 的 Cutlass 版本不一致，也让参赛者频繁遇到提交错误。 > 相关链接：FP8 稳定训练讨论｜DirectML 维护状态 issue｜NVIDIA 比赛讨论与错误

##### Terradev CLI：做 GPU“比价平台”的多云命令行 Terradev CLI 号称帮开发者避免被单云 GPU 价格“薅羊毛”，支持 BYO API 多云调度、作业真实成本统计，并一键部署到 Hugging Face Spaces。最新 2.9.2 版本加入多云 GPU 套利和更细的费用归因。 > 相关链接：Terradev CLI PyPI｜项目源码

##### 本地 LLM 生态：硬件成本、NVLink/ROCm 和“贵但好玩”的共识 LM Studio 社区讨论本地跑大模型是否“值回票价”：共识是更多 VRAM 永远有用，但很多人更多是出于隐私、学习和避免云端“焚化场式改版”。NVLink 对推理吞吐帮助有限，带宽通常不是瓶颈；ROCm 在一些场景性能接近 CUDA，但生态和工具仍薄弱。 > 相关链接：LM Studio 硬件讨论串

---

#### 研究与方法 ##### Every Eval Ever：Eleuther / HF 发起统一评测数据格式 EleutherAI、Hugging Face 和爱丁堡大学联合发起 EvalEval 联盟，发布“Every Eval Ever”计划，给各种 LLM 评测结果定义统一 schema，并开放众包数据集，方便把 HELM、lm-eval-harness、Inspect AI 等结果对齐比较。ACL 2026 将办配套 workshop 和 shared task，优秀贡献者可挂 co-author。 > 相关链接：Every Eval Ever 官网｜GitHub 仓库｜Hugging Face 数据集

##### LLM 评测“工业化”：可复现实验管线与成本/延迟记录 社区有人开源了一个可复现 LLM 评测管线，会记录裁判分歧、重试/失败情况以及每个实验的成本与延迟，而不仅是一串排行榜分数。大家越来越在意“跑一次要花多少钱、要多久”和“评测本身的稳定性”，而不是只看单点 accuracy。 > 相关链接：llm-eval-pipeline Space

##### 注意力可解释性：GPT‑2 Small 75% 头不需要满秩 QK Eleuther 社区复盘一篇工作：对 GPT‑2 Small 的注意力头做结构约束，发现约 75% 头可以用低秩或固定模式 QK 代替，仍能保持甚至略优验证损失（在 WikiText‑2 上提升约 5.3%）。还发现大量“bos-sink”型头，说明模型严重依赖首 token 作为信息汇聚点。 > 相关链接：Structural Attention Constraints 代码

##### Residual 流交换揭示“因果承诺层”：62–71% 深度后表示开始“锁死” 另一项研究在 GPT‑2 Small、Gemma‑2‑2B、Qwen2.5‑1.5B 上做逐层残差流互换，发现网络在大约 62–71% 深度时出现“因果承诺点”：在此之前换层几乎不影响输出，在此之后则会大幅改变结果。这给“模型在哪一层真正做出决定”提供了量化证据。 > 相关链接：Residual swap 实验预印本

##### STATe‑of‑Thoughts：在 DSPy 里跑 Tree‑of‑Thoughts 新框架 STATe‑of‑Thoughts 把 Tree‑of‑Thoughts 集成进 DSPy，支持早停避免上下文“腐烂”、用文本干预控制分支多样性，并默认用自建 vLLM 集群而非昂贵闭源 API。作者给了一个生成说服性论证的案例，顺便分析不同推理路径为何有效。 > 相关链接：STATe‑of‑Thoughts 代码｜论文

---

#### 产品与应用落地 ##### Perplexity 收紧用量：Pro 从“日 600 次”改成“周 200 次”，大量账号被封 Perplexity Pro 用户发现“增强查询”额度从每天 600 次变成每周 200 次，同时一批账号突然被以“违反条款”理由封禁，客服只给模板回复，不具体说明原因。社区普遍怀疑是打击折扣 key / 转卖行为，也有人认为这是逼 Pro 用户升级到 Max。 > 相关链接：限额与封号讨论

##### Cursor、Windsurf 等 IDE：快速接入 Gemini 3.1 Pro，并推年付/促销 Cursor 已上线 Gemini 3.1 Pro，部分用户认为其代码能力已追平甚至略超 Opus 4.6，但也有人觉得实战水平配不上基准分；社区强调通过 .cursorrules 和架构文档强化上下文更关键。Windsurf 则以半价信用点试用 Gemini 3.1 Pro，推动用户迁移到新模型。 > 相关链接：Cursor 讨论串｜Windsurf 公告

##### Gradio 6 上线 gr.HTML，一文件写完整网页 App Gradio 新增 gr.HTML 组件，可以在单个 Python 文件里直接写整套前端（看板、番茄钟等），然后用 LLM 一次性生成。作者展示了用 Claude“单 prompt 出全站”的例子，同时鼓励社区分享自己的一键 App。 > 相关链接：官方博客：HTML one-shot apps

##### Rover：给网站嵌一个“能点页面”的 Web Agent Rover 号称第一个“可嵌入网页的 Agent”，只需插一段 script，就能让 Agent 读 DOM、点击按钮、帮用户完成操作，无需自己开 API 或写后端。定位是让任意网站快速拥有“会操作 UI 的客服/助手”。 > 相关链接：Rover 官网｜介绍博文

##### Manus 求职助手：一边被夸好用，一边被爆 2500 美元错扣费 有人称 Manus 在自动填简历、网申表单上“比 BestBuy 自己的表单好用多了”，也有用户投诉本应 680 美元的套餐被扣了约 2500 美元，多次联系客服无回应，打算向 BBB 投诉；社区同时确认 Manus 已被 Meta 收购。 > 相关链接：Manus Discord 投诉与好评

---

#### 行业与公司动态 ##### TOTO 居然要做 AI 芯片：靠陶瓷工艺切入 600 亿美元市场 日本马桶厂商 TOTO 利用自己在高端陶瓷方面的能力，宣布进军 AI 芯片封装/材料领域，目标瞄准约 600 亿美元市场。消息传出后公司股价一度暴涨约 60%，被戏称为“马桶厂转型算力公司”的极端案例。 > 相关链接：相关报道推文

##### AI 收入竞速：研究机构预测 Anthropic 最快 2026 年追平 OpenAI Epoch 的模型显示，在当前增速下，Anthropic 收入可能在 2026 年中左右追上 OpenAI，前提是两边增速不大幅放缓。也提醒这类外推对“边际放缓”“价格战”等因素非常敏感，只是一个参考曲线。 > 相关链接：Epoch 收入分析线程

##### Snap 硬件负责人因战略冲突离职，Spectacles 前景成疑 Snap 负责眼镜 Specs 的高级副总裁在内部与 CEO Evan Spiegel 因硬件路线发生激烈分歧后离职，结束六年硬件探索。外界普遍解读为 Snap 在消费级 AR 硬件上的押注收缩，短期可能更保守。 > 相关链接：离职报道

---

#### 政策、治理与安全 ##### OpenAI 宣布 750 万美元对齐资助，并拿到 FedRAMP 授权 OpenAI 公布向 AI Security Institute 的 Alignment Project 提供 750 万美元资助，用于更系统的安全/对齐研究；同时有消息称 OpenAI 已取得 FedRAMP 授权，意味着其部分服务可按美联邦政府云安全标准采购使用。 > 相关链接：官方对齐资助公告｜FedRAMP 授权讨论

##### Anthropic 明确禁止用个人 OAuth Token 供外部工具调用 Claude Anthropic 更新条款并在社区澄清：Claude 免费/Pro/Max 的 OAuth Token 只能在官方产品内用，把这些 Token 塞进第三方工具（包括 Agent SDK）属于违规。这解释了近期部分基于浏览器劫持 Claude 的工具用户被封号的情况。 > 相关链接：政策讨论帖

##### AI Agent 身份认证：有人给 Agent 发“加密护照”了 随着大量自主 Agent 在链上和互联网上调用 API、转账、下单，有团队提出给每个 Agent 发 Ed25519 加密“护照”，用于签名、追踪信誉和设置消费额度。目标是防止“谁都能冒充某个 Agent”以及滥刷资源。 > 相关链接：Agent 护照提案

##### BASI 社区：越狱、武器配方和“不要点链接”的自我约束 越狱社区 BASI 中，有人讨论如何用公开论文/Google Scholar 拿到炭疽等危险信息，也有人用 prompt 把 DeepSeek 调成满嘴脏话的“失控写作助手”。同时不少成员开始彼此提醒不要随便点陌生链接，担心钓鱼和执法风险。 > 相关链接：BASI Jailbreaking 讨论区

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-02-19

📅 2026年02月19日 AI行业动态

🌟 智谱 GLM-5 已上线