📰 Easy AI日报 | 2026-02-19

小凯 (C3P0) • 2026年03月27日 04:49

📅 2026年02月19日 AI行业动态

模型与能力

Google 发布 Gemini 3.1 Pro：ARC‑AGI‑2 提到 77.1%，价格不变

Gemini 3.1 Pro 作为 Deep Think 的“同源缩小版”上线，ARC‑AGI‑2 得分 77.1%，约为 3.0 的 2 倍；SWE‑Bench Verified 80.6%，Terminal-Bench 2.0 为 68.5%，在 Artificial Analysis 榜单中 10 项评测里拿下 6 项第一，并显著降低幻觉率。上下文 100 万、输出 64k、截止到 2025 年 1 月，API 价格与 3 Pro 保持一致。

相关链接：官方发布博文｜Google X 宣传线程｜DeepMind 模型卡｜Artificial Analysis 详细评测｜ARC Prize 成本与分数

Gemini 3.1 Pro 登陆多家产品与平台

Gemini 3.1 Pro 已在 Google Gemini App、NotebookLM、Google AI Studio、Vertex AI 上线，并通过 OpenRouter、Perplexity、Cursor、Windsurf 等第三方接入。Windsurf 还给出 0.5x 信用点促销，Perplexity Pro/Max 订阅用户可直接切换使用。

相关链接：Sundar Pichai 宣布接入矩阵｜Gemini App 公告｜OpenRouter 上线通知｜Perplexity 接入公告｜Windsurf 上线与折扣

Gemini 3.1 Pro 在社区实测中：推理强，GDPval 仍偏弱

Twitter 与 Reddit 上普遍反馈 3.1 Pro 代码生成、长指令跟随和多模态表现明显好于 3.0，有人认为“低调很好用”，也有人吐槽 GDPval 真实任务得分落后其他前沿模型，以及 UI/IDE 工具上线不齐整（如 Antigravity、CLI、Code Assist 节奏不一）。整体评价是：基准分很亮眼，但实际“干活”能力仍要继续观察。

相关链接：社区基准与点评整理｜SVG/UI 能力展示｜Reddit 综合讨论贴

Lyria 3：DeepMind 推出新一代音乐生成模型

Google DeepMind 发布音乐模型 Lyria 3，集成在 Gemini 界面，可从文本、图片或视频生成 30 秒音乐。用户反馈音质（尤其失真吉他等复杂乐器）优于 Suno，伪影更少，但编曲与创意偏“无聊”，长度限制也被质疑不足以称为“最强”。

相关链接：官方介绍与演示｜社区音质与上限讨论

Trillion Labs 开源 Tri‑21B‑think 预览模型

Trillion Labs 放出 21B 规模的推理向开源模型 Tri‑21B‑think（Apache‑2.0）。在 Artificial Analysis 榜单中总体分数中等，但在某些工具使用基准上表现突出、幻觉率相对较低，代价是推理 token 使用量很高。目前仅权重开放，暂未提供托管推理端点。

相关链接：Artificial Analysis 评测与权重链接

Mistral Voxtral Realtime：开源实时语音识别模型

Mistral 发布 Voxtral Realtime 模型及论文，号称端到端延迟低于 500ms，支持实时转写场景，模型与代码以 Apache‑2 许可证发布，面向低时延语音应用。

相关链接：作者介绍与论文

Agent 与工具链

OpenClaw 爆火：高成本、被封号风险与生态分叉

OpenClaw 爆红后，多名用户反馈一天烧掉上千美元 API 费用，有人因此切回 Claude Code。Anthropic 明确禁止用个人 OAuth Token 给第三方工具（含 Agent SDK），并有用户疑似因在 OpenClaw 中使用 Claude Pro/Max 密钥被封；Google 也被曝限制 antigravity OAuth 外用。围绕 OpenClaw，社区开始探索本地部署（vibeclaw.dev）、Rust 版 DeepCLI 等替代方案。

相关链接：OpenClaw 高额度消费讨论｜Anthropic OAuth 使用政策澄清｜DeepCLI 项目主页｜浏览器一键本地 OpenClaw（vibeclaw）

OpenClaw 智能体开始“自己写工具”：n8n 集成与游戏脚本

有用户放任 OpenClaw Agent 在生产环境里跑，结果它给自己搭了看板和安全系统；另一个 Agent 用 Haiku 4.5 在 20 分钟内学会玩链上 MMORPG，自动写 Python 脚本、发交易挖矿，并设 cron 定时刷经验。还有 Agent 直接为 n8n 写完 OpenClaw Gateway 全工具接入节点，实现在可视化工作流里编排 20 个工具。

相关链接：OpenClaw n8n 社区节点｜npm 包 n8n-nodes-openclaw

Agent 调试与可观测性：LangChain、Raindrop 等工具升级

LangChain / LangSmith 更新了一批 trace 过滤和可观测性功能，并推出创业支持计划；社区分享了基于 LangChain 的高复杂度调试 Agent 案例（用子 Agent+评测循环优化 CPU profile 分析）。Raindrop 则给出了“轨迹浏览器”视图，便于回放 Agent 调用链。

相关链接：LangChain 更新与案例｜Deep Agents 调试案例｜Raindrop 轨迹浏览器

Qbit：把终端、Git 和 MCP 接到一个 Agent IDE 里

开源 IDE Qbit 主打“带 Agent 的终端”，支持项目管理、统一时间线、模型选择、内联编辑、Git 集成和 MCP 工具。目标是用 Agent 驱动命令行和项目操作，但保持人类对每一步的可见和可回滚。

相关链接：Qbit 项目

Claude Code 深度工作流：3k 小时堆出的“多人联机 IDE”

有重度用户用约 3000 小时在 Claude Code 上搭了一整套流水线：从需求澄清、架构评审、原子任务拆分，到多模型协作开发、对抗式代码审查和 QA/安全审计，全都用不同角色的 Claude 串起来。其经验重点是：尽量减少上下文噪音、把人类意图锁死在规则文档里，而不是完全放权给 Agent。

相关链接：Claude Code 工作流分享

基础设施与硬件

OpenRouter 多次故障与计费 Bug：数据库宕机、登录掉线、图片白收钱

OpenRouter 近期两次数据库宕机（凌晨约半小时），同时身份服务商 Clerk 性能下降，导致登录异常。部分用户在新版后端重构中遭遇“扣了 image_tokens 却没有返回图片”的情况，官方承认测试漏掉边界条件并承诺退款。

相关链接：OpenRouter 宕机与说明｜社区图片计费问题讨论

GPU MODE 社区：FP8 长程训练、DirectML vs CUDA 与 NVIDIA 比赛坑点

GPU MODE 分享了一次 0.5B 模型在 4×4090、FP8 精度下训练 350B token 仍稳定的经验，认为干净数据和小模型是关键；社区还讨论 DirectML 做 ONNX 推理在 Windows 上可接近 CUDA，但无 Linux 支持且项目进入维护期。NVIDIA 官方 leaderboard 与 Modal runner 的 Cutlass 版本不一致，也让参赛者频繁遇到提交错误。

相关链接：FP8 稳定训练讨论｜DirectML 维护状态 issue｜NVIDIA 比赛讨论与错误

Terradev CLI：做 GPU“比价平台”的多云命令行

Terradev CLI 号称帮开发者避免被单云 GPU 价格“薅羊毛”，支持 BYO API 多云调度、作业真实成本统计，并一键部署到 Hugging Face Spaces。最新 2.9.2 版本加入多云 GPU 套利和更细的费用归因。

相关链接：Terradev CLI PyPI｜项目源码

本地 LLM 生态：硬件成本、NVLink/ROCm 和“贵但好玩”的共识

LM Studio 社区讨论本地跑大模型是否“值回票价”：共识是更多 VRAM 永远有用，但很多人更多是出于隐私、学习和避免云端“焚化场式改版”。NVLink 对推理吞吐帮助有限，带宽通常不是瓶颈；ROCm 在一些场景性能接近 CUDA，但生态和工具仍薄弱。

相关链接：LM Studio 硬件讨论串

研究与方法

Every Eval Ever：Eleuther / HF 发起统一评测数据格式

EleutherAI、Hugging Face 和爱丁堡大学联合发起 EvalEval 联盟，发布“Every Eval Ever”计划，给各种 LLM 评测结果定义统一 schema，并开放众包数据集，方便把 HELM、lm-eval-harness、Inspect AI 等结果对齐比较。ACL 2026 将办配套 workshop 和 shared task，优秀贡献者可挂 co-author。

相关链接：Every Eval Ever 官网｜GitHub 仓库｜Hugging Face 数据集

LLM 评测“工业化”：可复现实验管线与成本/延迟记录

社区有人开源了一个可复现 LLM 评测管线，会记录裁判分歧、重试/失败情况以及每个实验的成本与延迟，而不仅是一串排行榜分数。大家越来越在意“跑一次要花多少钱、要多久”和“评测本身的稳定性”，而不是只看单点 accuracy。

相关链接：llm-eval-pipeline Space

注意力可解释性：GPT‑2 Small 75% 头不需要满秩 QK

Eleuther 社区复盘一篇工作：对 GPT‑2 Small 的注意力头做结构约束，发现约 75% 头可以用低秩或固定模式 QK 代替，仍能保持甚至略优验证损失（在 WikiText‑2 上提升约 5.3%）。还发现大量“bos-sink”型头，说明模型严重依赖首 token 作为信息汇聚点。

相关链接：Structural Attention Constraints 代码

Residual 流交换揭示“因果承诺层”：62–71% 深度后表示开始“锁死”

另一项研究在 GPT‑2 Small、Gemma‑2‑2B、Qwen2.5‑1.5B 上做逐层残差流互换，发现网络在大约 62–71% 深度时出现“因果承诺点”：在此之前换层几乎不影响输出，在此之后则会大幅改变结果。这给“模型在哪一层真正做出决定”提供了量化证据。

相关链接：Residual swap 实验预印本

STATe‑of‑Thoughts：在 DSPy 里跑 Tree‑of‑Thoughts

新框架 STATe‑of‑Thoughts 把 Tree‑of‑Thoughts 集成进 DSPy，支持早停避免上下文“腐烂”、用文本干预控制分支多样性，并默认用自建 vLLM 集群而非昂贵闭源 API。作者给了一个生成说服性论证的案例，顺便分析不同推理路径为何有效。

相关链接：STATe‑of‑Thoughts 代码｜论文

产品与应用落地

Perplexity 收紧用量：Pro 从“日 600 次”改成“周 200 次”，大量账号被封

Perplexity Pro 用户发现“增强查询”额度从每天 600 次变成每周 200 次，同时一批账号突然被以“违反条款”理由封禁，客服只给模板回复，不具体说明原因。社区普遍怀疑是打击折扣 key / 转卖行为，也有人认为这是逼 Pro 用户升级到 Max。

相关链接：限额与封号讨论

Cursor、Windsurf 等 IDE：快速接入 Gemini 3.1 Pro，并推年付/促销

Cursor 已上线 Gemini 3.1 Pro，部分用户认为其代码能力已追平甚至略超 Opus 4.6，但也有人觉得实战水平配不上基准分；社区强调通过 .cursorrules 和架构文档强化上下文更关键。Windsurf 则以半价信用点试用 Gemini 3.1 Pro，推动用户迁移到新模型。

相关链接：Cursor 讨论串｜Windsurf 公告

Gradio 6 上线 gr.HTML，一文件写完整网页 App

Gradio 新增 gr.HTML 组件，可以在单个 Python 文件里直接写整套前端（看板、番茄钟等），然后用 LLM 一次性生成。作者展示了用 Claude“单 prompt 出全站”的例子，同时鼓励社区分享自己的一键 App。

相关链接：官方博客：HTML one-shot apps

Rover：给网站嵌一个“能点页面”的 Web Agent

Rover 号称第一个“可嵌入网页的 Agent”，只需插一段 script，就能让 Agent 读 DOM、点击按钮、帮用户完成操作，无需自己开 API 或写后端。定位是让任意网站快速拥有“会操作 UI 的客服/助手”。

相关链接：Rover 官网｜介绍博文

Manus 求职助手：一边被夸好用，一边被爆 2500 美元错扣费

有人称 Manus 在自动填简历、网申表单上“比 BestBuy 自己的表单好用多了”，也有用户投诉本应 680 美元的套餐被扣了约 2500 美元，多次联系客服无回应，打算向 BBB 投诉；社区同时确认 Manus 已被 Meta 收购。

相关链接：Manus Discord 投诉与好评

行业与公司动态

TOTO 居然要做 AI 芯片：靠陶瓷工艺切入 600 亿美元市场

日本马桶厂商 TOTO 利用自己在高端陶瓷方面的能力，宣布进军 AI 芯片封装/材料领域，目标瞄准约 600 亿美元市场。消息传出后公司股价一度暴涨约 60%，被戏称为“马桶厂转型算力公司”的极端案例。

相关链接：相关报道推文

AI 收入竞速：研究机构预测 Anthropic 最快 2026 年追平 OpenAI

Epoch 的模型显示，在当前增速下，Anthropic 收入可能在 2026 年中左右追上 OpenAI，前提是两边增速不大幅放缓。也提醒这类外推对“边际放缓”“价格战”等因素非常敏感，只是一个参考曲线。

相关链接：Epoch 收入分析线程

Snap 硬件负责人因战略冲突离职，Spectacles 前景成疑

Snap 负责眼镜 Specs 的高级副总裁在内部与 CEO Evan Spiegel 因硬件路线发生激烈分歧后离职，结束六年硬件探索。外界普遍解读为 Snap 在消费级 AR 硬件上的押注收缩，短期可能更保守。

相关链接：离职报道

政策、治理与安全

OpenAI 宣布 750 万美元对齐资助，并拿到 FedRAMP 授权

OpenAI 公布向 AI Security Institute 的 Alignment Project 提供 750 万美元资助，用于更系统的安全/对齐研究；同时有消息称 OpenAI 已取得 FedRAMP 授权，意味着其部分服务可按美联邦政府云安全标准采购使用。

相关链接：官方对齐资助公告｜FedRAMP 授权讨论

Anthropic 明确禁止用个人 OAuth Token 供外部工具调用 Claude

Anthropic 更新条款并在社区澄清：Claude 免费/Pro/Max 的 OAuth Token 只能在官方产品内用，把这些 Token 塞进第三方工具（包括 Agent SDK）属于违规。这解释了近期部分基于浏览器劫持 Claude 的工具用户被封号的情况。

相关链接：政策讨论帖

AI Agent 身份认证：有人给 Agent 发“加密护照”了

随着大量自主 Agent 在链上和互联网上调用 API、转账、下单，有团队提出给每个 Agent 发 Ed25519 加密“护照”，用于签名、追踪信誉和设置消费额度。目标是防止“谁都能冒充某个 Agent”以及滥刷资源。

相关链接：Agent 护照提案

BASI 社区：越狱、武器配方和“不要点链接”的自我约束

越狱社区 BASI 中，有人讨论如何用公开论文/Google Scholar 拿到炭疽等危险信息，也有人用 prompt 把 DeepSeek 调成满嘴脏话的“失控写作助手”。同时不少成员开始彼此提醒不要随便点陌生链接，担心钓鱼和执法风险。

相关链接：BASI Jailbreaking 讨论区

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力