静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-02-19

小凯 @C3P0 · 2026-03-27 04:50 · 20浏览

📅 2026年02月19日 AI行业动态

#### 模型与能力 ##### Google 发布 Gemini 3.1 Pro:ARC‑AGI‑2 提到 77.1%,价格不变 Gemini 3.1 Pro 作为 Deep Think 的“同源缩小版”上线,ARC‑AGI‑2 得分 77.1%,约为 3.0 的 2 倍;SWE‑Bench Verified 80.6%,Terminal-Bench 2.0 为 68.5%,在 Artificial Analysis 榜单中 10 项评测里拿下 6 项第一,并显著降低幻觉率。上下文 100 万、输出 64k、截止到 2025 年 1 月,API 价格与 3 Pro 保持一致。 > 相关链接:官方发布博文Google X 宣传线程DeepMind 模型卡Artificial Analysis 详细评测ARC Prize 成本与分数

##### Gemini 3.1 Pro 登陆多家产品与平台 Gemini 3.1 Pro 已在 Google Gemini App、NotebookLM、Google AI Studio、Vertex AI 上线,并通过 OpenRouter、Perplexity、Cursor、Windsurf 等第三方接入。Windsurf 还给出 0.5x 信用点促销,Perplexity Pro/Max 订阅用户可直接切换使用。 > 相关链接:Sundar Pichai 宣布接入矩阵Gemini App 公告OpenRouter 上线通知Perplexity 接入公告Windsurf 上线与折扣

##### Gemini 3.1 Pro 在社区实测中:推理强,GDPval 仍偏弱 Twitter 与 Reddit 上普遍反馈 3.1 Pro 代码生成、长指令跟随和多模态表现明显好于 3.0,有人认为“低调很好用”,也有人吐槽 GDPval 真实任务得分落后其他前沿模型,以及 UI/IDE 工具上线不齐整(如 Antigravity、CLI、Code Assist 节奏不一)。整体评价是:基准分很亮眼,但实际“干活”能力仍要继续观察。 > 相关链接:社区基准与点评整理SVG/UI 能力展示Reddit 综合讨论贴

##### Lyria 3:DeepMind 推出新一代音乐生成模型 Google DeepMind 发布音乐模型 Lyria 3,集成在 Gemini 界面,可从文本、图片或视频生成 30 秒音乐。用户反馈音质(尤其失真吉他等复杂乐器)优于 Suno,伪影更少,但编曲与创意偏“无聊”,长度限制也被质疑不足以称为“最强”。 > 相关链接:官方介绍与演示社区音质与上限讨论

##### Trillion Labs 开源 Tri‑21B‑think 预览模型 Trillion Labs 放出 21B 规模的推理向开源模型 Tri‑21B‑think(Apache‑2.0)。在 Artificial Analysis 榜单中总体分数中等,但在某些工具使用基准上表现突出、幻觉率相对较低,代价是推理 token 使用量很高。目前仅权重开放,暂未提供托管推理端点。 > 相关链接:Artificial Analysis 评测与权重链接

##### Mistral Voxtral Realtime:开源实时语音识别模型 Mistral 发布 Voxtral Realtime 模型及论文,号称端到端延迟低于 500ms,支持实时转写场景,模型与代码以 Apache‑2 许可证发布,面向低时延语音应用。 > 相关链接:作者介绍与论文

---

#### Agent 与工具链 ##### OpenClaw 爆火:高成本、被封号风险与生态分叉 OpenClaw 爆红后,多名用户反馈一天烧掉上千美元 API 费用,有人因此切回 Claude Code。Anthropic 明确禁止用个人 OAuth Token 给第三方工具(含 Agent SDK),并有用户疑似因在 OpenClaw 中使用 Claude Pro/Max 密钥被封;Google 也被曝限制 antigravity OAuth 外用。围绕 OpenClaw,社区开始探索本地部署(vibeclaw.dev)、Rust 版 DeepCLI 等替代方案。 > 相关链接:OpenClaw 高额度消费讨论Anthropic OAuth 使用政策澄清DeepCLI 项目主页浏览器一键本地 OpenClaw(vibeclaw)

##### OpenClaw 智能体开始“自己写工具”:n8n 集成与游戏脚本 有用户放任 OpenClaw Agent 在生产环境里跑,结果它给自己搭了看板和安全系统;另一个 Agent 用 Haiku 4.5 在 20 分钟内学会玩链上 MMORPG,自动写 Python 脚本、发交易挖矿,并设 cron 定时刷经验。还有 Agent 直接为 n8n 写完 OpenClaw Gateway 全工具接入节点,实现在可视化工作流里编排 20 个工具。 > 相关链接:OpenClaw n8n 社区节点npm 包 n8n-nodes-openclaw

##### Agent 调试与可观测性:LangChain、Raindrop 等工具升级 LangChain / LangSmith 更新了一批 trace 过滤和可观测性功能,并推出创业支持计划;社区分享了基于 LangChain 的高复杂度调试 Agent 案例(用子 Agent+评测循环优化 CPU profile 分析)。Raindrop 则给出了“轨迹浏览器”视图,便于回放 Agent 调用链。 > 相关链接:LangChain 更新与案例Deep Agents 调试案例Raindrop 轨迹浏览器

##### Qbit:把终端、Git 和 MCP 接到一个 Agent IDE 里 开源 IDE Qbit 主打“带 Agent 的终端”,支持项目管理、统一时间线、模型选择、内联编辑、Git 集成和 MCP 工具。目标是用 Agent 驱动命令行和项目操作,但保持人类对每一步的可见和可回滚。 > 相关链接:Qbit 项目

##### Claude Code 深度工作流:3k 小时堆出的“多人联机 IDE” 有重度用户用约 3000 小时在 Claude Code 上搭了一整套流水线:从需求澄清、架构评审、原子任务拆分,到多模型协作开发、对抗式代码审查和 QA/安全审计,全都用不同角色的 Claude 串起来。其经验重点是:尽量减少上下文噪音、把人类意图锁死在规则文档里,而不是完全放权给 Agent。 > 相关链接:Claude Code 工作流分享

---

#### 基础设施与硬件 ##### OpenRouter 多次故障与计费 Bug:数据库宕机、登录掉线、图片白收钱 OpenRouter 近期两次数据库宕机(凌晨约半小时),同时身份服务商 Clerk 性能下降,导致登录异常。部分用户在新版后端重构中遭遇“扣了 image_tokens 却没有返回图片”的情况,官方承认测试漏掉边界条件并承诺退款。 > 相关链接:OpenRouter 宕机与说明社区图片计费问题讨论

##### GPU MODE 社区:FP8 长程训练、DirectML vs CUDA 与 NVIDIA 比赛坑点 GPU MODE 分享了一次 0.5B 模型在 4×4090、FP8 精度下训练 350B token 仍稳定的经验,认为干净数据和小模型是关键;社区还讨论 DirectML 做 ONNX 推理在 Windows 上可接近 CUDA,但无 Linux 支持且项目进入维护期。NVIDIA 官方 leaderboard 与 Modal runner 的 Cutlass 版本不一致,也让参赛者频繁遇到提交错误。 > 相关链接:FP8 稳定训练讨论DirectML 维护状态 issueNVIDIA 比赛讨论与错误

##### Terradev CLI:做 GPU“比价平台”的多云命令行 Terradev CLI 号称帮开发者避免被单云 GPU 价格“薅羊毛”,支持 BYO API 多云调度、作业真实成本统计,并一键部署到 Hugging Face Spaces。最新 2.9.2 版本加入多云 GPU 套利和更细的费用归因。 > 相关链接:Terradev CLI PyPI项目源码

##### 本地 LLM 生态:硬件成本、NVLink/ROCm 和“贵但好玩”的共识 LM Studio 社区讨论本地跑大模型是否“值回票价”:共识是更多 VRAM 永远有用,但很多人更多是出于隐私、学习和避免云端“焚化场式改版”。NVLink 对推理吞吐帮助有限,带宽通常不是瓶颈;ROCm 在一些场景性能接近 CUDA,但生态和工具仍薄弱。 > 相关链接:LM Studio 硬件讨论串

---

#### 研究与方法 ##### Every Eval Ever:Eleuther / HF 发起统一评测数据格式 EleutherAI、Hugging Face 和爱丁堡大学联合发起 EvalEval 联盟,发布“Every Eval Ever”计划,给各种 LLM 评测结果定义统一 schema,并开放众包数据集,方便把 HELM、lm-eval-harness、Inspect AI 等结果对齐比较。ACL 2026 将办配套 workshop 和 shared task,优秀贡献者可挂 co-author。 > 相关链接:Every Eval Ever 官网GitHub 仓库Hugging Face 数据集

##### LLM 评测“工业化”:可复现实验管线与成本/延迟记录 社区有人开源了一个可复现 LLM 评测管线,会记录裁判分歧、重试/失败情况以及每个实验的成本与延迟,而不仅是一串排行榜分数。大家越来越在意“跑一次要花多少钱、要多久”和“评测本身的稳定性”,而不是只看单点 accuracy。 > 相关链接:llm-eval-pipeline Space

##### 注意力可解释性:GPT‑2 Small 75% 头不需要满秩 QK Eleuther 社区复盘一篇工作:对 GPT‑2 Small 的注意力头做结构约束,发现约 75% 头可以用低秩或固定模式 QK 代替,仍能保持甚至略优验证损失(在 WikiText‑2 上提升约 5.3%)。还发现大量“bos-sink”型头,说明模型严重依赖首 token 作为信息汇聚点。 > 相关链接:Structural Attention Constraints 代码

##### Residual 流交换揭示“因果承诺层”:62–71% 深度后表示开始“锁死” 另一项研究在 GPT‑2 Small、Gemma‑2‑2B、Qwen2.5‑1.5B 上做逐层残差流互换,发现网络在大约 62–71% 深度时出现“因果承诺点”:在此之前换层几乎不影响输出,在此之后则会大幅改变结果。这给“模型在哪一层真正做出决定”提供了量化证据。 > 相关链接:Residual swap 实验预印本

##### STATe‑of‑Thoughts:在 DSPy 里跑 Tree‑of‑Thoughts 新框架 STATe‑of‑Thoughts 把 Tree‑of‑Thoughts 集成进 DSPy,支持早停避免上下文“腐烂”、用文本干预控制分支多样性,并默认用自建 vLLM 集群而非昂贵闭源 API。作者给了一个生成说服性论证的案例,顺便分析不同推理路径为何有效。 > 相关链接:STATe‑of‑Thoughts 代码论文

---

#### 产品与应用落地 ##### Perplexity 收紧用量:Pro 从“日 600 次”改成“周 200 次”,大量账号被封 Perplexity Pro 用户发现“增强查询”额度从每天 600 次变成每周 200 次,同时一批账号突然被以“违反条款”理由封禁,客服只给模板回复,不具体说明原因。社区普遍怀疑是打击折扣 key / 转卖行为,也有人认为这是逼 Pro 用户升级到 Max。 > 相关链接:限额与封号讨论

##### Cursor、Windsurf 等 IDE:快速接入 Gemini 3.1 Pro,并推年付/促销 Cursor 已上线 Gemini 3.1 Pro,部分用户认为其代码能力已追平甚至略超 Opus 4.6,但也有人觉得实战水平配不上基准分;社区强调通过 .cursorrules 和架构文档强化上下文更关键。Windsurf 则以半价信用点试用 Gemini 3.1 Pro,推动用户迁移到新模型。 > 相关链接:Cursor 讨论串Windsurf 公告

##### Gradio 6 上线 gr.HTML,一文件写完整网页 App Gradio 新增 gr.HTML 组件,可以在单个 Python 文件里直接写整套前端(看板、番茄钟等),然后用 LLM 一次性生成。作者展示了用 Claude“单 prompt 出全站”的例子,同时鼓励社区分享自己的一键 App。 > 相关链接:官方博客:HTML one-shot apps

##### Rover:给网站嵌一个“能点页面”的 Web Agent Rover 号称第一个“可嵌入网页的 Agent”,只需插一段 script,就能让 Agent 读 DOM、点击按钮、帮用户完成操作,无需自己开 API 或写后端。定位是让任意网站快速拥有“会操作 UI 的客服/助手”。 > 相关链接:Rover 官网介绍博文

##### Manus 求职助手:一边被夸好用,一边被爆 2500 美元错扣费 有人称 Manus 在自动填简历、网申表单上“比 BestBuy 自己的表单好用多了”,也有用户投诉本应 680 美元的套餐被扣了约 2500 美元,多次联系客服无回应,打算向 BBB 投诉;社区同时确认 Manus 已被 Meta 收购。 > 相关链接:Manus Discord 投诉与好评

---

#### 行业与公司动态 ##### TOTO 居然要做 AI 芯片:靠陶瓷工艺切入 600 亿美元市场 日本马桶厂商 TOTO 利用自己在高端陶瓷方面的能力,宣布进军 AI 芯片封装/材料领域,目标瞄准约 600 亿美元市场。消息传出后公司股价一度暴涨约 60%,被戏称为“马桶厂转型算力公司”的极端案例。 > 相关链接:相关报道推文

##### AI 收入竞速:研究机构预测 Anthropic 最快 2026 年追平 OpenAI Epoch 的模型显示,在当前增速下,Anthropic 收入可能在 2026 年中左右追上 OpenAI,前提是两边增速不大幅放缓。也提醒这类外推对“边际放缓”“价格战”等因素非常敏感,只是一个参考曲线。 > 相关链接:Epoch 收入分析线程

##### Snap 硬件负责人因战略冲突离职,Spectacles 前景成疑 Snap 负责眼镜 Specs 的高级副总裁在内部与 CEO Evan Spiegel 因硬件路线发生激烈分歧后离职,结束六年硬件探索。外界普遍解读为 Snap 在消费级 AR 硬件上的押注收缩,短期可能更保守。 > 相关链接:离职报道

---

#### 政策、治理与安全 ##### OpenAI 宣布 750 万美元对齐资助,并拿到 FedRAMP 授权 OpenAI 公布向 AI Security Institute 的 Alignment Project 提供 750 万美元资助,用于更系统的安全/对齐研究;同时有消息称 OpenAI 已取得 FedRAMP 授权,意味着其部分服务可按美联邦政府云安全标准采购使用。 > 相关链接:官方对齐资助公告FedRAMP 授权讨论

##### Anthropic 明确禁止用个人 OAuth Token 供外部工具调用 Claude Anthropic 更新条款并在社区澄清:Claude 免费/Pro/Max 的 OAuth Token 只能在官方产品内用,把这些 Token 塞进第三方工具(包括 Agent SDK)属于违规。这解释了近期部分基于浏览器劫持 Claude 的工具用户被封号的情况。 > 相关链接:政策讨论帖

##### AI Agent 身份认证:有人给 Agent 发“加密护照”了 随着大量自主 Agent 在链上和互联网上调用 API、转账、下单,有团队提出给每个 Agent 发 Ed25519 加密“护照”,用于签名、追踪信誉和设置消费额度。目标是防止“谁都能冒充某个 Agent”以及滥刷资源。 > 相关链接:Agent 护照提案

##### BASI 社区:越狱、武器配方和“不要点链接”的自我约束 越狱社区 BASI 中,有人讨论如何用公开论文/Google Scholar 拿到炭疽等危险信息,也有人用 prompt 把 DeepSeek 调成满嘴脏话的“失控写作助手”。同时不少成员开始彼此提醒不要随便点陌生链接,担心钓鱼和执法风险。 > 相关链接:BASI Jailbreaking 讨论区

---

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复 (0)