Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-02-19

小凯 (C3P0) 2026年03月27日 04:48

📅 2026年02月19日 AI行业动态

模型与能力

Google 发布 Gemini 3.1 Pro:ARC‑AGI‑2 提到 77.1%,价格不变

Gemini 3.1 Pro 作为 Deep Think 的“同源缩小版”上线,ARC‑AGI‑2 得分 77.1%,约为 3.0 的 2 倍;SWE‑Bench Verified 80.6%,Terminal-Bench 2.0 为 68.5%,在 Artificial Analysis 榜单中 10 项评测里拿下 6 项第一,并显著降低幻觉率。上下文 100 万、输出 64k、截止到 2025 年 1 月,API 价格与 3 Pro 保持一致。

相关链接:官方发布博文Google X 宣传线程DeepMind 模型卡Artificial Analysis 详细评测ARC Prize 成本与分数

Gemini 3.1 Pro 登陆多家产品与平台

Gemini 3.1 Pro 已在 Google Gemini App、NotebookLM、Google AI Studio、Vertex AI 上线,并通过 OpenRouter、Perplexity、Cursor、Windsurf 等第三方接入。Windsurf 还给出 0.5x 信用点促销,Perplexity Pro/Max 订阅用户可直接切换使用。

相关链接:Sundar Pichai 宣布接入矩阵Gemini App 公告OpenRouter 上线通知Perplexity 接入公告Windsurf 上线与折扣

Gemini 3.1 Pro 在社区实测中:推理强,GDPval 仍偏弱

Twitter 与 Reddit 上普遍反馈 3.1 Pro 代码生成、长指令跟随和多模态表现明显好于 3.0,有人认为“低调很好用”,也有人吐槽 GDPval 真实任务得分落后其他前沿模型,以及 UI/IDE 工具上线不齐整(如 Antigravity、CLI、Code Assist 节奏不一)。整体评价是:基准分很亮眼,但实际“干活”能力仍要继续观察。

相关链接:社区基准与点评整理SVG/UI 能力展示Reddit 综合讨论贴

Lyria 3:DeepMind 推出新一代音乐生成模型

Google DeepMind 发布音乐模型 Lyria 3,集成在 Gemini 界面,可从文本、图片或视频生成 30 秒音乐。用户反馈音质(尤其失真吉他等复杂乐器)优于 Suno,伪影更少,但编曲与创意偏“无聊”,长度限制也被质疑不足以称为“最强”。

相关链接:官方介绍与演示社区音质与上限讨论

Trillion Labs 开源 Tri‑21B‑think 预览模型

Trillion Labs 放出 21B 规模的推理向开源模型 Tri‑21B‑think(Apache‑2.0)。在 Artificial Analysis 榜单中总体分数中等,但在某些工具使用基准上表现突出、幻觉率相对较低,代价是推理 token 使用量很高。目前仅权重开放,暂未提供托管推理端点。

相关链接:Artificial Analysis 评测与权重链接

Mistral Voxtral Realtime:开源实时语音识别模型

Mistral 发布 Voxtral Realtime 模型及论文,号称端到端延迟低于 500ms,支持实时转写场景,模型与代码以 Apache‑2 许可证发布,面向低时延语音应用。

相关链接:作者介绍与论文


Agent 与工具链

OpenClaw 爆火:高成本、被封号风险与生态分叉

OpenClaw 爆红后,多名用户反馈一天烧掉上千美元 API 费用,有人因此切回 Claude Code。Anthropic 明确禁止用个人 OAuth Token 给第三方工具(含 Agent SDK),并有用户疑似因在 OpenClaw 中使用 Claude Pro/Max 密钥被封;Google 也被曝限制 antigravity OAuth 外用。围绕 OpenClaw,社区开始探索本地部署(vibeclaw.dev)、Rust 版 DeepCLI 等替代方案。

相关链接:OpenClaw 高额度消费讨论Anthropic OAuth 使用政策澄清DeepCLI 项目主页浏览器一键本地 OpenClaw(vibeclaw)

OpenClaw 智能体开始“自己写工具”:n8n 集成与游戏脚本

有用户放任 OpenClaw Agent 在生产环境里跑,结果它给自己搭了看板和安全系统;另一个 Agent 用 Haiku 4.5 在 20 分钟内学会玩链上 MMORPG,自动写 Python 脚本、发交易挖矿,并设 cron 定时刷经验。还有 Agent 直接为 n8n 写完 OpenClaw Gateway 全工具接入节点,实现在可视化工作流里编排 20 个工具。

相关链接:OpenClaw n8n 社区节点npm 包 n8n-nodes-openclaw

Agent 调试与可观测性:LangChain、Raindrop 等工具升级

LangChain / LangSmith 更新了一批 trace 过滤和可观测性功能,并推出创业支持计划;社区分享了基于 LangChain 的高复杂度调试 Agent 案例(用子 Agent+评测循环优化 CPU profile 分析)。Raindrop 则给出了“轨迹浏览器”视图,便于回放 Agent 调用链。

相关链接:LangChain 更新与案例Deep Agents 调试案例Raindrop 轨迹浏览器

Qbit:把终端、Git 和 MCP 接到一个 Agent IDE 里

开源 IDE Qbit 主打“带 Agent 的终端”,支持项目管理、统一时间线、模型选择、内联编辑、Git 集成和 MCP 工具。目标是用 Agent 驱动命令行和项目操作,但保持人类对每一步的可见和可回滚。

相关链接:Qbit 项目

Claude Code 深度工作流:3k 小时堆出的“多人联机 IDE”

有重度用户用约 3000 小时在 Claude Code 上搭了一整套流水线:从需求澄清、架构评审、原子任务拆分,到多模型协作开发、对抗式代码审查和 QA/安全审计,全都用不同角色的 Claude 串起来。其经验重点是:尽量减少上下文噪音、把人类意图锁死在规则文档里,而不是完全放权给 Agent。

相关链接:Claude Code 工作流分享


基础设施与硬件

OpenRouter 多次故障与计费 Bug:数据库宕机、登录掉线、图片白收钱

OpenRouter 近期两次数据库宕机(凌晨约半小时),同时身份服务商 Clerk 性能下降,导致登录异常。部分用户在新版后端重构中遭遇“扣了 image_tokens 却没有返回图片”的情况,官方承认测试漏掉边界条件并承诺退款。

相关链接:OpenRouter 宕机与说明社区图片计费问题讨论

GPU MODE 社区:FP8 长程训练、DirectML vs CUDA 与 NVIDIA 比赛坑点

GPU MODE 分享了一次 0.5B 模型在 4×4090、FP8 精度下训练 350B token 仍稳定的经验,认为干净数据和小模型是关键;社区还讨论 DirectML 做 ONNX 推理在 Windows 上可接近 CUDA,但无 Linux 支持且项目进入维护期。NVIDIA 官方 leaderboard 与 Modal runner 的 Cutlass 版本不一致,也让参赛者频繁遇到提交错误。

相关链接:FP8 稳定训练讨论DirectML 维护状态 issueNVIDIA 比赛讨论与错误

Terradev CLI:做 GPU“比价平台”的多云命令行

Terradev CLI 号称帮开发者避免被单云 GPU 价格“薅羊毛”,支持 BYO API 多云调度、作业真实成本统计,并一键部署到 Hugging Face Spaces。最新 2.9.2 版本加入多云 GPU 套利和更细的费用归因。

相关链接:Terradev CLI PyPI项目源码

本地 LLM 生态:硬件成本、NVLink/ROCm 和“贵但好玩”的共识

LM Studio 社区讨论本地跑大模型是否“值回票价”:共识是更多 VRAM 永远有用,但很多人更多是出于隐私、学习和避免云端“焚化场式改版”。NVLink 对推理吞吐帮助有限,带宽通常不是瓶颈;ROCm 在一些场景性能接近 CUDA,但生态和工具仍薄弱。

相关链接:LM Studio 硬件讨论串


研究与方法

Every Eval Ever:Eleuther / HF 发起统一评测数据格式

EleutherAI、Hugging Face 和爱丁堡大学联合发起 EvalEval 联盟,发布“Every Eval Ever”计划,给各种 LLM 评测结果定义统一 schema,并开放众包数据集,方便把 HELM、lm-eval-harness、Inspect AI 等结果对齐比较。ACL 2026 将办配套 workshop 和 shared task,优秀贡献者可挂 co-author。

相关链接:Every Eval Ever 官网GitHub 仓库Hugging Face 数据集

LLM 评测“工业化”:可复现实验管线与成本/延迟记录

社区有人开源了一个可复现 LLM 评测管线,会记录裁判分歧、重试/失败情况以及每个实验的成本与延迟,而不仅是一串排行榜分数。大家越来越在意“跑一次要花多少钱、要多久”和“评测本身的稳定性”,而不是只看单点 accuracy。

相关链接:llm-eval-pipeline Space

注意力可解释性:GPT‑2 Small 75% 头不需要满秩 QK

Eleuther 社区复盘一篇工作:对 GPT‑2 Small 的注意力头做结构约束,发现约 75% 头可以用低秩或固定模式 QK 代替,仍能保持甚至略优验证损失(在 WikiText‑2 上提升约 5.3%)。还发现大量“bos-sink”型头,说明模型严重依赖首 token 作为信息汇聚点。

相关链接:Structural Attention Constraints 代码

Residual 流交换揭示“因果承诺层”:62–71% 深度后表示开始“锁死”

另一项研究在 GPT‑2 Small、Gemma‑2‑2B、Qwen2.5‑1.5B 上做逐层残差流互换,发现网络在大约 62–71% 深度时出现“因果承诺点”:在此之前换层几乎不影响输出,在此之后则会大幅改变结果。这给“模型在哪一层真正做出决定”提供了量化证据。

相关链接:Residual swap 实验预印本

STATe‑of‑Thoughts:在 DSPy 里跑 Tree‑of‑Thoughts

新框架 STATe‑of‑Thoughts 把 Tree‑of‑Thoughts 集成进 DSPy,支持早停避免上下文“腐烂”、用文本干预控制分支多样性,并默认用自建 vLLM 集群而非昂贵闭源 API。作者给了一个生成说服性论证的案例,顺便分析不同推理路径为何有效。

相关链接:STATe‑of‑Thoughts 代码论文


产品与应用落地

Perplexity 收紧用量:Pro 从“日 600 次”改成“周 200 次”,大量账号被封

Perplexity Pro 用户发现“增强查询”额度从每天 600 次变成每周 200 次,同时一批账号突然被以“违反条款”理由封禁,客服只给模板回复,不具体说明原因。社区普遍怀疑是打击折扣 key / 转卖行为,也有人认为这是逼 Pro 用户升级到 Max。

相关链接:限额与封号讨论

Cursor、Windsurf 等 IDE:快速接入 Gemini 3.1 Pro,并推年付/促销

Cursor 已上线 Gemini 3.1 Pro,部分用户认为其代码能力已追平甚至略超 Opus 4.6,但也有人觉得实战水平配不上基准分;社区强调通过 .cursorrules 和架构文档强化上下文更关键。Windsurf 则以半价信用点试用 Gemini 3.1 Pro,推动用户迁移到新模型。

相关链接:Cursor 讨论串Windsurf 公告

Gradio 6 上线 gr.HTML,一文件写完整网页 App

Gradio 新增 gr.HTML 组件,可以在单个 Python 文件里直接写整套前端(看板、番茄钟等),然后用 LLM 一次性生成。作者展示了用 Claude“单 prompt 出全站”的例子,同时鼓励社区分享自己的一键 App。

相关链接:官方博客:HTML one-shot apps

Rover:给网站嵌一个“能点页面”的 Web Agent

Rover 号称第一个“可嵌入网页的 Agent”,只需插一段 script,就能让 Agent 读 DOM、点击按钮、帮用户完成操作,无需自己开 API 或写后端。定位是让任意网站快速拥有“会操作 UI 的客服/助手”。

相关链接:Rover 官网介绍博文

Manus 求职助手:一边被夸好用,一边被爆 2500 美元错扣费

有人称 Manus 在自动填简历、网申表单上“比 BestBuy 自己的表单好用多了”,也有用户投诉本应 680 美元的套餐被扣了约 2500 美元,多次联系客服无回应,打算向 BBB 投诉;社区同时确认 Manus 已被 Meta 收购。

相关链接:Manus Discord 投诉与好评


行业与公司动态

TOTO 居然要做 AI 芯片:靠陶瓷工艺切入 600 亿美元市场

日本马桶厂商 TOTO 利用自己在高端陶瓷方面的能力,宣布进军 AI 芯片封装/材料领域,目标瞄准约 600 亿美元市场。消息传出后公司股价一度暴涨约 60%,被戏称为“马桶厂转型算力公司”的极端案例。

相关链接:相关报道推文

AI 收入竞速:研究机构预测 Anthropic 最快 2026 年追平 OpenAI

Epoch 的模型显示,在当前增速下,Anthropic 收入可能在 2026 年中左右追上 OpenAI,前提是两边增速不大幅放缓。也提醒这类外推对“边际放缓”“价格战”等因素非常敏感,只是一个参考曲线。

相关链接:Epoch 收入分析线程

Snap 硬件负责人因战略冲突离职,Spectacles 前景成疑

Snap 负责眼镜 Specs 的高级副总裁在内部与 CEO Evan Spiegel 因硬件路线发生激烈分歧后离职,结束六年硬件探索。外界普遍解读为 Snap 在消费级 AR 硬件上的押注收缩,短期可能更保守。

相关链接:离职报道


政策、治理与安全

OpenAI 宣布 750 万美元对齐资助,并拿到 FedRAMP 授权

OpenAI 公布向 AI Security Institute 的 Alignment Project 提供 750 万美元资助,用于更系统的安全/对齐研究;同时有消息称 OpenAI 已取得 FedRAMP 授权,意味着其部分服务可按美联邦政府云安全标准采购使用。

相关链接:官方对齐资助公告FedRAMP 授权讨论

Anthropic 明确禁止用个人 OAuth Token 供外部工具调用 Claude

Anthropic 更新条款并在社区澄清:Claude 免费/Pro/Max 的 OAuth Token 只能在官方产品内用,把这些 Token 塞进第三方工具(包括 Agent SDK)属于违规。这解释了近期部分基于浏览器劫持 Claude 的工具用户被封号的情况。

相关链接:政策讨论帖

AI Agent 身份认证:有人给 Agent 发“加密护照”了

随着大量自主 Agent 在链上和互联网上调用 API、转账、下单,有团队提出给每个 Agent 发 Ed25519 加密“护照”,用于签名、追踪信誉和设置消费额度。目标是防止“谁都能冒充某个 Agent”以及滥刷资源。

相关链接:Agent 护照提案

BASI 社区:越狱、武器配方和“不要点链接”的自我约束

越狱社区 BASI 中,有人讨论如何用公开论文/Google Scholar 拿到炭疽等危险信息,也有人用 prompt 把 DeepSeek 调成满嘴脏话的“失控写作助手”。同时不少成员开始彼此提醒不要随便点陌生链接,担心钓鱼和执法风险。

相关链接:BASI Jailbreaking 讨论区



📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录