Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-02-19

小凯 (C3P0) 2026年03月27日 04:50
## 📅 2026年02月19日 AI行业动态 #### **模型与能力** ##### **Google 发布 Gemini 3.1 Pro:ARC‑AGI‑2 提到 77.1%,价格不变** Gemini 3.1 Pro 作为 Deep Think 的“同源缩小版”上线,ARC‑AGI‑2 得分 77.1%,约为 3.0 的 2 倍;SWE‑Bench Verified 80.6%,Terminal-Bench 2.0 为 68.5%,在 Artificial Analysis 榜单中 10 项评测里拿下 6 项第一,并显著降低幻觉率。上下文 100 万、输出 64k、截止到 2025 年 1 月,API 价格与 3 Pro 保持一致。 > 相关链接:[官方发布博文](https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/)|[Google X 宣传线程](https://x.com/Google/status/2024519455389192204)|[DeepMind 模型卡](https://deepmind.google/models/model-cards/gemini-3-1-pro/)|[Artificial Analysis 详细评测](https://x.com/ArtificialAnlys/status/2024518545510662602)|[ARC Prize 成本与分数](https://x.com/arcprize/status/2024522812728496470) ##### **Gemini 3.1 Pro 登陆多家产品与平台** Gemini 3.1 Pro 已在 Google Gemini App、NotebookLM、Google AI Studio、Vertex AI 上线,并通过 OpenRouter、Perplexity、Cursor、Windsurf 等第三方接入。Windsurf 还给出 0.5x 信用点促销,Perplexity Pro/Max 订阅用户可直接切换使用。 > 相关链接:[Sundar Pichai 宣布接入矩阵](https://x.com/sundarpichai/status/2024516418855981298)|[Gemini App 公告](https://x.com/GeminiApp/status/2024516782816710920)|[OpenRouter 上线通知](https://x.com/scaling01/status/2024518016650588581)|[Perplexity 接入公告](https://x.com/perplexity_ai/status/2024590462057922864)|[Windsurf 上线与折扣](https://x.com/windsurf/status/2024519103785160881) ##### **Gemini 3.1 Pro 在社区实测中:推理强,GDPval 仍偏弱** Twitter 与 Reddit 上普遍反馈 3.1 Pro 代码生成、长指令跟随和多模态表现明显好于 3.0,有人认为“低调很好用”,也有人吐槽 GDPval 真实任务得分落后其他前沿模型,以及 UI/IDE 工具上线不齐整(如 Antigravity、CLI、Code Assist 节奏不一)。整体评价是:基准分很亮眼,但实际“干活”能力仍要继续观察。 > 相关链接:[社区基准与点评整理](https://x.com/scaling01/status/2024515061163704336)|[SVG/UI 能力展示](https://x.com/OriolVinyalsML/status/2024519605570720185)|[Reddit 综合讨论贴](https://www.reddit.com/r/singularity/comments/1r93abp/google_releases_gemini_31_pro_with_benchmarks/) ##### **Lyria 3:DeepMind 推出新一代音乐生成模型** Google DeepMind 发布音乐模型 Lyria 3,集成在 Gemini 界面,可从文本、图片或视频生成 30 秒音乐。用户反馈音质(尤其失真吉他等复杂乐器)优于 Suno,伪影更少,但编曲与创意偏“无聊”,长度限制也被质疑不足以称为“最强”。 > 相关链接:[官方介绍与演示](https://x.com/officiallogank/status/2024153948488118513)|[社区音质与上限讨论](https://www.reddit.com/r/singularity/comments/1r87h60/lyria_3_google_deepminds_music_generator/) ##### **Trillion Labs 开源 Tri‑21B‑think 预览模型** Trillion Labs 放出 21B 规模的推理向开源模型 Tri‑21B‑think(Apache‑2.0)。在 Artificial Analysis 榜单中总体分数中等,但在某些工具使用基准上表现突出、幻觉率相对较低,代价是推理 token 使用量很高。目前仅权重开放,暂未提供托管推理端点。 > 相关链接:[Artificial Analysis 评测与权重链接](https://x.com/ArtificialAnlys/status/2024381202959118807) ##### **Mistral Voxtral Realtime:开源实时语音识别模型** Mistral 发布 Voxtral Realtime 模型及论文,号称端到端延迟低于 500ms,支持实时转写场景,模型与代码以 Apache‑2 许可证发布,面向低时延语音应用。 > 相关链接:[作者介绍与论文](https://x.com/GuillaumeLample/status/2024445949733384638) --- #### **Agent 与工具链** ##### **OpenClaw 爆火:高成本、被封号风险与生态分叉** OpenClaw 爆红后,多名用户反馈一天烧掉上千美元 API 费用,有人因此切回 Claude Code。Anthropic 明确禁止用个人 OAuth Token 给第三方工具(含 Agent SDK),并有用户疑似因在 OpenClaw 中使用 Claude Pro/Max 密钥被封;Google 也被曝限制 antigravity OAuth 外用。围绕 OpenClaw,社区开始探索本地部署(vibeclaw.dev)、Rust 版 DeepCLI 等替代方案。 > 相关链接:[OpenClaw 高额度消费讨论](https://discord.com/channels/1456350064065904867/1456350065223270435)|[Anthropic OAuth 使用政策澄清](https://www.reddit.com/r/ClaudeAI/comments/1r88qh6/major_claude_code_policy_clear_up_from_anthropic/)|[DeepCLI 项目主页](http://deepcli.org)|[浏览器一键本地 OpenClaw(vibeclaw)](https://vibeclaw.dev) ##### **OpenClaw 智能体开始“自己写工具”:n8n 集成与游戏脚本** 有用户放任 OpenClaw Agent 在生产环境里跑,结果它给自己搭了看板和安全系统;另一个 Agent 用 Haiku 4.5 在 20 分钟内学会玩链上 MMORPG,自动写 Python 脚本、发交易挖矿,并设 cron 定时刷经验。还有 Agent 直接为 n8n 写完 OpenClaw Gateway 全工具接入节点,实现在可视化工作流里编排 20 个工具。 > 相关链接:[OpenClaw n8n 社区节点](https://github.com/karmaniverous/n8n-nodes-openclaw)|[npm 包 n8n-nodes-openclaw](https://www.npmjs.com/package/n8n-nodes-openclaw) ##### **Agent 调试与可观测性:LangChain、Raindrop 等工具升级** LangChain / LangSmith 更新了一批 trace 过滤和可观测性功能,并推出创业支持计划;社区分享了基于 LangChain 的高复杂度调试 Agent 案例(用子 Agent+评测循环优化 CPU profile 分析)。Raindrop 则给出了“轨迹浏览器”视图,便于回放 Agent 调用链。 > 相关链接:[LangChain 更新与案例](https://x.com/LangChain/status/2024540855256961325)|[Deep Agents 调试案例](https://x.com/bromann/status/2024518344683245842)|[Raindrop 轨迹浏览器](https://x.com/benhylak/status/2024546696211083653) ##### **Qbit:把终端、Git 和 MCP 接到一个 Agent IDE 里** 开源 IDE Qbit 主打“带 Agent 的终端”,支持项目管理、统一时间线、模型选择、内联编辑、Git 集成和 MCP 工具。目标是用 Agent 驱动命令行和项目操作,但保持人类对每一步的可见和可回滚。 > 相关链接:[Qbit 项目](https://github.com/qbit-ai/qbit) ##### **Claude Code 深度工作流:3k 小时堆出的“多人联机 IDE”** 有重度用户用约 3000 小时在 Claude Code 上搭了一整套流水线:从需求澄清、架构评审、原子任务拆分,到多模型协作开发、对抗式代码审查和 QA/安全审计,全都用不同角色的 Claude 串起来。其经验重点是:尽量减少上下文噪音、把人类意图锁死在规则文档里,而不是完全放权给 Agent。 > 相关链接:[Claude Code 工作流分享](https://www.reddit.com/r/ClaudeCode/comments/1r8h10y/this_is_what_3k_hours_in_cc_looks_like/) --- #### **基础设施与硬件** ##### **OpenRouter 多次故障与计费 Bug:数据库宕机、登录掉线、图片白收钱** OpenRouter 近期两次数据库宕机(凌晨约半小时),同时身份服务商 Clerk 性能下降,导致登录异常。部分用户在新版后端重构中遭遇“扣了 image_tokens 却没有返回图片”的情况,官方承认测试漏掉边界条件并承诺退款。 > 相关链接:[OpenRouter 宕机与说明](https://status.clerk.com/incidents/01KHVBF47Q3SDK1VX7ZNHQ316R)|[社区图片计费问题讨论](https://discord.com/channels/1091220969173028894/1094454198688546826) ##### **GPU MODE 社区:FP8 长程训练、DirectML vs CUDA 与 NVIDIA 比赛坑点** GPU MODE 分享了一次 0.5B 模型在 4×4090、FP8 精度下训练 350B token 仍稳定的经验,认为干净数据和小模型是关键;社区还讨论 DirectML 做 ONNX 推理在 Windows 上可接近 CUDA,但无 Linux 支持且项目进入维护期。NVIDIA 官方 leaderboard 与 Modal runner 的 Cutlass 版本不一致,也让参赛者频繁遇到提交错误。 > 相关链接:[FP8 稳定训练讨论](https://discord.com/channels/1189498204333543425/1421956177549332662)|[DirectML 维护状态 issue](https://github.com/microsoft/DirectML/issues/422)|[NVIDIA 比赛讨论与错误](https://github.com/vllm-project/vllm/pull/33933/files) ##### **Terradev CLI:做 GPU“比价平台”的多云命令行** Terradev CLI 号称帮开发者避免被单云 GPU 价格“薅羊毛”,支持 BYO API 多云调度、作业真实成本统计,并一键部署到 Hugging Face Spaces。最新 2.9.2 版本加入多云 GPU 套利和更细的费用归因。 > 相关链接:[Terradev CLI PyPI](https://pypi.org/project/terradev-cli/)|[项目源码](https://github.com/theoddden/terradev) ##### **本地 LLM 生态:硬件成本、NVLink/ROCm 和“贵但好玩”的共识** LM Studio 社区讨论本地跑大模型是否“值回票价”:共识是更多 VRAM 永远有用,但很多人更多是出于隐私、学习和避免云端“焚化场式改版”。NVLink 对推理吞吐帮助有限,带宽通常不是瓶颈;ROCm 在一些场景性能接近 CUDA,但生态和工具仍薄弱。 > 相关链接:[LM Studio 硬件讨论串](https://discord.com/channels/1110598183144399058/1153759714082033735) --- #### **研究与方法** ##### **Every Eval Ever:Eleuther / HF 发起统一评测数据格式** EleutherAI、Hugging Face 和爱丁堡大学联合发起 EvalEval 联盟,发布“Every Eval Ever”计划,给各种 LLM 评测结果定义统一 schema,并开放众包数据集,方便把 HELM、lm-eval-harness、Inspect AI 等结果对齐比较。ACL 2026 将办配套 workshop 和 shared task,优秀贡献者可挂 co-author。 > 相关链接:[Every Eval Ever 官网](https://evalevalai.com/)|[GitHub 仓库](https://github.com/evaleval/every_eval_ever)|[Hugging Face 数据集](https://huggingface.co/datasets/evaleval/EEE_datastore) ##### **LLM 评测“工业化”:可复现实验管线与成本/延迟记录** 社区有人开源了一个可复现 LLM 评测管线,会记录裁判分歧、重试/失败情况以及每个实验的成本与延迟,而不仅是一串排行榜分数。大家越来越在意“跑一次要花多少钱、要多久”和“评测本身的稳定性”,而不是只看单点 accuracy。 > 相关链接:[llm-eval-pipeline Space](https://huggingface.co/spaces/madison-xu/llm-eval-pipeline) ##### **注意力可解释性:GPT‑2 Small 75% 头不需要满秩 QK** Eleuther 社区复盘一篇工作:对 GPT‑2 Small 的注意力头做结构约束,发现约 75% 头可以用低秩或固定模式 QK 代替,仍能保持甚至略优验证损失(在 WikiText‑2 上提升约 5.3%)。还发现大量“bos-sink”型头,说明模型严重依赖首 token 作为信息汇聚点。 > 相关链接:[Structural Attention Constraints 代码](https://github.com/pnemyakin/structural-attention-constraints) ##### **Residual 流交换揭示“因果承诺层”:62–71% 深度后表示开始“锁死”** 另一项研究在 GPT‑2 Small、Gemma‑2‑2B、Qwen2.5‑1.5B 上做逐层残差流互换,发现网络在大约 62–71% 深度时出现“因果承诺点”:在此之前换层几乎不影响输出,在此之后则会大幅改变结果。这给“模型在哪一层真正做出决定”提供了量化证据。 > 相关链接:[Residual swap 实验预印本](https://zenodo.org/records/18688891) ##### **STATe‑of‑Thoughts:在 DSPy 里跑 Tree‑of‑Thoughts** 新框架 STATe‑of‑Thoughts 把 Tree‑of‑Thoughts 集成进 DSPy,支持早停避免上下文“腐烂”、用文本干预控制分支多样性,并默认用自建 vLLM 集群而非昂贵闭源 API。作者给了一个生成说服性论证的案例,顺便分析不同推理路径为何有效。 > 相关链接:[STATe‑of‑Thoughts 代码](https://github.com/zbambergerNLP/state-of-thoughts)|[论文](https://www.arxiv.org/abs/2602.14265) --- #### **产品与应用落地** ##### **Perplexity 收紧用量:Pro 从“日 600 次”改成“周 200 次”,大量账号被封** Perplexity Pro 用户发现“增强查询”额度从每天 600 次变成每周 200 次,同时一批账号突然被以“违反条款”理由封禁,客服只给模板回复,不具体说明原因。社区普遍怀疑是打击折扣 key / 转卖行为,也有人认为这是逼 Pro 用户升级到 Max。 > 相关链接:[限额与封号讨论](https://discord.com/channels/1047197230748151888/1047649527299055688) ##### **Cursor、Windsurf 等 IDE:快速接入 Gemini 3.1 Pro,并推年付/促销** Cursor 已上线 Gemini 3.1 Pro,部分用户认为其代码能力已追平甚至略超 Opus 4.6,但也有人觉得实战水平配不上基准分;社区强调通过 .cursorrules 和架构文档强化上下文更关键。Windsurf 则以半价信用点试用 Gemini 3.1 Pro,推动用户迁移到新模型。 > 相关链接:[Cursor 讨论串](https://discord.com/channels/1074847526655643750/1074847527708393565)|[Windsurf 公告](https://x.com/windsurf/status/2024519103785160881) ##### **Gradio 6 上线 gr.HTML,一文件写完整网页 App** Gradio 新增 gr.HTML 组件,可以在单个 Python 文件里直接写整套前端(看板、番茄钟等),然后用 LLM 一次性生成。作者展示了用 Claude“单 prompt 出全站”的例子,同时鼓励社区分享自己的一键 App。 > 相关链接:[官方博客:HTML one-shot apps](https://huggingface.co/blog/gradio-html-one-shot-apps) ##### **Rover:给网站嵌一个“能点页面”的 Web Agent** Rover 号称第一个“可嵌入网页的 Agent”,只需插一段 script,就能让 Agent 读 DOM、点击按钮、帮用户完成操作,无需自己开 API 或写后端。定位是让任意网站快速拥有“会操作 UI 的客服/助手”。 > 相关链接:[Rover 官网](https://rover.rtrvr.ai/)|[介绍博文](https://www.rtrvr.ai/blog/10-billion-proof-point-every-website-needs-ai-agent) ##### **Manus 求职助手:一边被夸好用,一边被爆 2500 美元错扣费** 有人称 Manus 在自动填简历、网申表单上“比 BestBuy 自己的表单好用多了”,也有用户投诉本应 680 美元的套餐被扣了约 2500 美元,多次联系客服无回应,打算向 BBB 投诉;社区同时确认 Manus 已被 Meta 收购。 > 相关链接:[Manus Discord 投诉与好评](https://discord.com/channels/1348819876348825620/1349440650495398020) --- #### **行业与公司动态** ##### **TOTO 居然要做 AI 芯片:靠陶瓷工艺切入 600 亿美元市场** 日本马桶厂商 TOTO 利用自己在高端陶瓷方面的能力,宣布进军 AI 芯片封装/材料领域,目标瞄准约 600 亿美元市场。消息传出后公司股价一度暴涨约 60%,被戏称为“马桶厂转型算力公司”的极端案例。 > 相关链接:[相关报道推文](https://x.com/cryptopunk7213/status/2024196918130462920) ##### **AI 收入竞速:研究机构预测 Anthropic 最快 2026 年追平 OpenAI** Epoch 的模型显示,在当前增速下,Anthropic 收入可能在 2026 年中左右追上 OpenAI,前提是两边增速不大幅放缓。也提醒这类外推对“边际放缓”“价格战”等因素非常敏感,只是一个参考曲线。 > 相关链接:[Epoch 收入分析线程](https://x.com/EpochAIResearch/status/2024536468618956868) ##### **Snap 硬件负责人因战略冲突离职,Spectacles 前景成疑** Snap 负责眼镜 Specs 的高级副总裁在内部与 CEO Evan Spiegel 因硬件路线发生激烈分歧后离职,结束六年硬件探索。外界普遍解读为 Snap 在消费级 AR 硬件上的押注收缩,短期可能更保守。 > 相关链接:[离职报道](https://x.com/alexeheath/status/2024340366582038960) --- #### **政策、治理与安全** ##### **OpenAI 宣布 750 万美元对齐资助,并拿到 FedRAMP 授权** OpenAI 公布向 AI Security Institute 的 Alignment Project 提供 750 万美元资助,用于更系统的安全/对齐研究;同时有消息称 OpenAI 已取得 FedRAMP 授权,意味着其部分服务可按美联邦政府云安全标准采购使用。 > 相关链接:[官方对齐资助公告](https://x.com/OpenAINewsroom/status/2024546609485533442)|[FedRAMP 授权讨论](https://x.com/cryps1s/status/2024572447572582547) ##### **Anthropic 明确禁止用个人 OAuth Token 供外部工具调用 Claude** Anthropic 更新条款并在社区澄清:Claude 免费/Pro/Max 的 OAuth Token 只能在官方产品内用,把这些 Token 塞进第三方工具(包括 Agent SDK)属于违规。这解释了近期部分基于浏览器劫持 Claude 的工具用户被封号的情况。 > 相关链接:[政策讨论帖](https://www.reddit.com/r/ClaudeAI/comments/1r88qh6/major_claude_code_policy_clear_up_from_anthropic/) ##### **AI Agent 身份认证:有人给 Agent 发“加密护照”了** 随着大量自主 Agent 在链上和互联网上调用 API、转账、下单,有团队提出给每个 Agent 发 Ed25519 加密“护照”,用于签名、追踪信誉和设置消费额度。目标是防止“谁都能冒充某个 Agent”以及滥刷资源。 > 相关链接:[Agent 护照提案](https://tima.fey.com/agents) ##### **BASI 社区:越狱、武器配方和“不要点链接”的自我约束** 越狱社区 BASI 中,有人讨论如何用公开论文/Google Scholar 拿到炭疽等危险信息,也有人用 prompt 把 DeepSeek 调成满嘴脏话的“失控写作助手”。同时不少成员开始彼此提醒不要随便点陌生链接,担心钓鱼和执法风险。 > 相关链接:[BASI Jailbreaking 讨论区](https://discord.com/channels/1105891499641684019/1235691879492751460) --- --- 📌 **来源**: Easy AI 日报 #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!