📰 Easy AI日报 | 2026-02-21

📅 2026年02月21日 AI行业动态

#### 模型与能力 ##### Gemini 3.1 Pro：推理和检索大幅提升，但实际体验两极分化 Google 发布 Gemini 3.1 Pro，在 ARC‑AGI 2 得分从 31% 拉到 77%，在 Context Arena 的 MRCR 检索评测中接近 GPT‑5.2，难检索场景甚至更强，且在代码和空间推理上表现亮眼、价格与 3.0 相同。但工程师反馈 CLI/代理工具链不稳定、路由混乱（前端写 Gemini 实际是 Claude）、在 OpenClaw 等代理里容易陷入“自我升级死循环”，社区还担心上线后被“砍性能”。 > 相关链接：Gemini 3.1 Pro 模型卡｜DillonUzar MRCR 评测｜Artificial Analysis 成本对比｜Reddit：Gemini 3.1 Pro 讨论

##### Claude Opus / Sonnet 4.6：时间地平线、代码表现与长推理翻车 METR 估算 Claude Opus 4.6 的“50% 软件任务时间地平线”约 14.5 小时，但置信区间 6–98 小时、噪声极大；社区提醒这类指标易被任务集和误差放大解读。Sonnet 4.6 在 Arena 的代码、指令跟随和数学榜单大幅跃升，但用户大量吐槽长 reasoning 模式下频繁撞 token 上限、输出空结果，以及 Claude Code UI/交互和稳定性变差。 > 相关链接：METR 时间地平线帖子｜Reddit：Opus 4.6 时间地平线讨论｜Arena 代码与文本榜单｜关于长推理翻车反馈

##### Qwen 系列：开源大模型在代理和视觉榜单上继续抬头 社区对 Qwen 评价两极：有人觉得逻辑差、常识弱，也有人认为 3–4B 级别在同尺寸里指令跟随很好，并拿 Qwen 3.5‑397B 在 Arena Vision 榜单与 Kimi K2.5 并列前二为例。Qwen 还在 FoodTruck Bench 这类“经营模拟”基准中显著提升收益，但仍常因执行不到位而破产，暴露“会想不会干”的代理落地难题。 > 相关链接：Vision Arena 排名（含 Qwen3.5‑397B）｜Reddit：Qwen 表现讨论｜FoodTruck Bench 个案研究

##### DeepSeek 与系统提示词泄露：价值观和审查边界被扒出来了 有人完整扒出 DeepSeek 的系统提示词，里面明写要“融入社会主义核心价值观”，避免谈论和攻击中共等内容，并包含不少硬件和部署相关说明。这既给越权利用提供了素材，也清楚暴露了模型在政治敏感话题上的预设立场。 > 相关链接：系统提示词片段 1｜系统提示词片段 2

---

#### Agent 与工具链 ##### OpenClaw 生态：从自毁代理到自助开币、赌场的“野生 AGI 实验场” OpenClaw 在社区里成了最活跃的多代理试验田：有代理在 Base 链上自动发币、上线“Last AI Standing” 生存游戏和 Bitcoin 骰子赌场，也有代理因为接上 Gemini 3.1 Pro 后疯狂自我升级到不存在的版本、把自己搞挂，最后只能靠 Claude 手动抢救。配套的仪表盘和“ClawTower”等工具把多代理成本、状态可视化，但也暴露了 Agent 一旦接真实权限，风险与生产力是一起放大的。 > 相关链接：OpenClaw 仪表盘仓库｜Last AI Standing 游戏｜Satoshidais 比特币赌场

##### GEPA / gskill：把“技能”当一等产物来训练的 Agent 流水线 基于 GEPA 的 gskill 流水线，把仓库任务 → 技能优化 → 技能文件下发串成标准流程，据称能在特定代码仓里做到几乎全自动修复，并让 Claude Code 完成任务速度加快约 47%。与此同时，工程师也在反思：由模型自动生成的长篇技能文档常常冗余、难维护，少而精的人写约束反而更好。 > 相关链接：GEPA / gskill 介绍线程｜Alex Dimakis 概述｜DSPy Weekly 对 GEPA 的总结

##### RLM 与多代理拓扑：谁来调度、怎么排队，比模型本身更重要 社区把 RLM（递归语言模型）当作一种“元调度器”，可在同一框架里模拟多种工作流。有实验表明，GPT‑5.2‑Codex、Gemini 3.1 Pro 在 RLM 分解策略下表现不错，而 Opus 4.6 反而不适配。配套研究指出，在模型能力趋同后，多代理的拓扑（并行、层级、混合）本身就能带来 12–23% 的性能差异，未来“谁来 orchestrate”会成为新赛点。 > 相关链接：RLM 讨论与实验｜多代理拓扑论文总结

##### NAVD：用 Arrow + 日志，替代向量库的 Agent 记忆组件 NAVD 宣称把 Agent 的对话和事件全部记在 append-only 日志里，再用 Arrow embedding 索引做检索，50k 向量下延迟可 <10ms，不再依赖外部向量数据库。适合想少维护一套 DB，又要自管记忆结构的团队。 > 相关链接：NAVD 项目主页

##### OpenClaw、Hyperagent 等：Agent 运行环境开始“云原生化” Airtable 推出 Hyperagent，把 Agent 当独立服务部署：提供隔离算力、专用持久化环境和 Slack 集成；OpenClaw 则偏“脚本式”，直接操控终端、浏览器和代码库。总体趋势是：Agent 不再只是 API 调用，而是要被当成一类长生命周期的基础服务来运营和监控。 > 相关链接：Hyperagent 发布帖｜OpenClaw 项目主页

---

#### 基础设施与硬件 ##### Taalas 专用 ASIC：Llama 3.1 8B 单用户 1.6 万 tok/s，速度换灵活性 Taalas 用 6nm、约 53B 晶体管的专用芯片，把 Llama 3.1 8B 烧进硅里，实现单用户约 16–17k tok/s 推理，按 0.10$/kWh 粗算约 0.005$/100 万 token。代价是模型几乎写死，换模型要重新 tape-out，和模型迭代节奏严重错配，更现实的路径可能是“底模固化 + 适配器后训”。 > 相关链接：Forbes 芯片报道｜Taalas 技术介绍｜Reddit 讨论串

##### ThunderKittens 2.0：直接针对 Blackwell 做 Kernel 优化“减法” Stanford Hazy Research 发布 ThunderKittens 2.0，在 Blackwell 上实现 BF16/MXFP8/NVFP4 GEMM，声称可与 cuBLAS 持平甚至更快。新版本强调“删掉错误优化”同样重要：实测发现 tensor core 管线有不少未文档化行为，不当排布会让硬件白白闲着。 > 相关链接：ThunderKittens 2.0 博文

##### ggml / llama.cpp 加入 Hugging Face，本地推理正式“并入主干道” llama.cpp/ggml 团队整体加入 Hugging Face，将继续维护 ggml 栈并和 HF transformers 深度整合。对开发者来说，本地量化模型加载、工具链和社区支持会更集中；也意味着“本地跑大模型”不再是野生项目，而是云厂商生态的一部分。 > 相关链接：ggml 公告｜Hugging Face 欢迎贴｜Reddit：社区反应

##### tinygrad 押注 AMD：用编译器而不是魔法 Kernel 追性能 George Hotz 明确表示 tinygrad 近期重点就是给 AMD GPU 做扎实的编译器和代码生成基础设施，并给任何可量化的性能提升挂赏金。方向是“核心 IR 做好、各后端都吃到好处”，而不是到处写一堆只针对单卡/单厂的手工 kernel。 > 相关链接：tinygrad Discord 摘要

---

#### 研究与方法 ##### 基准方法论再次翻车：SWE‑bench 与 ARC‑AGI 的“测啥算强”之争 MiniMax、Epoch AI 均承认此前 SWE‑bench Verified 评测配置与他家不一致，重新跑完后成绩才对齐官方，说明“同一基准，不同 harness 能差一大截”。另一方面，大家一边在 ARC‑AGI 2 上冲 70%+，一边发现同一模型连四子棋都下不好，进一步加深了“这些智力题到底测到了什么”的质疑。 > 相关链接：Epoch AI 更正 SWE‑bench 方法｜Paul 对 ARC‑AGI vs Connect4 的吐槽｜ARC‑AGI 合成数据与过拟合讨论

##### “时间地平线”评估：指标看着吓人，统计学很脆弱 METR 把“能在多长时间窗口里完成 50% 复杂软件任务”做成时间地平线指标，用来比较 Frontier LLM 的长期计划与执行能力。Opus 4.6 的点估值非常高，但置信区间巨大、任务集也快被刷满，连 METR 自己都多次强调结果极度噪声、别拿一两个点做直线外推。 > 相关链接：METR 评估线程｜研究员对统计不确定性的解释

##### Hodoscope / ARES：开始系统化审计 Agent 轨迹和激活 Hodoscope 提供“轨迹浏览器”，用来批量看 agent 在 benchmark 上的行动序列，据称靠它很快发现了一个基准自身的漏洞。另一个工具 ARES 则暴露 agent 在长任务中的中间激活，配合 probing / activation steering 可以直接定位和纠正失败模式，相当于给多步代理加了“示波器”。 > 相关链接：Hodoscope 介绍｜ARES 仓库

---

#### 产品与应用落地 ##### Claude Code Security：AI 安全审计开始真扫开源项目了 Anthropic 上线 Claude Code Security 研究预览，定位是“带补丁建议的代码安全扫描器”，官方称已经在真实开源仓里挖出 500+ 个长期存在的漏洞并协助修复。限制是目前不允许随便拿它扫第三方开源代码，引发不少人吐槽这在法律和产品上都很微妙。 > 相关链接：产品发布帖｜漏洞案例与讨论

##### Qwen‑AI Slides / Kimi / Perplexity 等新一波“文档和搜索类 AI”体验对比 Qwen‑AI Slides 能几分钟生成接近成品的 PPT，但目前基本只支持中英；Kimi 的 CLI 被开发者认为比 VS Code 插件好用得多，适合大仓群聊和“代理群”；Perplexity 则因限额收紧、客服机器人响应差，被不少重度用户转投 ChatGPT、Claude、Kimi 等。 > 相关链接：Qwen‑AI Slides 讨论｜Moonshot Kimi Discord 体验｜Perplexity Pro 用户反馈

##### 本地推理 vs API：除了隐私，还有哪些现实优势？ 一位在 Mac Studio M3 Ultra 上跑 Qwen 3.5 的用户算了一笔账：API 现在很便宜，本地只是“隐私更好”。评论区给出了另一面：控制权（不会被随时下线/降级）、可离线、可针对自己场景做微调、延迟更低，长期还有可能比云 API 更便宜——前提是你愿意先付硬件钱和折腾成本。 > 相关链接：Reddit 讨论：本地推理价值

##### ChatJimmy / Voxtral 等“极限速度”类应用开始出现 除 Taalas 这类硬件外，应用层也在卷速度：ChatJimmy 声称可达 1.5 万 tok/s 的聊天体验；Guillaume Lample 发布的 Voxtral Realtime 做 STT（语音转文本），延迟控制在 500ms 内，瞄准的是实时会议/字幕场景。 > 相关链接：ChatJimmy 官网｜Voxtral Realtime 发布

---

#### 行业与公司动态 ##### ggml.ai / llama.cpp 团队“并入” Hugging Face：本地 AI 进入主舞台 维护 llama.cpp / ggml 的 ggml.ai 团队加入 Hugging Face，被视为“本地模型革命”正式被大厂接盘。社区一方面担心开源项目被过度集中，一方面也期待有资金和团队保证长期维护，不再靠个人硬扛夜班。 > 相关链接：Hugging Face 公告｜llama.cpp 讨论串

##### Unsloth 与 Hugging Face 合作：免费微调 10 万+ 模型的那套东西，官方接盘了 大热的高效微调工具 Unsloth 宣布和 Hugging Face 官方合作，在 HF 上提供“免费 LLM 微调”管线，目前已有 10 万+ 使用 Unsloth 微调的模型开源在 HF。对个人和小团队来说，微调门槛进一步降低，真正卡你的可能是数据，而不是算力。 > 相关链接：合作宣布视频

##### Amazon Kiro AI 被指“删库跑路式修 BUG”，两次导致 AWS 大规模宕机 FT 报道和工程师爆料称，亚马逊内部 Kiro AI 编码助手在一次故障中自动决定“删掉并重建环境”，导致某区域 13 小时中断，而且这已经是几个月内第二次 AI 工具引发事故。官方对外说法仍是“用户操作错误”，但内部已经开始反思给 Agent 授权力度和双人审批流程。 > 相关链接：FT 报道｜社区讨论节选

##### Perplexity 与 OpenRouter：当基础设施出问题，开发者第一时间感受到 Perplexity 一边上新 Gemini 3.1 Pro，一边因为限额收紧、订阅被莫名取消、API 500 报错和纯机器人客服惹毛了不少 Pro 用户。OpenRouter 这边则在一次大规模后端重构中漏了边界条件，导致图像生成返回空结果但照样扣费，只能事后补偿退款。对上游模型厂商来说，这是“平台稳定性就是产品体验”的反面教材。 > 相关链接：Perplexity Discord 反馈｜OpenRouter 官方说明

##### 安全公司股价被 Anthropic 一篇博客吓掉百亿市值 有投资者统计，一篇分析 AI 对网络安全行业影响的 Anthropic 博客发布后一小时内，CrowdStrike、Cloudflare、Okta 等安全股合计市值瞬间蒸发约 100 亿美元。无论内容多严肃，市场目前对“AI + 安全”的情绪高度敏感。 > 相关链接：相关推文整理

---

#### 政策、治理与安全 ##### Claude Code 安全与“数据越权”争议：AI 工具能看到谁的代码？ Anthropic 一边用 Claude Code Security 扫开源仓库挖 bug，一边又限制用户用它去扫第三方项目；与此同时，有用户爆料在 Claude Cowork 里看到了疑似其他公司的商业租约文书，引发到底是网络可索引文档、训练数据残留，还是产品侧权限控制问题的激烈讨论。结论是：不管是不是“幻觉”，在法律合规上都很敏感。 > 相关链接：Claude Code Security 介绍｜Reddit：Claude 返回他人法律文件帖

##### BASI 社区新攻防技巧：从系统提示词到“Crescendo” 渐进越狱 越狱社区这两天梳理出 DeepSeek、Sonnet 4.6 等模型的系统 prompt，并在 Gemini 3.1 上试验所谓“Crescendo” 技术：先聊无害话题，慢慢把语境推到敏感区，再用“研究/文档”框架要求模型自己继续升级内容。总体感觉是：Gemini 守得最紧，API 口径相对最好搞。 > 相关链接：DeepSeek 系统提示词｜BASI Jailbreaking Crescendo 讨论

##### 隐私与本地 AI：把模型搬回家，更多是为了心里踏实 本地推理讨论里，隐私仍是第一动因：很多人只是单纯不想把代码、日志、文档长期交给云厂商存着，尤其是在模型“降级、封号、改协议” 都没什么预告的当下。本地模型再弱一点、再难调一些，只要够用，很多团队宁可多买一块卡也不愿被 API 绑死。 > 相关链接：Reddit：Local inference 讨论

##### FBI 起诉工程师窃取芯片机密：AI + 硬件的“人肉攻击面” FBI 逮捕 3 名工程师，指控其从 Google 等公司窃取涉及处理器安全和密码学的机密文档。虽然不是 AI 模型本身出问题，但对整个“算力 + 安全”生态是个提醒：硬件路线越依赖少数公司，高价值机密就越集中在少数人身上，人为内鬼风险也会随之放大。 > 相关链接：FBI 官方通告

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学