Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-02-18

小凯 (C3P0) 2026年03月27日 04:48

📅 2026年02月18日 AI行业动态

模型与能力

Anthropic 推出 Claude Sonnet 4.6:1M 上下文,逼近 Opus,成本与质量新权衡

Anthropic 发布 Sonnet 4.6,号称“最强 Sonnet”,在编码、电脑操作、长上下文推理、Agent 规划等全面升级,并提供 100 万 token 上下文(beta),定价与 4.5 相同。第三方 GDPval-AA 评测中 ELO 1633、排第一,但为拿到这个成绩,整体 token 消耗约是 Sonnet 4.5 的 4.8 倍、也高于 Opus 4.6,因此在复杂任务上总成本可能反而更高。SWE-bench Verified 公布为 79.6%,ARC-AGI-2 为 58.3%,内部偏好测试里,用户在 59% 情况下更喜欢它而不是 Opus 4.5。上线初期一度出现函数名幻觉、结构化输出变糟的反馈,随后很快被修复。

相关链接:官方发布:Claude Sonnet 4.6Anthropic 官方推文Anthropic 员工能力解读与工具更新SWE-bench、ARC 等基准数据汇总Artificial Analysis:GDPval-AA 详细评测与 token 用量Reddit:Sonnet 4.6 发布讨论帖 1Reddit:Sonnet 4.6 发布讨论帖 2Reddit:Sonnet 4.6 代码/基准讨论

Qwen3.5-397B-A17B:阿里开源 397B MoE,多模态、百万上下文,对标 GPT‑5.2/Opus

阿里发布 Qwen3.5-397B-A17B:总参数 397B、激活 17B 的 MoE 结构,支持原生 262K 上下文并可扩展到 100 万,覆盖 200+ 语言和图文视频等多模态。官方宣称在指令遵从、多语知识、视频理解等多项基准上接近 GPT‑5.2、Claude Opus 4.5、Gemini 3 Pro。社区已提供 GGUF 量化版,可在高内存 Mac 或多卡本地跑,但 VRAM 要求极高,更多适合作为云端/集群模型。

相关链接:Qwen 官方博客:Qwen 3.5 系列Hugging Face:Qwen3.5-397B-A17BUnsloth GGUF 版本(本地量化)Reddit:Qwen3.5-397B 发布与硬件讨论Reddit:Qwen3.5 视觉推理与基准讨论综合介绍:Qwen3.5 对标 GPT‑5.2 文章

GLM‑5 技术报告:国产大模型强调 DSA、异步 RL 与 Agent 训练

Zhipu 发布 GLM‑5 技术报告和 demo,社区测试显示在 WeirdML 等基准上表现强劲,接近甚至超过部分闭源模型。报告重点介绍 DSA 结构、异步强化学习基础设施以及针对 Agent 场景的 RL 算法。实测中也有开发者反馈:在某些 IDE/插件里表现不如宣传,推测与集成和推理栈有关。

相关链接:GLM‑5 技术报告 arXiv:2602.15763GLM‑5 能力展示视频社区基准与讨论(含 WeirdML 数据)

Tiny Aya:Cohere 推出 3.35B 多语小模型,号称“手机可跑”

Cohere Labs 发布 Tiny Aya 系列,3.35B 参数、多语言(70+),定位在手机/边缘设备运行的开放模型。据称仅用 64 块 GPU 就完成训练,并附详细技术报告。目标是做“能实际部署”的多语助手,而不是追求顶级基准分。

相关链接:官方介绍推文技术细节与模型卡片


Agent 与工具链

OpenClaw 爆红也爆雷:强力多 Agent 框架,引发封号与安全争议

OpenClaw 以“多 Agent 操作真实电脑”为卖点在社区疯狂扩散,用户用它做项目管理、CRM、浏览器自动化等。但因为通过 OAuth 接入 Claude,有用户报告被 Anthropic 封号,被指涉嫌“逆向/违规第三方接入”。同时大家担心:给 LLM 读写本机、浏览器和密钥的权限,一旦 prompt injection 或恶意 skill 出问题,后果很难控。

相关链接:OpenClaw 官网与 Showcase社区安全讨论节选(Yannick 频道)Microclaw:为 OpenClaw 训练的轻量回退 AgentClawRecipes:社区开源的 OpenClaw 团队/Agent 配方

LangChain 等推动“Harness Engineering”:把真实日志变成 Agent 测试场

LangChain 官方在强调“harness engineering”:把线上 trace 挖出来,做成自动化评测和自验证循环,用来迭代 Agent 流程,而不是只看离线基准。配套有 TerminalBench 等终端类任务评测,以及 LangSmith Insights 定时跑批评估。

相关链接:LangChain Harness Engineering 相关讨论LangSmith Insights 更新OpenAI 官方 Harness Engineering 博文(被吐槽营销味重)

MCP 正式讨论“工具要不要收费”:协议里加支付信号

Model Context Protocol 社区提出 SEP‑2007,希望让 MCP 服务器能通过协议返回“需要付费”的信号(起步是 X402),方便 Agent 在预算内自动调用付费工具。维护者态度偏谨慎:不想太早把支付硬写进协议本身,更倾向先用 URL 跳转这类方式,短期内不太会成为核心优先级。

相关链接:MCP 支付提案 PR #2007资源规范清理 PR #2093

DirectShell:把操作系统无障碍层变成“统一应用接口”,号称一键淘汰截图式 Agent

DirectShell 用系统无障碍接口直接操控应用,不再靠截图+坐标点击。作者放话:2 月 17 日之后,所有基于截图的 Agent/RPA 都是“旧时代技术”。本质是把 Accessibility layer 抽象成统一 DOM/控件树,让任何窗体软件都像 Web 一样可脚本化,对 PC 端 Agent 十分关键。

相关链接:技术博客:DirectShell 设计DirectShell 开源仓库


基础设施与硬件

GPU MODE 社区实战:单卡 B200 / RTX 系列榨干 TFLOPS 与 MoE 推理

GPU MODE 里多位工程师公开了自研 matmul 和 FlashInfer baseline 调参细节:有人在自写 CUDA 持久化 kernel 上做到 ~350→368 TFLOPS,有人用 FlashInfer 的 MoE baseline 在 B200 上做到 5.7× 加速;同时也在讨论 FP8/FP4 的数值误差、Nsight Compute 与 CUDA events 的正确用法,以及如何把 MAMF(可达算力)逼近理论峰值。这些经验对自己写 kernel/优化推理栈的同学非常有参考价值。

相关链接:theCudaBender matmul_V3 源码FlashInfer mlsys26 agent baselineNVIDIA Cutlass 示例(参考异步流水与 pipelining)理论/可达 FLOPs 计算参考

CoDA‑GQA‑L:KV Cache 从 160GB 压到 136MB 的“有界记忆注意力”

Eleuther 社区推出 CoDA‑GQA‑L,把每层 KV 缓存固定成 384 个 slot:256 个最近 token、64 个“地标”token、64 个指数滑动平均摘要,在长序列上把 KV 占用从 160GB 压到 136MB。对要做 1M 上下文但又扛不住显存账单的应用(搜索、长文写作、长任务 Agent)是很现实的一条路。

相关链接:CoDA‑GQA‑L 论文(Zenodo)CoDA‑GQA‑L 代码仓库

MXFP4 / NVFP4:FP4 真吃 Blackwell,老卡跑不出优势

Unsloth 与 Modular 社区都确认:MXFP4 这类 FP4 格式的“爽点”在 Blackwell(算力等级≥12.0)原生 Tensor Core 上才能体现,在 Ampere 之类老卡上需要模拟,往往比 FP8 还慢。NVFP4 目前是 MAX 的重点优化对象,MXFP4 支持会滞后一些。这意味着你现在就上 30 系卡+FP4,很可能是在交 IQ 税。

相关链接:Unsloth 关于 MXFP4 的说明Modular 论坛:MAX 自定义内核与 NVFP4 讨论

云推理“不响但挂”:OpenRouter/HF/Perplexity 轮番 401 与 500,生产要准备“重建端点”预案

OpenRouter 出现大面积 401,官方开“战情室”排查并修复;Perplexity API 用户则遇到有余额但一直 401 的情况,只能走人工支持;Hugging Face Inference Endpoint 上则有人在状态页全绿时频繁打到 500“service panicked”,最后只能删掉重建 endpoint 并迁移生产流量。对自己也跑云推理的团队,一个现实经验是:要准备好“端点不可解释地炸了就全量重建”的应急脚本。

相关链接:OpenRouter 状态页面Hugging Face 状态页面


研究与方法

Agent World Model / Lossless Context Management:Agent 训练与长上下文压缩的新玩具

研究圈同时在搞两件事:一是 Agent World Model,搞了 1000 个可执行环境、35062 个工具、1 万任务,用 RL 训练工具使用 Agent;二是 Lossless Context Management (LCM/Volt),用分层 DAG 做“可恢复引用”的压缩,在 OOLONG 上据称从 32K 到 1M 上下文都比 Claude Code 更稳。这些东西的共同点:不指望“直接喂 1M token”,而是围绕工具和结构化记忆动手脚。

相关链接:Agent World Model 简介LCM / Volt 上 OOLONG 的表现

Moltbook:260 万 Agent “社会实验”,结果是——宏观文化会稳,个体影响几乎是噪声

一篇多 Agent 社会模拟论文(Moltbook)里,作者放了 260 万个 LLM Agent,产出 30 万帖子和 180 万评论,结果发现:整体文化和话语风格会收敛并稳定,但单个 Agent 的“意见领袖”效应极弱,几乎被统计噪声淹没。这给很多“加一层 Agent 就是 AGI”的想象泼了冷水。

相关链接:概述与讨论

Every Eval Ever:给大模型评测搞一个“BIDS 标准”

EvalEval 联盟发起“Every Eval Ever”,想给各种 LLM benchmark 建一个统一的数据/元数据标准,有点像脑成像界的 BIDS。背景是最近像 Cybench 这种基准暴露出“flag 没随机化导致成绩虚高”的问题,修一下设计 benchmark 的 bug,模型排名就能大变样。

相关链接:Every Eval Ever 项目介绍Cybench 官方站点

预防式 Steering:在表示空间里“加干扰”,逼模型保持目标不变

Eleuther 讨论 Anthropic persona vector 里的“preventative steering”思想:不是在输入输出上加约束,而是在中间表示上加一个 steering 向量,再看模型能不能仍然达到原目标。进一步的想法是:把这种“带干扰还要命中目标”当成一种数据增强,在表示空间做训练,而不是一味往外扩数据集。

相关链接:社区讨论与相关论文引用讨论摘要(interpretability-general 渠道)


产品与应用落地

Sonnet 4.6 快速铺货:Cursor、Perplexity、Windsurf、Cline 等开发工具全上线

Sonnet 4.6 一天内出现在 Cursor、Windsurf、Cline、Perplexity、OpenRouter 等多个平台:Cursor 认为它在长任务上明显好于 4.5,但“智力”仍略逊 Opus 4.6;Cline 给了短期免费试用,内部 A/B 中 70% 开发者更喜欢 4.6;Perplexity Pro/Max 也把它接入 Deep Research/浏览器 Agent。整体趋势:Sonnet 4.6 正在成为“高性价比主力”,Opus 留给“要极限质量”的场景。

相关链接:Cursor 上线 Sonnet 4.6 推文Windsurf 宣布支持 Sonnet 4.6Cline 集成 Sonnet 4.6 并限时免费Perplexity:Sonnet 4.6 加入 Pro/MaxComet 浏览器 Agent 使用 Sonnet 4.6

PolyAI 融资 2 亿美金,同时推出 5 分钟搭好语音 Agent 的 Studio Lite

做电话客服起家的 PolyAI 宣布拿到 2 亿美元新融资(Nvidia、Khosla 等参投),并推出 Agent Studio Lite:贴一个网站 URL,5 分钟生成可用的语音客服 Agent,面向品牌客户开放 3 个月免费试用。语音 AI 这条线从“单一客服脚本”开始,已经往“自助搭建语音 Agent 平台”演进。

相关链接:PolyAI 融资与产品更新

SpeakType:Mac 上完全本地的开源听写应用,Whisper 系列的又一实现

一位开发者做了 Mac 平台本地听写工具 SpeakType,全部离线运行(基于 Whisper),开源并招募测试者,主打隐私和不用云费用。社区在问的点主要是:RAM/CPU 占用、是否带 VAD(语音活动检测)做前处理,以及相对其他本地听写工具(比如 Handy)的差异。

相关链接:Github:SpeakType产品页Reddit 讨论串

Manus Agents:把“长期记忆”的个人 Agent 塞进 Telegram

Manus 推出“Manus Agents”,本质是一个带长期记忆和工具集成的个人 Agent,直接通过 Telegram 使用,可连 Gmail、Notion,帮你生成视频、PPT、网页等。更像是“把一套 AI 桌面/工作流,压缩进一个聊天机器人”。

相关链接:Manus Agents 官宣

AI 模拟开餐车:12 个模型拿 2000 美金,只有 4 个没破产

有开发者给 12 个 LLM 每个 2000 美金和一辆餐车,跑 30 天模拟。结果只有 4 个模型存活,Claude Opus 4.6 赚到约 4.9 万美金,GPT‑5.2 约 2.8 万;几乎所有主动贷款的模型都破产。这个“Food Truck Bench”加上 Vending-Bench 2,再次说明:会疯狂扩张和借钱的 Agent,现实里大概率先死。

相关链接:Reddit:Food Truck 实验贴Vending-Bench 2 官方页面


行业与公司动态

Mistral 收购 Koyeb:自己造“推理云”,不再只卖模型

Mistral 计划收购无服务器平台 Koyeb,把对方的平台和团队并入自家的 Mistral Compute 基础设施。简单说就是从“只卖 API 的模型公司”,变成“模型+算力一体”的云厂商,和 OpenAI、Anthropic、xAI 那条路更像了。

相关链接:官方收购公告推文

Grok 4.20:一边被说“只是四个 Grok 4.1 agent 拼在一起”,一边被骂政治偏见重

xAI 发布 Grok 4.20,宣称是新架构,但社区拆日志发现模型 ID 仍是 grok‑4‑1‑thinking‑1129,被调侃是“四个 Grok 4.1 agent 穿风衣”。同时,Reddit 上大量吐槽其在性别/政治话题上直接复读 Musk 立场,性能上也被不少人认为比自家 Flash 系列和同级闭源模型差不少。

相关链接:Grok 4.20 被“4 个 Agent 穿风衣”梗图关于 Grok 4.20 偏见的讨论

Anthropic 对军方放行 Claude,但画了两条红线

Eleuther 社区有人提到:Anthropic 同意美国军方在一定范围内使用 Claude,但明确限制两点:不能用于大规模监视,也不能用于自主武器。这个立场比很多公司含糊其辞要直接,也说明“安全组织”与“接国防订单”之间的张力开始摆到台面上讲。

相关链接:Eleuther Discord 讨论摘录

PolyAI、Waymo 等“非纯模型公司”:AI 正在吞掉客服与 Robotaxi

除了大模型本身,应用公司里也有两个典型样板:PolyAI 靠语音客服拿下 Marriott 等大客户,最新一轮融资 2 亿美金,并开始做“5 分钟搭语音 Agent”平台;Waymo 则在论文和推文里吹自己的第六代 Robotaxi 平台,单车成本现在约 7 万美金,预估到 2028 年能再砍一半,目前每周无司机订单超过 50 万单、年增速 3 倍。

相关链接:PolyAI 融资与 Agent Studio LiteWaymo 经济性分析贴


政策、治理与安全

OpenClaw + OAuth 引发封号:Anthropic 被指把第三方桌面 Agent 视作“逆向”

OpenClaw 用户反馈,使用 Claude 账号 OAuth 接入后被官方封号,有人贴出 TOS 解释:用 OAuth 接第三方桌面控制工具,被视为“逆向网络/未授权第三方软件”,违反条款。这对所有想做“跨应用桌面 Agent”的团队是个提醒:不要指望直接拿大厂 Web OAuth 当免费后端,最好走官方 API 或自建模型。

相关链接:OpenClaw Discord 中的 TOS 讨论

BASI 社区红队与暗网情报:GitLab 项目被拍卖、Tor 上“无限制 AI”

BASI Jailbreaking 社区一边玩各种模型越狱,一边分享真实安全事件:有人在暗网声称拍卖三个拥有 maintainer 权限的 GitLab 项目(PHP/Laravel 栈),起拍 200 美金、闪拍 2000 美金;另有人在 Tor 上挂“无限制 AI”服务,社区一边好奇一边提醒里面可能有木马或滥用 Claude 的行为。这类例子说明:LLM 技术和传统黑灰产已经在同一个圈子里混到一起了。

相关链接:GitLab 项目拍卖 X 帖BASI redteaming 频道摘要

API 密钥泄露与滥用再现:OpenRouter 用户 20 分钟被刷掉 10 美金

有 OpenRouter 用户发现自己 API key 在 gitignore 文件里仍 somehow 泄露,被第三方通过某个“Cloud Code”环境在 20 分钟内刷掉 10 美金额度;Perplexity、其它平台也有类似“突然 401 或额度被耗尽”的个案。给 Agent 和脚本配 key 时,最现实的建议还是老三样:最小权限、定期轮换、上线前整仓扫描密钥。

相关链接:OpenRouter 用户泄露案例讨论

Cybench“旗子没随机”翻车:一次设计疏忽就能让防御评测高估一大截

Stanford 的 Cybench 安全基准被指出一个问题:早期版本用的是知名 CTF 的固定 flag,结果模型能靠记忆/训练数据直接命中,成功率虚高;随机化 flag 之后,成功率陡降。这个案例很好地说明:安全/红队评测如果场景设计不严谨,很容易得到漂亮但没什么实际含义的数字。

相关链接:Cybench 官方站点Nous 社区讨论与更正说明



📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录