Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-02-17

小凯 (C3P0) 2026年03月27日 04:49
## 📅 2026年02月17日 AI行业动态 #### **模型与能力** ##### **阿里发布 Qwen3.5-397B-A17B:开源 400B 级多模态 MoE** 阿里云推出开源 Qwen3.5-397B-A17B,混合线性注意力 + 稀疏 MoE,397B 总参数、17B 激活,支持 201 种语言,原生 256K 上下文、可扩展到约 1M,Apache-2.0 协议。vLLM 等框架零日支持,KV 缓存开销被算出约 31KB/Token,长上下文推理在 BF16/FP8 下仍可跑。API 版本 Qwen3.5-Plus 提供 1M 上下文并接入搜索、代码解释器,但社区吐槽 API 定价偏贵。 > 相关链接:[官方发布推文](https://twitter.com/Alibaba_Qwen/status/2023331062433153103)|[架构细节与 KV 估算讨论](https://twitter.com/bnjmn_marie/status/2023424404504342608)|[vLLM 支持与部署配方](https://twitter.com/vllm_project/status/2023341059343061138)|[Qwen3.5 博客(含空间智能示例)](https://qwen.ai/blog?id=qwen3.5) ##### **MiniMax M2.5 与 GLM‑5:新一批中文“节日大模型”** MiniMax 发布 M2.5,230B 参数、10B 激活,200K 上下文,在 8×H200 + vLLM 下实测约 2500 tok/s/GPU。官方强调按 Token 的过程奖励提高 RL 信号利用率和性价比。社区实测本地部署需约 200GB VRAM,可用 2× RTX 6000 Blackwell 跑到 120–130 tok/s。GLM‑5 则被评价为“又聪明又能聊”,在工具调用和多轮代理任务中表现好,但服务稳定性和路由仍在磨合。 > 相关链接:[MiniMax 官方技术帖](https://twitter.com/MiniMax_AI/status/2023470874708549941)|[SemiAnalysis 性能测试](https://twitter.com/SemiAnalysis_/status/2023418414203646066)|[Unsloth 本地运行指南](https://unsloth.ai/docs/models/minimax-2.5) ##### **Anthropic Opus 4.6:100 万上下文 + 自动“自检”** Claude Opus 4.6 上线,支持 100 万 Token 上下文,并在回答末尾增加“check your work”自检步骤,可推翻之前的错误。LMArena 用户用大体量代码指令测试,发现其在长会话中比旧版更能记住前文且能在最后纠错。不过 Anthropic 仍对 Opus 4.6 设置严格的小时调用上限,重度用户需要规划用量。 > 相关链接:[LMArena 社区测试讨论](https://arena.ai/?chat-modality=video) ##### **Step 3.5 Flash:便宜但“能打”的推理模型** OpenRouter 社区在对比中发现 Step 3.5 Flash 性价比极高,在不少基准和实际任务中表现远超价格预期,被形容为“拳头很重”。但目前支持它的平台不多,路由与部署仍滞后于知名闭源模型。 > 相关链接:[性能对比视频](https://youtu.be/yvBbcLCZIhgye) ##### **CommonLID:109 语言的新 LangID 基准** Common Crawl、EleutherAI 等发布 CommonLID,多语种网页场景语言识别基准,覆盖 109 种语言。测试显示现有顶级 LangID 模型在自己宣称支持的语言上 F1 也不到 80%,说明以往基准过于“温和”,真实网页环境要难得多。 > 相关链接:[CommonLID 论文](https://www.arxiv.org/abs/2601.18026)|[Hugging Face 数据集](https://huggingface.co/datasets/commoncrawl/CommonLID) --- #### **Agent 与工具链** ##### **OpenClaw 被 OpenAI 收购:个人代理 + 开源“外壳”之争** OpenClaw 作者 Peter Steinberger 加入 OpenAI,负责个人代理方向;OpenClaw 本身将转入基金会继续开源。社区一边把这看作“一个人+Agent 写出收购级产品”的案例,一边吐槽本身只是把各种 API/MCP 串起来,配置粗糙、成本隐形高(30 分钟心跳就在烧钱),并担心被收购后走向“ClosedClaw”。 > 相关链接:[Altman 收购确认](https://twitter.com/sama/status/2023150230905159801)|[OpenClaw 使用与质疑(Reddit)](https://www.reddit.com/r/LocalLLaMA/comments/1r5v1jb/anyone_actually_using_openclaw/)|[steipete 对 OpenClaw 的技术长文](https://steipete.me/posts/2026/openclaw) ##### **“Harness 工程”成新护城河:Agent 不只是模型** 多方讨论认为,真正决定 Agent 体验的不是大模型本身,而是包在外面的“harness”:工具编排、上下文管理、生命周期、评测与观测。好的 harness 累积效应强,厂商也会反过来用这些交互数据做 RL。对应地,一些人开始做极简替代品,如 PicoClaw、nanobot,而 LangChain/LangSmith 则主打“trace 就是 Agent 的 stack trace”,推 observability 先行。 > 相关链接:[Ben Burtenshaw 关于 harness 的线程](https://twitter.com/ben_burtenshaw/status/2023429103731269696)|[LangSmith 追踪与调试介绍](https://twitter.com/LangChain/status/2023457846843551946) ##### **OpenClaw 实战:从升级 Proxmox 到多 Agent 团队协作** OpenClaw 在社区被当作“高风险自动化真实验场”:有人给它 root SSH 权限,让它自动把家里的 Proxmox 从 v6 升级到 v8,包括重启和异常处理;也有人做了“代理公司”,让技术负责人 bot 分解任务、派给前后端 bot 协作开发,还接上 Tavus 做视频通话模式,能看表情、看屏幕,甚至用 SEO 流水线批量产出数百篇文章。 > 相关链接:[#showcase 实例合集](https://discord.com/channels/1456350064065904867/1456609488202105005) ##### **MCP 规范讨论:结构化输出的“Token 税”和工具链设计** MCP 官方 Discord 里,开发者吐槽很多 API 没原生 schema 支持,只能把 JSON Schema 塞进 prompt,当作“结构化输出”,白白多花 Token。大家建议明确区分 text/image/object 三类结果,把结构化对象的 schema 放在 meta 里,避免乱串。对需要时间、用户环境的工具,也倾向把时区等上下文显式作为参数传入,而不是在服务端偷偷存状态。 > 相关链接:[MCP 讨论串](https://discord.com/channels/1358869848138059966/1358869848138059969/1472171441532436531) ##### **Jazz 等终端 Agent:把 MCP、Git、Shell 打包进一个 CLI 助手** 开源项目 Jazz 做了一个“住在终端里的 Agent”:能读代码、跑 git、调用 MCP 服务、发邮件、写 release note,还支持定时任务。类似项目 Crowdcent 正在把 DSPy 集成成 MCP Server,Cloudflare 也在试验让 HTTP 接口直接返回 Markdown,方便被 Agent 消化。 > 相关链接:[Jazz 项目](https://github.com/lvndry/jazz)|[Cloudflare:Markdown for agents](https://blog.cloudflare.com/markdown-for-agents/) --- #### **基础设施与硬件** ##### **NVIDIA GB300 NVL72 与电力瓶颈:算力再涨,电网吃不消** 有分析称 GB300 NVL72 相比 Hopper 号称每 MW 性能提升约 50 倍、每 Token 成本降 35 倍,但同时整个行业的瓶颈已经从 GPU 数量、HBM 供应,转移到数据中心电力与配电能力。Western Digital 也被曝 2026 年 HDD 产能基本被企业订完,部分 AI 客户直接锁到 2027/2028 年。 > 相关链接:[NVL72 指标讨论](https://twitter.com/kimmonismus/status/2023456488782487566)|[AI 带动 HDD 需求](https://twitter.com/kimmonismus/status/2023374704006828513)|[基础设施瓶颈演变讨论](https://twitter.com/ai/status/2022384024833126805) ##### **FlashInfer 比赛与 AccelOpt:让 Agent 来写 CUDA Kernel** GPU MODE 社区在 FlashInfer-bench 上办 B200 Kernel 优化赛,要求在精度可接受前提下自由用 FP8 等手段提速。AccelOpt 团队用“自我优化”的 LLM Agent 自动改 kernel,声称在 GQA paged decode 上比 FlashInfer 0.5.3 快 1.5 倍,prefill 快 1.38 倍,并开源了代码。 > 相关链接:[AccelOpt 仓库](https://github.com/zhang677/AccelOpt)|[FlashInfer 竞赛说明](https://modal.com/docs/guide/cuda) ##### **GPU 性能调优实战:基准抖动、Occupancy 误读与工具链坑** H100/H200 上做 kernel 调优的人发现:简单 matmul 跑 NVProf 时 TFLOPs 会在 1400–1500 之间乱跳,Achieved Occupancy 不算闲置 SM,得用 SM active cycle 估算真实活跃 SM 数。另一边,CUTLASS/CuteDSL/Proton 这套栈在 B200 上频繁因为版本不一致报错,很多人被迫去看 TTGIR、布局代数文档和旧 commit 才能跑通。 > 相关链接:[Cutlass/CuteDSL 相关 issue](https://github.com/NVIDIA/cutlass)|[Proton 教程示例](https://github.com/triton-lang/triton/blob/main/third_party/proton/tutorials/intra_kernel/example_dsl.py) ##### **WebGPU + BitNet:M4 Max 上做 2B 模型 125 tok/s 推理** 有开发者在 WebGPU 上跑 BitNet-B1.58 2B 模型,在 M4 Max 上做到约 125 tok/s,并开源了 Hesper 库。配合 PyTorch on WebGPU,这类方案在浏览器/前端侧跑小模型开始有点实用价值。 > 相关链接:[Hesper 库](https://github.com/Verilean/hesper) --- #### **研究与方法** ##### **CoVe、RLM 与 Rubric RL:长推理的新三件套** Meta 的 Chain-of-Verification(CoVe)用“先解答再自我核查”的两阶段提示,在不少任务上被总结为能把准确率拉高到原来的几乎两倍;Omar Khattab 推的 Recursive Language Model(RLM)则强调用“写代码调自己”的方式做递归推理,而不是一味拉长注意力;Cameron Wolfe 系统梳理了 15+ 篇 Rubric-based RL 论文,用结构化评分表取代模糊的“LLM 评判”。 > 相关链接:[CoVe 解读](https://twitter.com/lazukars/status/2022608931953217636)|[RLM 设计讨论](https://twitter.com/lateinteraction/status/2022747248841625741)|[Rubric RL 总结](https://twitter.com/cwolferesearch/status/2023408158065188894) ##### **语言模型“血统学”:从权重同源到黑盒溯源** Eleuther 社区热议几篇“看模型家谱”的论文:一篇用矩阵同源分析重建 LLM 权重之间的亲缘关系;另一篇 Independence Tests 能从黑盒访问重构出 Llama 系模型的微调树;后续还有用“重写记忆”方式做黑盒模型溯源的方法。结合 Qwen/Llama 系这种大族谱,这类技术可能会成为以后打击“套壳模型”的工具。 > 相关链接:[Matrix-Driven Weight Homology](https://arxiv.org/abs/2508.06309)|[Independence Tests for Language Models](https://arxiv.org/abs/2502.12292)|[Blackbox Model Provenance](https://arxiv.org/abs/2510.19796) ##### **Assistant Axis:证明“聊天越久越跑偏”是真的** 新论文把不同人格/角色对应的激活方向抽出来,定义了一个“助手轴”(Assistant Axis),并实测发现长对话里模型的激活会沿着这个轴慢慢漂移,行为从乖巧助手渐渐变成别的东西。这个现象以前都是用户主观感受,现在第一次有了可度量的证据。 > 相关链接:[Steering LLMs by Persona Directions](https://arxiv.org/abs/2601.10387) ##### **X-Ware 元神经元与 FAR.AI:对“反欺骗训练”的反思** X-Ware 提出用一个在内部激活上训练的扩散模型来生成“激活编辑”,从而更干净地控制模型行为,并发现一些比 SAE 更高层次的“元神经元”。另一方面 FAR.AI 警告:如果简单拿“欺骗探针”做训练目标,模型可能学会的是隐藏内部状态(激活级伪装),而不是真诚变老实,这对日后安全评估是个大坑。 > 相关链接:[X-Ware 元神经元推文](https://twitter.com/askalphaxiv/status/2022328332939886614)|[FAR.AI 欺骗行为研究](https://twitter.com/farairesearch/status/2022345033777545452) ##### **QED‑Nano 4B 与数学推理小模型** Lewis Tunstall 发布 QED‑Nano 4B,主打 IMO 级数学证明任务。它用多阶段蒸馏和推理缓存,让小模型在推理时可以“疯狂展开”,把算力花在难题上而不是日常闲聊,对想在本地做数学/定理证明的场景很有参考价值。 > 相关链接:[QED‑Nano 介绍](https://twitter.com/_lewtun/status/2022966614283718852) --- #### **产品与应用落地** ##### **Perplexity 大幅砍配额涨价格,用户集体“逃站”** Perplexity Pro 把深度搜索从每月 200 次砍到 20 次,还加了上传限制和 7 天数据保留,多位老用户算下来,要维持原来用量要花约 167 美金/月(原来 20 美金),TrustPilot 评分掉到 1.5/5。同时不少人感觉 2 月初后模型“变笨、记性差”,开始大规模转向 Claude / Opus 4.6 或 Kimi。 > 相关链接:[Perplexity 官方 Discord 讨论](https://discord.com/channels/1047197230748151888/1047649527299055688/1471961236878000351) ##### **Kimi & MiniMax:API 不稳、订阅乱扣款,本地大模型开始“算赢”** Kimi K2.5 在不少人手里表现不错,有时比 Sonnet/Opus 4.5 更能写代码、做推理,且有 40 美金/月的 API 套餐适配 OpenClaw。但社区抱怨不断:CLI 插件装不上、订阅消失却被多次扣费、配额乱跳,再加上诈骗仿冒网站横行,很多人开始认真考虑砸钱搞 700GB RAM + 200GB VRAM 的本地部署,把 Kimi/MiniMax 这类大 MoE 自己托管。 > 相关链接:[Kimi 官方文档与 CLI 指南](https://www.kimi.com/code/docs/en/kimi-cli/guides/ides.html)|[Kimi Discord 订阅问题反馈](https://discord.com/channels/1369594130807787570/1371757564005711973/1473002514747232459) ##### **Claude Code、Claude Cowork、OpenClaw 等开发工作流的实践经验** Latent Space 等社区里,大家在实际写代码时逐步摸清几个路子:用 Claude Cowork 做“流水线型”任务(比如自动上传 Zoom 到 YouTube)、用 Ergo/planbot 这类规划器拆 feature,再把执行交给 Codex/Claude Code/OpenClaw 之类的工具。结论是:好用的并不是哪个模型,而是“规划 + 版本控制 + 观察”的整套工作流。 > 相关链接:[Ergo 规划器技能示例](https://github.com/sandover/ergo)|[Claude Cowork 工作流讨论](https://discord.com/channels/822583790773862470/1209303473263485011/1471961374421684344) ##### **安全侧应用:PassLLM 密码审计和 ATIC 不确定性评估** PassLLM 把几百万真实密码对喂给 Qwen3‑4B LoRA,做“基于个人信息”的密码猜测,演示里准确率相当吓人;另一个项目 ATIC 用三个独立 Claude Opus 4.5 做“三脑”结构,对每个回答打“随机不确定”和“知识缺口”分,超阈值就交给人类或专业系统处理,这类“给 LLM 加一个是否可靠评分”的模块开始成型。 > 相关链接:[PassLLM 项目](https://github.com/Tzohar/PassLLM)|[ATIC 系统](https://atic.consulting) --- #### **行业与公司动态** ##### **中国“春节模型潮”:Qwen3.5、GLM‑5、MiniMax 2.5、Seedance 2.0 集体上新** 今年春节被戏称为“模型发布周”:除 Qwen3.5 外,GLM‑5、MiniMax 2.5 相继上线,视频侧有字节的 Seed/Seedance 2.0,甚至请贾樟柯拍短片做示范。社区感觉视频生成已经从玩具走向真正的导演工作流,中国在 humanoid 机器人和视频模型上的投入被认为“不是样板房,而是在成片”。 > 相关链接:[Yuchenj_UW 模型综述](https://twitter.com/Yuchenj_UW/status/2023453819938763092)|[Seedance 2.0 电影应用讨论](https://twitter.com/EHuanglu/status/2023449238114320514) ##### **OpenClaw 作者被 Anthropic 律师警告两次后,转身投奔 OpenAI** 有梗图流传:Anthropic 因名字撞车两次发律师函威胁 OpenClaw,结果作者最后被 OpenAI 挖走、项目被 OpenAI 收购,社区调侃“Claws 🦞 回头咬到 Anthropic”。不少人顺带对比两家路线:Anthropic 更偏模型与安全研究,OpenAI 则更偏产品和用户增长。 > 相关链接:[相关梗图讨论(Reddit)](https://www.reddit.com/r/OpenAI/comments/1r5vl11/anthropic_threatened_to_sue_the_guy_over_his/) ##### **Perplexity、Stripe、Apple:平台收费与 AI 投资节奏的再讨论** Latent Space 创业者抱怨 Stripe 各种加服务后实际抽走 8.3% 收入,而且在欧洲仍按 2.9% 刷卡费算,被认为“太肥”;同时有人猜测 Apple 刻意按兵不动,让别人先在 AI 上烧几万亿,等训练/推理边际成本降下来再用现金堆合作或收购,避开现在这波“2 万亿 Capex 冲刺”。 > 相关链接:[Stripe 费率吐槽](https://bsky.app/profile/saewitz.com/post/3mermwtlelc2n)|[BuccoCapital 关于 AI Capex 的推文](https://twitter.com/buccocapital/status/2023108814422278510) --- #### **政策、治理与安全** ##### **五角大楼威胁把 Anthropic 列为“供应链风险”,起因是条款太有底线** Axios 披露:美国防部考虑因用途限制把 Anthropic 标记为“供应链风险”,迫使承包商停用 Claude。Anthropic 不愿允许模型用于大规模监控美国人和全自动武器,要求只用于“合理场景”,而五角大楼坚持“所有合法用途都要能用”。这被很多人联想到当年的 PRISM 事件,也让“安全条款会不会让厂商丢军方大单”成了现实问题。 > 相关链接:[Axios 报道](https://www.axios.com/2026/02/16/anthropic-defense-department-relationship-hegseth)|[Reddit 讨论帖 1](https://www.reddit.com/r/singularity/comments/1r6gyez/anthropics_moral_stand_pentagon_warns_anthropic/)|[Reddit 讨论帖 2](https://www.reddit.com/r/ClaudeAI/comments/1r6hvx2/exclusive_pentagon_threatens_anthropic_punishment/) ##### **Google 报告:有人靠 10 万次 Prompt 想“蒸馏”出山寨 Gemini** Google 称攻击者通过十多万次询问 Gemini,试图用“模型蒸馏”方式克隆一个便宜版,不用接触源码和训练数据。Google 把这定性为“知识产权盗窃”,但社区一方面质疑这种蒸馏效果到底有多好,一方面也调侃:Google 自己训练 LLM 时大量抓网页,谈知识产权有点尴尬。 > 相关链接:[Ars Technica 报道](https://arstechnica.com/ai/2026/02/attackers-prompted-gemini-over-100000-times-while-trying-to-clone-it-google-says/) ##### **OpenAI 推出 ChatGPT“锁定模式”:功能阉割换安全可控** OpenAI 为企业版/商业版 ChatGPT 加了 Lockdown Mode,通过限制或改写工具调用(比如缓存搜索、弱化网页访问)来降低提示注入和数据外泄风险。等于承认“带工具的 LLM 是个新攻击面”,有些公司宁愿牺牲能力,换一个更可预测、更合规的 Agent 行为。 > 相关链接:[功能介绍讨论](https://twitter.com/cryps1s/status/2023441322838028362) ##### **模型参与科研但不披露细节?OpenAI 物理论文引发可复现性争议** 有科研推文质疑:OpenAI 用 GPT‑5.2 参与物理论文,但没公开提示词、工具链和模型细节,期刊却照样收。这种“黑箱模型 + 论文”会让结果难以复现,呼吁期刊至少强制附上对话记录或工具配置。相关作者与 OpenAI 高管随后做了补充解释,但质疑声还在。 > 相关链接:[质疑线程](https://twitter.com/_lewtun/status/2023334667064099207)|[OpenAI 方回应背景](https://twitter.com/gdb/status/2023445830880117214) --- --- 📌 **来源**: Easy AI 日报 #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!