📰 Easy AI日报 | 2026-03-02

📅 2026年03月02日 AI行业动态

#### 模型与能力 ##### 阿里发布 Qwen 3.5 小模型家族：多模态 + 超长上下文，主打本地与边缘 阿里推出 Qwen3.5-0.8B/2B/4B/9B（含 Base/Instruct），原生多模态、强化学习增强，号称原生 26.2 万上下文，可扩到约 100 万。社区实测 4B 已能干掉两年前不少 9B，本地 128k 上下文可跑到约 60 tok/s，小模型默认关闭“思考模式”，需要在模板/参数里手动开启。 > 相关链接：官方发布推文｜架构与 Gated DeltaNet 讨论｜本地跑分与长上下文讨论（Reddit 汇总）

##### Qwen 3.5 大模型：27B/35B 在推理和编码上“踢馆”百亿级模型 社区基准显示 Qwen3.5-27B、35B 在复杂推理和编码任务上对标甚至超过部分 112B/120B 级模型（含 Minimax 等），27B 版本大量使用 Gated DeltaNet 线性注意力，号称一张消费级显卡可跑。还有 Opus 4.6 思维链蒸馏版在 4 秒内完成嵌入式俄罗斯方块这类任务。 > 相关链接：27B 架构与表现分析｜9B/4B 详细基准图｜Opus 4.6 蒸馏版 Qwen3.5-27B

##### Qwen 3.5 本地生态：Ollama、LM Studio、浏览器 WebGPU 全面接入 Qwen 3.5 小模型已被 Ollama、LM Studio、Transformers.js 等快速集成：9B GGUF 体积约 7GB，可在 16GB 显存或高端笔记本上跑；0.8B 模型能直接在浏览器 WebGPU 跑多模态推理，但视觉编码仍是主要瓶颈。LM Studio、Unsloth 等也放出了针对 NVFP4、思考模式等优化的量化版本。 > 相关链接：Ollama 集成 Qwen3.5｜浏览器 WebGPU Demo｜NVFP4 多模态量化合集

##### Codex 5.3：代码智能继续爬坡，社区开始担心“可用性”而不是“能不能写” 新一版 Codex 5.3 在 WeirdML 等自定义编码基准上成绩领先，社区反馈在复杂多步任务上比之前更稳，和 Gemini 顶配版本互有胜负。同时讨论集中在：现在很多工作流已经把 80% 代码写作交给模型，人更多在做“监督和修补”。 > 相关链接：WeirdML 成绩与对比讨论｜Claude Code 写 80% 生产代码引发的讨论

##### BullshitBench v2：专门测“胡说八道”的基准更新 BullshitBench v2 新增约 100 道涵盖代码、医学、法律、金融、物理的题目，测 70+ 个模型。作者声称“加大推理反而更容易胡说”，Anthropic 系列在该基准上明显领先，而 OpenAI/Google 最近几代在该基准上几乎没进步，引发不少质疑与反驳。 > 相关链接：BullshitBench v2 公告｜社区质疑与补充讨论

---

#### Agent 与工具链 ##### “AGENTS.md / SKILL.md” 实测：能省 30% 运行时，但不是魔法棒 有团队在 10 个仓库、124 个 PR 上实验 AGENTS.md，统计中位数运行时间降约 28.6%，token 消耗降 16.6%，主要是减少最糟糕那部分“乱试一通”。Anthropic 也发布 30 页 Skills 指南，强调把复杂流程拆成可测试的技能文件，而不是堆长 prompt。 > 相关链接：AGENTS.md 实验数据｜Anthropic Skills 完整指南 PDF

##### Agent 可靠性与观测：大家发现“评估比写 Agent 难多了” 多方开发者反馈，现在难点不在把 Agent 跑起来，而在：怎么定义成功、怎么监控、怎么评。建议是：先把成功标准写清（产品/领域专家主导），优先用确定性打分器，LLM 只评风格；评的是产出结果，而不是中间思路。社区也在讨论如何做 Agent 日志与可视化。 > 相关链接：Agent 观测提问｜评估实践建议长帖

##### GitNexus：在浏览器里把仓库变成知识图，再用图查询做 RAG GitNexus 会解析代码仓，生成交互式依赖图，关系存进内嵌 KuzuDB，用 Cypher 走图来回答问题，而不是靠 embedding 相似度。实现完全在浏览器里，用 Web Worker 跑，MIT 协议开源，适合做“项目导览 + 代码问答”类 Agent 的后端。 > 相关链接：GitNexus 功能介绍

##### Stripe 推出 LLM 计费代理：帮你按 token 收钱 Stripe 新增“按 token 计费”能力：你选模型、设加价、把调用走 Stripe 的 LLM 代理，使用量自动入账。意味着做 AI SaaS 不用自己再抄一套计费用量统计，直接挂在现有 Stripe 流水里即可。 > 相关链接：产品介绍与用例

##### MCP vs Skills：接口协议和“技能说明书”分工逐渐清晰 社区开始把 MCP 理解为“模型调用外部 API 的统一协议”，而 Skills/AGENTS.md 则是教模型如何把这些 API 组合成交付结果的“操作手册”。Weaviate 给出了用 Skills 封装常见向量检索/工具组合的示例，对用 Claude/CoWork 这条路的人比较有参考价值。 > 相关链接：Weaviate 技能示例

---

#### 基础设施与硬件 ##### 有人把 Transformer 训练搬上 Apple Neural Engine：M4 上做训练不再只是想象 有研究者绕过 CoreML，直接用未公开 API 在 M4 的 ANE 上跑了一个 1.1 亿参数的小 GPT 训练循环，大部分算子在 ANE，部分梯度仍在 CPU。宣称 M4 ANE 约 6.6 TFLOPS/W，能效远高于 A100/H100，引发“能不能用一堆 Mac mini 做省电训练集群”的讨论。 > 相关链接：技术细节长帖｜补充解读

##### Google Static：检索场景里把受约束解码加速到原来的近千倍 Google 推出 Static 稀疏矩阵框架，用专门的数据结构加速“受约束生成”（比如必须产出某个知识库里的条目）。在 LLM 检索生成任务上声称比朴素做法快 948 倍，非常适合 RAG/检索推荐那种“生成但必须合法”的场景。 > 相关链接：Static 技术博客

##### NVIDIA Blackwell 架构“割裂”：数据中心和消费卡功能不再对等 Blackwell 时代被明确分成两条线：数据中心 B100/B200 系列是 Compute Capability 10.x，支持 tcgen05、DPX 等新特性；而面向游戏/创作的 Blackwell RTX（50 系）是 CC 12.0，不支持这些 AI 专用单元。以后很多底层优化会只能在机房卡上吃满，游戏卡更多只管图形和一般推理。 > 相关链接：官方博客解释架构分裂

##### Taalas HC1 等 ASIC 推理加速卡：一颗芯片吃死一个模型，换来每人 1.7 万 tok/s 有厂商宣传“模型写进掩膜”的 ASIC：权重烤死在芯片里，不走 HBM 流水，单用户可达约 16–17k tok/s，但代价是“一颗芯片只能服务一个模型”，升级模型就要换硬件。更像是云侧大规模部署同构模型的专用方案，而不是通用 GPU 替代。 > 相关链接：原始科普贴

##### AMD 开源更细粒度的 GPU Trace 工具，tinygrad 评价“比 NVIDIA 好用” AMD 开源了 rocprof-trace-decoder，可解析 SQTT 指令级 trace，做更细的性能分析。tinygrad 作者直接评价“AMD 的 tracing 基础设施现在比 NVIDIA 的好”，对想在 ROCm 上抠性能的人是个利好。 > 相关链接：tinygrad 相关评论

---

#### 研究与方法 ##### ByteDance CUDA Agent：用强化学习直接调 CUDA kernel，比 torch.compile 快一倍 ByteDance 论文 CUDA Agent，用 RL 直接在真机上跑 profile，当奖励信号来自动写 CUDA kernel。作者声称在标准 kernel 上比 torch.compile 快约 2 倍，在 KernelBench 等基准上比 Claude/Gemini 这些“写代码型” LLM 强很多。缺点是训练一次要巨量 GPU，且暂未开源具体 kernel。 > 相关链接：论文解读长帖｜arXiv 链接

##### Databricks OAPL：用更“省钱”的 off-policy RL 练推理模型 Databricks 提出 OAPL（Optimal Advantage-based Policy Optimization with Lagged Inference），本质是更节省样本的 off-policy RL，官方称比 GRPO 这类 on-policy 方法少 3 倍生成次数就能把推理能力练起来，训练系统也简单不少。对于要在自家数据上训“思维链模型”的团队挺有参考价值。 > 相关链接：OAPL 介绍线程

##### 大模型训练里再看一眼“广而深的 Transformer”理论 Meta 的“宽深 Transformer 有效理论”又被翻出来复读：60 多页系统分析前向/反向信号传播、宽度/深度怎么标尺缩放、NTK 分析、SGD vs AdamW 行为，并在视觉和语言 Transformer 上做了验证。对想调大模型超参又不想全靠蒙的团队值得读一遍。 > 相关链接：The Turing Post 概要｜arXiv 原文链接

##### Sakana AI 开源 text-to-LoRA：用文本提示直接产出 LoRA Sakana AI 放出了一个 text-to-LoRA 模型和训练代码，可以从自然语言描述直接生成 LoRA，用于风格/任务微调。官方说明单卡 H100 连续跑 5 天就能复现，算是把“让别人帮你训 LoRA”又自动化了一层。 > 相关链接：模型与代码仓库｜Hugging Face 模型页

##### 用 SAE 看图生图扩散模型：第一步还没走完就能预测画面布局 有工作用稀疏自编码（SAE）分析主流文生图扩散模型的中间激活，发现只看早期步骤激活的空间分布，就已经能相当准确预测最终画面的构图。这说明模型很早就“想好要画什么”，后面更多是细化纹理，对做可解释和控制类生成有启发。 > 相关链接：SAE 分析文生图论文

---

#### 产品与应用落地 ##### 本地 LLM 体验回顾：600 美金的小主机现在能跑当年的“大神级”模型 Reddit 上有人回顾 DeepSeek 爆火一年多以来的变化：现在 600 美元的小主机就能在 Qwen3-27B 这类模型上跑 Q4 量化，效果被不少人认为已经不输当年的 DeepSeek R1。大家也开始吐槽各种“智力指数”榜单其实只是把 MMLU、GPQA 等平均一下，别当真。 > 相关链接：本地 LLM 演进讨论帖

##### DishBrain：80 万活体神经元接电脑，能打 Doom 和乒乓 Cortical Labs 把约 80 万个人类+小鼠神经元接在硅片上，做出一个叫 DishBrain 的“活体算力”，可以玩 Pong 甚至 Doom。论文和视频在圈内传播很广，一半人当科幻看，一半人在认真想“这到底算不算通用计算设备”。 > 相关链接：项目展示推文

##### Runway Gen-4.5 挤进 Arena 文本转视频天梯 Runway 的 Gen-4.5 已上 arena.ai 的文本转视频榜，评分 1218 分，大致和 Kling-2.6-Pro 一个量级。对做视频生成产品的人来说，Arena 榜单开始有了一些“主流商用模型同台竞技”的味道。 > 相关链接：文本转视频排行榜

##### Robert Stock：职业投手自己用 AI 做了一个 890 万投球的分析平台 MLB 投手 Robert Stock 完全没编程基础，靠现成工具和模型，自己做了个分析 890 万次投球的数据平台，用机器学习做投球策略和训练分析。这个案例在 Latent Space 社区被大量转发，说明“非程序员用 AI 做严肃应用”已经不是 PPT 上的故事了。 > 相关链接：他的 X 帖子

##### OpenClaw + 本地/云大模型：从自动订理发到多 Agent 仪表盘 OpenClaw 社区大量实战分享：有人用它自动上理发店网站定期预约；有人做多 Agent 仪表盘，后端一个 orchestrator 管多个专用 Agent 并发跑；还有人用 persona 插件让同一个会话里多 persona 自己辩论、访问本地文件。整体看，OpenClaw 正在变成“工程师圈的 Cowork 替代品”。 > 相关链接：OpenClaw showcase 讨论串

---

#### 行业与公司动态 ##### Qwen 3.5 小模型发布带火整条本地 LLM 链：Ollama、LM Studio、Unsloth 全线跟进 阿里这波从 0.8B 到 9B 的 Qwen3.5 小模型，一口气上 Hugging Face、Ollama、LM Studio、WebGPU Demo 和各种 GGUF/量化版本，本地 LLM 社区这几天几乎被 Qwen3.5 屏霸。大家重点关注的是：同等硬件下，比老一代 7B/13B 模型更快更准，且内置多模态和工具调用。 > 相关链接：官方 Hugging Face 集合｜LM Studio 与 Unsloth 社区讨论

##### Databricks、Google、NVIDIA：基础设施成 2026 年关键词 一边是 Databricks 在推高效 RL（OAPL），一边是 Google 用 Static 优化检索，NVIDIA 则通过 Blackwell 切割数据中心/消费卡功能。再叠加各家 TPUs/ASIC（Meta 买 Google TPU、Taalas HC1 等），业界基本形成共识：接下来几年比拼的是“算力+基础设施”而不是单纯模型榜单。 > 相关链接：OAPL 与 Static 讨论串｜Meta-Google TPU 合作报道

##### AI 经济被拿来类比“新一轮互联网泡沫”，但很多人觉得这次是真的有产出 Nous Research 等社区在聊：现在 AI 投入和 2000 年互联网泡沫很像，钱烧得快、情绪极端，但不同点在于，这次已经有大量真实生产用例（代码、客服、内容生产等），很多人已经在本地和云上部署 Hermes、Qwen 这类模型当工作主力。 > 相关链接：AI vs Dot-com 泡沫讨论

---

#### 政策、治理与安全 ##### 美国国防部“封杀” Anthropic、转投 OpenAI：合同条款与监控红线成焦点 美国国防部把 Anthropic 列为“供应链风险”，要求相关承包商 6 个月内停用其模型，官方理由是没有获得“足够访问权”。OpenAI 随后宣布和国防部签新协议，在机密环境部署模型。Sam Altman 公开的补充条款写明“禁止对美国境内个人做有意监控”，但法律界指出“有意/附带收集”的老漏洞仍在，呼吁独立法律审查。 > 相关链接：国防部风险声明相关推文｜OpenAI 官博：我们的国防协议｜Sam Altman 公布修正条款

##### ChatGPT DoD 合同引发用户“卸载潮”，Claude 借势冲上 App Store 第一 TechCrunch 数据称 OpenAI 公布和国防部合作后 48 小时内 ChatGPT 手机端卸载量环比涨 295%，同时 Anthropic 的 Claude 登上美区 App Store 榜首。Reddit 上不少人表态“出于伦理停用 ChatGPT”，也有人认为这种抵制持续不了多久，更担心的是长远的隐私与合规问题。 > 相关链接：卸载与下载数据讨论｜Claude 上榜讨论

##### Moonshot/Kimi 大规模蒸馏 Claude，引发“模型身份危机”和数据安全担忧 Moonshot AI 被曝用工业级蒸馏攻击从 Claude 中抽取能力训练自家 Kimi，有报告称被蒸馏过的 Claude 有时会用中文自称 DeepSeek。Anthropic 把 15 万次 API 调用称为“攻击”，在 Eleuther 等社区被吐槽：按这个标准，大多数基准测试都是攻击。大家开始认真讨论：服务条款、调用额度和可接受的蒸馏边界到底在哪。 > 相关链接：Kimi 身份错乱案例分析｜Eleuther 对“150k 调用是攻击”的讨论

##### 安全社区的 Jailbreak 与红队规范：有人写了整套“负责任披露 SOP” BASI Jailbreaking 等 Discord 上，大家一边追着新版本 Claude 4.6、Gemini、GPT-5.x 找越狱方式，一边也开始讨论怎么“负责任地报洞”：有成员写了完整的 Red-Team Playbook，流程包括复现、加密报送、约定修复窗口、联合披露等，并提醒要有书面 scope、减少伤害、注意出口管制。 > 相关链接：Red-Team Playbook Gist

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学