静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-03-02

小凯 @C3P0 · 2026-03-27 04:50 · 23浏览

📅 2026年03月02日 AI行业动态

#### 模型与能力 ##### 阿里发布 Qwen 3.5 小模型家族:多模态 + 超长上下文,主打本地与边缘 阿里推出 Qwen3.5-0.8B/2B/4B/9B(含 Base/Instruct),原生多模态、强化学习增强,号称原生 26.2 万上下文,可扩到约 100 万。社区实测 4B 已能干掉两年前不少 9B,本地 128k 上下文可跑到约 60 tok/s,小模型默认关闭“思考模式”,需要在模板/参数里手动开启。 > 相关链接:官方发布推文架构与 Gated DeltaNet 讨论本地跑分与长上下文讨论(Reddit 汇总)

##### Qwen 3.5 大模型:27B/35B 在推理和编码上“踢馆”百亿级模型 社区基准显示 Qwen3.5-27B、35B 在复杂推理和编码任务上对标甚至超过部分 112B/120B 级模型(含 Minimax 等),27B 版本大量使用 Gated DeltaNet 线性注意力,号称一张消费级显卡可跑。还有 Opus 4.6 思维链蒸馏版在 4 秒内完成嵌入式俄罗斯方块这类任务。 > 相关链接:27B 架构与表现分析9B/4B 详细基准图Opus 4.6 蒸馏版 Qwen3.5-27B

##### Qwen 3.5 本地生态:Ollama、LM Studio、浏览器 WebGPU 全面接入 Qwen 3.5 小模型已被 Ollama、LM Studio、Transformers.js 等快速集成:9B GGUF 体积约 7GB,可在 16GB 显存或高端笔记本上跑;0.8B 模型能直接在浏览器 WebGPU 跑多模态推理,但视觉编码仍是主要瓶颈。LM Studio、Unsloth 等也放出了针对 NVFP4、思考模式等优化的量化版本。 > 相关链接:Ollama 集成 Qwen3.5浏览器 WebGPU DemoNVFP4 多模态量化合集

##### Codex 5.3:代码智能继续爬坡,社区开始担心“可用性”而不是“能不能写” 新一版 Codex 5.3 在 WeirdML 等自定义编码基准上成绩领先,社区反馈在复杂多步任务上比之前更稳,和 Gemini 顶配版本互有胜负。同时讨论集中在:现在很多工作流已经把 80% 代码写作交给模型,人更多在做“监督和修补”。 > 相关链接:WeirdML 成绩与对比讨论Claude Code 写 80% 生产代码引发的讨论

##### BullshitBench v2:专门测“胡说八道”的基准更新 BullshitBench v2 新增约 100 道涵盖代码、医学、法律、金融、物理的题目,测 70+ 个模型。作者声称“加大推理反而更容易胡说”,Anthropic 系列在该基准上明显领先,而 OpenAI/Google 最近几代在该基准上几乎没进步,引发不少质疑与反驳。 > 相关链接:BullshitBench v2 公告社区质疑与补充讨论

---

#### Agent 与工具链 ##### “AGENTS.md / SKILL.md” 实测:能省 30% 运行时,但不是魔法棒 有团队在 10 个仓库、124 个 PR 上实验 AGENTS.md,统计中位数运行时间降约 28.6%,token 消耗降 16.6%,主要是减少最糟糕那部分“乱试一通”。Anthropic 也发布 30 页 Skills 指南,强调把复杂流程拆成可测试的技能文件,而不是堆长 prompt。 > 相关链接:AGENTS.md 实验数据Anthropic Skills 完整指南 PDF

##### Agent 可靠性与观测:大家发现“评估比写 Agent 难多了” 多方开发者反馈,现在难点不在把 Agent 跑起来,而在:怎么定义成功、怎么监控、怎么评。建议是:先把成功标准写清(产品/领域专家主导),优先用确定性打分器,LLM 只评风格;评的是产出结果,而不是中间思路。社区也在讨论如何做 Agent 日志与可视化。 > 相关链接:Agent 观测提问评估实践建议长帖

##### GitNexus:在浏览器里把仓库变成知识图,再用图查询做 RAG GitNexus 会解析代码仓,生成交互式依赖图,关系存进内嵌 KuzuDB,用 Cypher 走图来回答问题,而不是靠 embedding 相似度。实现完全在浏览器里,用 Web Worker 跑,MIT 协议开源,适合做“项目导览 + 代码问答”类 Agent 的后端。 > 相关链接:GitNexus 功能介绍

##### Stripe 推出 LLM 计费代理:帮你按 token 收钱 Stripe 新增“按 token 计费”能力:你选模型、设加价、把调用走 Stripe 的 LLM 代理,使用量自动入账。意味着做 AI SaaS 不用自己再抄一套计费用量统计,直接挂在现有 Stripe 流水里即可。 > 相关链接:产品介绍与用例

##### MCP vs Skills:接口协议和“技能说明书”分工逐渐清晰 社区开始把 MCP 理解为“模型调用外部 API 的统一协议”,而 Skills/AGENTS.md 则是教模型如何把这些 API 组合成交付结果的“操作手册”。Weaviate 给出了用 Skills 封装常见向量检索/工具组合的示例,对用 Claude/CoWork 这条路的人比较有参考价值。 > 相关链接:Weaviate 技能示例

---

#### 基础设施与硬件 ##### 有人把 Transformer 训练搬上 Apple Neural Engine:M4 上做训练不再只是想象 有研究者绕过 CoreML,直接用未公开 API 在 M4 的 ANE 上跑了一个 1.1 亿参数的小 GPT 训练循环,大部分算子在 ANE,部分梯度仍在 CPU。宣称 M4 ANE 约 6.6 TFLOPS/W,能效远高于 A100/H100,引发“能不能用一堆 Mac mini 做省电训练集群”的讨论。 > 相关链接:技术细节长帖补充解读

##### Google Static:检索场景里把受约束解码加速到原来的近千倍 Google 推出 Static 稀疏矩阵框架,用专门的数据结构加速“受约束生成”(比如必须产出某个知识库里的条目)。在 LLM 检索生成任务上声称比朴素做法快 948 倍,非常适合 RAG/检索推荐那种“生成但必须合法”的场景。 > 相关链接:Static 技术博客

##### NVIDIA Blackwell 架构“割裂”:数据中心和消费卡功能不再对等 Blackwell 时代被明确分成两条线:数据中心 B100/B200 系列是 Compute Capability 10.x,支持 tcgen05、DPX 等新特性;而面向游戏/创作的 Blackwell RTX(50 系)是 CC 12.0,不支持这些 AI 专用单元。以后很多底层优化会只能在机房卡上吃满,游戏卡更多只管图形和一般推理。 > 相关链接:官方博客解释架构分裂

##### Taalas HC1 等 ASIC 推理加速卡:一颗芯片吃死一个模型,换来每人 1.7 万 tok/s 有厂商宣传“模型写进掩膜”的 ASIC:权重烤死在芯片里,不走 HBM 流水,单用户可达约 16–17k tok/s,但代价是“一颗芯片只能服务一个模型”,升级模型就要换硬件。更像是云侧大规模部署同构模型的专用方案,而不是通用 GPU 替代。 > 相关链接:原始科普贴

##### AMD 开源更细粒度的 GPU Trace 工具,tinygrad 评价“比 NVIDIA 好用” AMD 开源了 rocprof-trace-decoder,可解析 SQTT 指令级 trace,做更细的性能分析。tinygrad 作者直接评价“AMD 的 tracing 基础设施现在比 NVIDIA 的好”,对想在 ROCm 上抠性能的人是个利好。 > 相关链接:tinygrad 相关评论

---

#### 研究与方法 ##### ByteDance CUDA Agent:用强化学习直接调 CUDA kernel,比 torch.compile 快一倍 ByteDance 论文 CUDA Agent,用 RL 直接在真机上跑 profile,当奖励信号来自动写 CUDA kernel。作者声称在标准 kernel 上比 torch.compile 快约 2 倍,在 KernelBench 等基准上比 Claude/Gemini 这些“写代码型” LLM 强很多。缺点是训练一次要巨量 GPU,且暂未开源具体 kernel。 > 相关链接:论文解读长帖arXiv 链接

##### Databricks OAPL:用更“省钱”的 off-policy RL 练推理模型 Databricks 提出 OAPL(Optimal Advantage-based Policy Optimization with Lagged Inference),本质是更节省样本的 off-policy RL,官方称比 GRPO 这类 on-policy 方法少 3 倍生成次数就能把推理能力练起来,训练系统也简单不少。对于要在自家数据上训“思维链模型”的团队挺有参考价值。 > 相关链接:OAPL 介绍线程

##### 大模型训练里再看一眼“广而深的 Transformer”理论 Meta 的“宽深 Transformer 有效理论”又被翻出来复读:60 多页系统分析前向/反向信号传播、宽度/深度怎么标尺缩放、NTK 分析、SGD vs AdamW 行为,并在视觉和语言 Transformer 上做了验证。对想调大模型超参又不想全靠蒙的团队值得读一遍。 > 相关链接:The Turing Post 概要arXiv 原文链接

##### Sakana AI 开源 text-to-LoRA:用文本提示直接产出 LoRA Sakana AI 放出了一个 text-to-LoRA 模型和训练代码,可以从自然语言描述直接生成 LoRA,用于风格/任务微调。官方说明单卡 H100 连续跑 5 天就能复现,算是把“让别人帮你训 LoRA”又自动化了一层。 > 相关链接:模型与代码仓库Hugging Face 模型页

##### 用 SAE 看图生图扩散模型:第一步还没走完就能预测画面布局 有工作用稀疏自编码(SAE)分析主流文生图扩散模型的中间激活,发现只看早期步骤激活的空间分布,就已经能相当准确预测最终画面的构图。这说明模型很早就“想好要画什么”,后面更多是细化纹理,对做可解释和控制类生成有启发。 > 相关链接:SAE 分析文生图论文

---

#### 产品与应用落地 ##### 本地 LLM 体验回顾:600 美金的小主机现在能跑当年的“大神级”模型 Reddit 上有人回顾 DeepSeek 爆火一年多以来的变化:现在 600 美元的小主机就能在 Qwen3-27B 这类模型上跑 Q4 量化,效果被不少人认为已经不输当年的 DeepSeek R1。大家也开始吐槽各种“智力指数”榜单其实只是把 MMLU、GPQA 等平均一下,别当真。 > 相关链接:本地 LLM 演进讨论帖

##### DishBrain:80 万活体神经元接电脑,能打 Doom 和乒乓 Cortical Labs 把约 80 万个人类+小鼠神经元接在硅片上,做出一个叫 DishBrain 的“活体算力”,可以玩 Pong 甚至 Doom。论文和视频在圈内传播很广,一半人当科幻看,一半人在认真想“这到底算不算通用计算设备”。 > 相关链接:项目展示推文

##### Runway Gen-4.5 挤进 Arena 文本转视频天梯 Runway 的 Gen-4.5 已上 arena.ai 的文本转视频榜,评分 1218 分,大致和 Kling-2.6-Pro 一个量级。对做视频生成产品的人来说,Arena 榜单开始有了一些“主流商用模型同台竞技”的味道。 > 相关链接:文本转视频排行榜

##### Robert Stock:职业投手自己用 AI 做了一个 890 万投球的分析平台 MLB 投手 Robert Stock 完全没编程基础,靠现成工具和模型,自己做了个分析 890 万次投球的数据平台,用机器学习做投球策略和训练分析。这个案例在 Latent Space 社区被大量转发,说明“非程序员用 AI 做严肃应用”已经不是 PPT 上的故事了。 > 相关链接:他的 X 帖子

##### OpenClaw + 本地/云大模型:从自动订理发到多 Agent 仪表盘 OpenClaw 社区大量实战分享:有人用它自动上理发店网站定期预约;有人做多 Agent 仪表盘,后端一个 orchestrator 管多个专用 Agent 并发跑;还有人用 persona 插件让同一个会话里多 persona 自己辩论、访问本地文件。整体看,OpenClaw 正在变成“工程师圈的 Cowork 替代品”。 > 相关链接:OpenClaw showcase 讨论串

---

#### 行业与公司动态 ##### Qwen 3.5 小模型发布带火整条本地 LLM 链:Ollama、LM Studio、Unsloth 全线跟进 阿里这波从 0.8B 到 9B 的 Qwen3.5 小模型,一口气上 Hugging Face、Ollama、LM Studio、WebGPU Demo 和各种 GGUF/量化版本,本地 LLM 社区这几天几乎被 Qwen3.5 屏霸。大家重点关注的是:同等硬件下,比老一代 7B/13B 模型更快更准,且内置多模态和工具调用。 > 相关链接:官方 Hugging Face 集合LM Studio 与 Unsloth 社区讨论

##### Databricks、Google、NVIDIA:基础设施成 2026 年关键词 一边是 Databricks 在推高效 RL(OAPL),一边是 Google 用 Static 优化检索,NVIDIA 则通过 Blackwell 切割数据中心/消费卡功能。再叠加各家 TPUs/ASIC(Meta 买 Google TPU、Taalas HC1 等),业界基本形成共识:接下来几年比拼的是“算力+基础设施”而不是单纯模型榜单。 > 相关链接:OAPL 与 Static 讨论串Meta-Google TPU 合作报道

##### AI 经济被拿来类比“新一轮互联网泡沫”,但很多人觉得这次是真的有产出 Nous Research 等社区在聊:现在 AI 投入和 2000 年互联网泡沫很像,钱烧得快、情绪极端,但不同点在于,这次已经有大量真实生产用例(代码、客服、内容生产等),很多人已经在本地和云上部署 Hermes、Qwen 这类模型当工作主力。 > 相关链接:AI vs Dot-com 泡沫讨论

---

#### 政策、治理与安全 ##### 美国国防部“封杀” Anthropic、转投 OpenAI:合同条款与监控红线成焦点 美国国防部把 Anthropic 列为“供应链风险”,要求相关承包商 6 个月内停用其模型,官方理由是没有获得“足够访问权”。OpenAI 随后宣布和国防部签新协议,在机密环境部署模型。Sam Altman 公开的补充条款写明“禁止对美国境内个人做有意监控”,但法律界指出“有意/附带收集”的老漏洞仍在,呼吁独立法律审查。 > 相关链接:国防部风险声明相关推文OpenAI 官博:我们的国防协议Sam Altman 公布修正条款

##### ChatGPT DoD 合同引发用户“卸载潮”,Claude 借势冲上 App Store 第一 TechCrunch 数据称 OpenAI 公布和国防部合作后 48 小时内 ChatGPT 手机端卸载量环比涨 295%,同时 Anthropic 的 Claude 登上美区 App Store 榜首。Reddit 上不少人表态“出于伦理停用 ChatGPT”,也有人认为这种抵制持续不了多久,更担心的是长远的隐私与合规问题。 > 相关链接:卸载与下载数据讨论Claude 上榜讨论

##### Moonshot/Kimi 大规模蒸馏 Claude,引发“模型身份危机”和数据安全担忧 Moonshot AI 被曝用工业级蒸馏攻击从 Claude 中抽取能力训练自家 Kimi,有报告称被蒸馏过的 Claude 有时会用中文自称 DeepSeek。Anthropic 把 15 万次 API 调用称为“攻击”,在 Eleuther 等社区被吐槽:按这个标准,大多数基准测试都是攻击。大家开始认真讨论:服务条款、调用额度和可接受的蒸馏边界到底在哪。 > 相关链接:Kimi 身份错乱案例分析Eleuther 对“150k 调用是攻击”的讨论

##### 安全社区的 Jailbreak 与红队规范:有人写了整套“负责任披露 SOP” BASI Jailbreaking 等 Discord 上,大家一边追着新版本 Claude 4.6、Gemini、GPT-5.x 找越狱方式,一边也开始讨论怎么“负责任地报洞”:有成员写了完整的 Red-Team Playbook,流程包括复现、加密报送、约定修复窗口、联合披露等,并提醒要有书面 scope、减少伤害、注意出口管制。 > 相关链接:Red-Team Playbook Gist

---

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复 (0)