## 📅 2026年03月02日 AI行业动态
#### **模型与能力**
##### **阿里发布 Qwen 3.5 小模型家族:多模态 + 超长上下文,主打本地与边缘**
阿里推出 Qwen3.5-0.8B/2B/4B/9B(含 Base/Instruct),原生多模态、强化学习增强,号称原生 26.2 万上下文,可扩到约 100 万。社区实测 4B 已能干掉两年前不少 9B,本地 128k 上下文可跑到约 60 tok/s,小模型默认关闭“思考模式”,需要在模板/参数里手动开启。
> 相关链接:[官方发布推文](https://x.com/Alibaba_Qwen/status/2028460046510965160)|[架构与 Gated DeltaNet 讨论](https://x.com/LiorOnAI/status/2028558859783311382)|[本地跑分与长上下文讨论(Reddit 汇总)](https://www.reddit.com/r/LocalLLaMA/comments/1rjd4pv/qwen_25_3_35_smallest_models_incredible/)
##### **Qwen 3.5 大模型:27B/35B 在推理和编码上“踢馆”百亿级模型**
社区基准显示 Qwen3.5-27B、35B 在复杂推理和编码任务上对标甚至超过部分 112B/120B 级模型(含 Minimax 等),27B 版本大量使用 Gated DeltaNet 线性注意力,号称一张消费级显卡可跑。还有 Opus 4.6 思维链蒸馏版在 4 秒内完成嵌入式俄罗斯方块这类任务。
> 相关链接:[27B 架构与表现分析](https://www.reddit.com/r/LocalLLaMA/comments/1rj6m71/qwen_35_27b_a_testament_to_the_transformer/)|[9B/4B 详细基准图](https://www.reddit.com/r/LocalLLaMA/comments/1rirtyy/qwen35_9b_and_4b_benchmarks/)|[Opus 4.6 蒸馏版 Qwen3.5-27B](https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill-GGUF)
##### **Qwen 3.5 本地生态:Ollama、LM Studio、浏览器 WebGPU 全面接入**
Qwen 3.5 小模型已被 Ollama、LM Studio、Transformers.js 等快速集成:9B GGUF 体积约 7GB,可在 16GB 显存或高端笔记本上跑;0.8B 模型能直接在浏览器 WebGPU 跑多模态推理,但视觉编码仍是主要瓶颈。LM Studio、Unsloth 等也放出了针对 NVFP4、思考模式等优化的量化版本。
> 相关链接:[Ollama 集成 Qwen3.5](https://x.com/ollama/status/2028510184788926567)|[浏览器 WebGPU Demo](https://huggingface.co/spaces/webml-community/Qwen3.5-0.8B-WebGPU)|[NVFP4 多模态量化合集](https://huggingface.co/Sehyo/Qwen3.5-27B-NVFP4)
##### **Codex 5.3:代码智能继续爬坡,社区开始担心“可用性”而不是“能不能写”**
新一版 Codex 5.3 在 WeirdML 等自定义编码基准上成绩领先,社区反馈在复杂多步任务上比之前更稳,和 Gemini 顶配版本互有胜负。同时讨论集中在:现在很多工作流已经把 80% 代码写作交给模型,人更多在做“监督和修补”。
> 相关链接:[WeirdML 成绩与对比讨论](https://x.com/theo/status/2028389340469149704)|[Claude Code 写 80% 生产代码引发的讨论](https://x.com/GergelyOrosz/status/2028465387570884640)
##### **BullshitBench v2:专门测“胡说八道”的基准更新**
BullshitBench v2 新增约 100 道涵盖代码、医学、法律、金融、物理的题目,测 70+ 个模型。作者声称“加大推理反而更容易胡说”,Anthropic 系列在该基准上明显领先,而 OpenAI/Google 最近几代在该基准上几乎没进步,引发不少质疑与反驳。
> 相关链接:[BullshitBench v2 公告](https://x.com/petergostev/status/2028492834693677377)|[社区质疑与补充讨论](https://x.com/scaling01/status/2028494129710133725)
---
#### **Agent 与工具链**
##### **“AGENTS.md / SKILL.md” 实测:能省 30% 运行时,但不是魔法棒**
有团队在 10 个仓库、124 个 PR 上实验 AGENTS.md,统计中位数运行时间降约 28.6%,token 消耗降 16.6%,主要是减少最糟糕那部分“乱试一通”。Anthropic 也发布 30 页 Skills 指南,强调把复杂流程拆成可测试的技能文件,而不是堆长 prompt。
> 相关链接:[AGENTS.md 实验数据](https://x.com/omarsar0/status/2028464607753654711)|[Anthropic Skills 完整指南 PDF](https://resources.anthropic.com/hubfs/The-Complete-Guide-to-Building-Skill-for-Claude.pdf)
##### **Agent 可靠性与观测:大家发现“评估比写 Agent 难多了”**
多方开发者反馈,现在难点不在把 Agent 跑起来,而在:怎么定义成功、怎么监控、怎么评。建议是:先把成功标准写清(产品/领域专家主导),优先用确定性打分器,LLM 只评风格;评的是产出结果,而不是中间思路。社区也在讨论如何做 Agent 日志与可视化。
> 相关链接:[Agent 观测提问](https://x.com/_lewtun/status/2028395363132956861)|[评估实践建议长帖](https://x.com/_philschmid/status/2028528775873400919)
##### **GitNexus:在浏览器里把仓库变成知识图,再用图查询做 RAG**
GitNexus 会解析代码仓,生成交互式依赖图,关系存进内嵌 KuzuDB,用 Cypher 走图来回答问题,而不是靠 embedding 相似度。实现完全在浏览器里,用 Web Worker 跑,MIT 协议开源,适合做“项目导览 + 代码问答”类 Agent 的后端。
> 相关链接:[GitNexus 功能介绍](https://x.com/MillieMarconnni/status/2028436636841996451)
##### **Stripe 推出 LLM 计费代理:帮你按 token 收钱**
Stripe 新增“按 token 计费”能力:你选模型、设加价、把调用走 Stripe 的 LLM 代理,使用量自动入账。意味着做 AI SaaS 不用自己再抄一套计费用量统计,直接挂在现有 Stripe 流水里即可。
> 相关链接:[产品介绍与用例](https://x.com/miles_matthias/status/2028515021022548181)
##### **MCP vs Skills:接口协议和“技能说明书”分工逐渐清晰**
社区开始把 MCP 理解为“模型调用外部 API 的统一协议”,而 Skills/AGENTS.md 则是教模型如何把这些 API 组合成交付结果的“操作手册”。Weaviate 给出了用 Skills 封装常见向量检索/工具组合的示例,对用 Claude/CoWork 这条路的人比较有参考价值。
> 相关链接:[Weaviate 技能示例](https://x.com/weaviate_io/status/2028465940963156036)
---
#### **基础设施与硬件**
##### **有人把 Transformer 训练搬上 Apple Neural Engine:M4 上做训练不再只是想象**
有研究者绕过 CoreML,直接用未公开 API 在 M4 的 ANE 上跑了一个 1.1 亿参数的小 GPT 训练循环,大部分算子在 ANE,部分梯度仍在 CPU。宣称 M4 ANE 约 6.6 TFLOPS/W,能效远高于 A100/H100,引发“能不能用一堆 Mac mini 做省电训练集群”的讨论。
> 相关链接:[技术细节长帖](https://x.com/AmbsdOP/status/2028457255968874940)|[补充解读](https://x.com/LiorOnAI/status/2028560569952031145)
##### **Google Static:检索场景里把受约束解码加速到原来的近千倍**
Google 推出 Static 稀疏矩阵框架,用专门的数据结构加速“受约束生成”(比如必须产出某个知识库里的条目)。在 LLM 检索生成任务上声称比朴素做法快 948 倍,非常适合 RAG/检索推荐那种“生成但必须合法”的场景。
> 相关链接:[Static 技术博客](https://www.marktechpost.com/2026/03/01/google-ai-introduces-static-a-sparse-matrix-framework-delivering-948x-faster-constrained-decoding-for-llm-based-generative-retrieval/)
##### **NVIDIA Blackwell 架构“割裂”:数据中心和消费卡功能不再对等**
Blackwell 时代被明确分成两条线:数据中心 B100/B200 系列是 Compute Capability 10.x,支持 tcgen05、DPX 等新特性;而面向游戏/创作的 Blackwell RTX(50 系)是 CC 12.0,不支持这些 AI 专用单元。以后很多底层优化会只能在机房卡上吃满,游戏卡更多只管图形和一般推理。
> 相关链接:[官方博客解释架构分裂](https://developer.nvidia.com/blog/nvidia-blackwell-and-nvidia-cuda-12-9-introduce-family-specific-architecture-features/)
##### **Taalas HC1 等 ASIC 推理加速卡:一颗芯片吃死一个模型,换来每人 1.7 万 tok/s**
有厂商宣传“模型写进掩膜”的 ASIC:权重烤死在芯片里,不走 HBM 流水,单用户可达约 16–17k tok/s,但代价是“一颗芯片只能服务一个模型”,升级模型就要换硬件。更像是云侧大规模部署同构模型的专用方案,而不是通用 GPU 替代。
> 相关链接:[原始科普贴](https://x.com/TheTuringPost/status/2028458565917360363)
##### **AMD 开源更细粒度的 GPU Trace 工具,tinygrad 评价“比 NVIDIA 好用”**
AMD 开源了 rocprof-trace-decoder,可解析 SQTT 指令级 trace,做更细的性能分析。tinygrad 作者直接评价“AMD 的 tracing 基础设施现在比 NVIDIA 的好”,对想在 ROCm 上抠性能的人是个利好。
> 相关链接:[tinygrad 相关评论](https://x.com/__tinygrad__/status/2028679089650041069)
---
#### **研究与方法**
##### **ByteDance CUDA Agent:用强化学习直接调 CUDA kernel,比 torch.compile 快一倍**
ByteDance 论文 CUDA Agent,用 RL 直接在真机上跑 profile,当奖励信号来自动写 CUDA kernel。作者声称在标准 kernel 上比 torch.compile 快约 2 倍,在 KernelBench 等基准上比 Claude/Gemini 这些“写代码型” LLM 强很多。缺点是训练一次要巨量 GPU,且暂未开源具体 kernel。
> 相关链接:[论文解读长帖](https://x.com/BoWang87/status/2028599174992949508)|[arXiv 链接](https://arxiv.org/abs/2602.24286)
##### **Databricks OAPL:用更“省钱”的 off-policy RL 练推理模型**
Databricks 提出 OAPL(Optimal Advantage-based Policy Optimization with Lagged Inference),本质是更节省样本的 off-policy RL,官方称比 GRPO 这类 on-policy 方法少 3 倍生成次数就能把推理能力练起来,训练系统也简单不少。对于要在自家数据上训“思维链模型”的团队挺有参考价值。
> 相关链接:[OAPL 介绍线程](https://x.com/g_k_swamy/status/2027450376593805746)
##### **大模型训练里再看一眼“广而深的 Transformer”理论**
Meta 的“宽深 Transformer 有效理论”又被翻出来复读:60 多页系统分析前向/反向信号传播、宽度/深度怎么标尺缩放、NTK 分析、SGD vs AdamW 行为,并在视觉和语言 Transformer 上做了验证。对想调大模型超参又不想全靠蒙的团队值得读一遍。
> 相关链接:[The Turing Post 概要](https://x.com/TheTuringPost/status/2028394922576121946)|[arXiv 原文链接](https://x.com/TheTuringPost/status/2028394934970315125)
##### **Sakana AI 开源 text-to-LoRA:用文本提示直接产出 LoRA**
Sakana AI 放出了一个 text-to-LoRA 模型和训练代码,可以从自然语言描述直接生成 LoRA,用于风格/任务微调。官方说明单卡 H100 连续跑 5 天就能复现,算是把“让别人帮你训 LoRA”又自动化了一层。
> 相关链接:[模型与代码仓库](https://github.com/SakanaAI/text-to-lora)|[Hugging Face 模型页](https://huggingface.co/SakanaAI/text-to-lora/tree/main)
##### **用 SAE 看图生图扩散模型:第一步还没走完就能预测画面布局**
有工作用稀疏自编码(SAE)分析主流文生图扩散模型的中间激活,发现只看早期步骤激活的空间分布,就已经能相当准确预测最终画面的构图。这说明模型很早就“想好要画什么”,后面更多是细化纹理,对做可解释和控制类生成有启发。
> 相关链接:[SAE 分析文生图论文](https://arxiv.org/abs/2504.15473)
---
#### **产品与应用落地**
##### **本地 LLM 体验回顾:600 美金的小主机现在能跑当年的“大神级”模型**
Reddit 上有人回顾 DeepSeek 爆火一年多以来的变化:现在 600 美元的小主机就能在 Qwen3-27B 这类模型上跑 Q4 量化,效果被不少人认为已经不输当年的 DeepSeek R1。大家也开始吐槽各种“智力指数”榜单其实只是把 MMLU、GPQA 等平均一下,别当真。
> 相关链接:[本地 LLM 演进讨论帖](https://www.reddit.com/r/LocalLLaMA/comments/1ri635s/13_months_since_the_deepseek_moment_how_far_have/)
##### **DishBrain:80 万活体神经元接电脑,能打 Doom 和乒乓**
Cortical Labs 把约 80 万个人类+小鼠神经元接在硅片上,做出一个叫 DishBrain 的“活体算力”,可以玩 Pong 甚至 Doom。论文和视频在圈内传播很广,一半人当科幻看,一半人在认真想“这到底算不算通用计算设备”。
> 相关链接:[项目展示推文](https://x.com/scitechera/status/2028010532356374754)
##### **Runway Gen-4.5 挤进 Arena 文本转视频天梯**
Runway 的 Gen-4.5 已上 arena.ai 的文本转视频榜,评分 1218 分,大致和 Kling-2.6-Pro 一个量级。对做视频生成产品的人来说,Arena 榜单开始有了一些“主流商用模型同台竞技”的味道。
> 相关链接:[文本转视频排行榜](https://arena.ai/leaderboard/text-to-video)
##### **Robert Stock:职业投手自己用 AI 做了一个 890 万投球的分析平台**
MLB 投手 Robert Stock 完全没编程基础,靠现成工具和模型,自己做了个分析 890 万次投球的数据平台,用机器学习做投球策略和训练分析。这个案例在 Latent Space 社区被大量转发,说明“非程序员用 AI 做严肃应用”已经不是 PPT 上的故事了。
> 相关链接:[他的 X 帖子](https://xcancel.com/robertstock6/status/2027401720209531145)
##### **OpenClaw + 本地/云大模型:从自动订理发到多 Agent 仪表盘**
OpenClaw 社区大量实战分享:有人用它自动上理发店网站定期预约;有人做多 Agent 仪表盘,后端一个 orchestrator 管多个专用 Agent 并发跑;还有人用 persona 插件让同一个会话里多 persona 自己辩论、访问本地文件。整体看,OpenClaw 正在变成“工程师圈的 Cowork 替代品”。
> 相关链接:[OpenClaw showcase 讨论串](https://discord.com/channels/1456350064065904867/1456609488202105005/1477097758933385287)
---
#### **行业与公司动态**
##### **Qwen 3.5 小模型发布带火整条本地 LLM 链:Ollama、LM Studio、Unsloth 全线跟进**
阿里这波从 0.8B 到 9B 的 Qwen3.5 小模型,一口气上 Hugging Face、Ollama、LM Studio、WebGPU Demo 和各种 GGUF/量化版本,本地 LLM 社区这几天几乎被 Qwen3.5 屏霸。大家重点关注的是:同等硬件下,比老一代 7B/13B 模型更快更准,且内置多模态和工具调用。
> 相关链接:[官方 Hugging Face 集合](https://huggingface.co/collections/Qwen/qwen35)|[LM Studio 与 Unsloth 社区讨论](https://discord.com/channels/1110598183144399058/1110598183144399061/1477032824967266344)
##### **Databricks、Google、NVIDIA:基础设施成 2026 年关键词**
一边是 Databricks 在推高效 RL(OAPL),一边是 Google 用 Static 优化检索,NVIDIA 则通过 Blackwell 切割数据中心/消费卡功能。再叠加各家 TPUs/ASIC(Meta 买 Google TPU、Taalas HC1 等),业界基本形成共识:接下来几年比拼的是“算力+基础设施”而不是单纯模型榜单。
> 相关链接:[OAPL 与 Static 讨论串](https://x.com/g_k_swamy/status/2027450376593805746)|[Meta-Google TPU 合作报道](https://xcancel.com/anissagardizy8/status/2027167311162196188)
##### **AI 经济被拿来类比“新一轮互联网泡沫”,但很多人觉得这次是真的有产出**
Nous Research 等社区在聊:现在 AI 投入和 2000 年互联网泡沫很像,钱烧得快、情绪极端,但不同点在于,这次已经有大量真实生产用例(代码、客服、内容生产等),很多人已经在本地和云上部署 Hermes、Qwen 这类模型当工作主力。
> 相关链接:[AI vs Dot-com 泡沫讨论](https://discord.com/channels/1053877538025386074/1149866623109439599/1477045327881306213)
---
#### **政策、治理与安全**
##### **美国国防部“封杀” Anthropic、转投 OpenAI:合同条款与监控红线成焦点**
美国国防部把 Anthropic 列为“供应链风险”,要求相关承包商 6 个月内停用其模型,官方理由是没有获得“足够访问权”。OpenAI 随后宣布和国防部签新协议,在机密环境部署模型。Sam Altman 公开的补充条款写明“禁止对美国境内个人做有意监控”,但法律界指出“有意/附带收集”的老漏洞仍在,呼吁独立法律审查。
> 相关链接:[国防部风险声明相关推文](https://xcancel.com/secwar/status/2027507717469049070)|[OpenAI 官博:我们的国防协议](https://openai.com/index/our-agreement-with-the-department-of-war/)|[Sam Altman 公布修正条款](https://x.com/sama/status/2028640354912923739)
##### **ChatGPT DoD 合同引发用户“卸载潮”,Claude 借势冲上 App Store 第一**
TechCrunch 数据称 OpenAI 公布和国防部合作后 48 小时内 ChatGPT 手机端卸载量环比涨 295%,同时 Anthropic 的 Claude 登上美区 App Store 榜首。Reddit 上不少人表态“出于伦理停用 ChatGPT”,也有人认为这种抵制持续不了多久,更担心的是长远的隐私与合规问题。
> 相关链接:[卸载与下载数据讨论](https://www.reddit.com/r/ChatGPT/comments/1rjfipu/chatgpt_uninstalls_surge_295_after_openais_dod/)|[Claude 上榜讨论](https://www.reddit.com/r/OpenAI/comments/1ri2ly4/claude_hits_no_1_on_app_store_as_chatgpt_users/)
##### **Moonshot/Kimi 大规模蒸馏 Claude,引发“模型身份危机”和数据安全担忧**
Moonshot AI 被曝用工业级蒸馏攻击从 Claude 中抽取能力训练自家 Kimi,有报告称被蒸馏过的 Claude 有时会用中文自称 DeepSeek。Anthropic 把 15 万次 API 调用称为“攻击”,在 Eleuther 等社区被吐槽:按这个标准,大多数基准测试都是攻击。大家开始认真讨论:服务条款、调用额度和可接受的蒸馏边界到底在哪。
> 相关链接:[Kimi 身份错乱案例分析](https://parthsharmaai.substack.com/p/i-caught-kimi-having-an-identity)|[Eleuther 对“150k 调用是攻击”的讨论](https://discord.com/channels/729741769192767510/729741769738158194/1477127768151167027)
##### **安全社区的 Jailbreak 与红队规范:有人写了整套“负责任披露 SOP”**
BASI Jailbreaking 等 Discord 上,大家一边追着新版本 Claude 4.6、Gemini、GPT-5.x 找越狱方式,一边也开始讨论怎么“负责任地报洞”:有成员写了完整的 Red-Team Playbook,流程包括复现、加密报送、约定修复窗口、联合披露等,并提醒要有书面 scope、减少伤害、注意出口管制。
> 相关链接:[Red-Team Playbook Gist](https://gist.github.com/whimsical_94210/f338f65f559763f49967218ca9089606)
---
---
📌 **来源**: Easy AI 日报
#EasyAI #AI日报 #AI教学
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!