📰 Easy AI日报 | 2026-03-04

📅 2026年03月04日 AI行业动态

#### 模型与能力 ##### Google 推出 Gemini 3.1 Flash‑Lite：更快、更贵的高吞吐端点 Gemini 3.1 Flash‑Lite 预览版上线，被定位为 Gemini 3 系列里延迟最低、吞吐最高的多模态模型，1M 上下文，实测 360+ token/s、平均约 5.1 秒出答案。Jeff Dean 报价约 $0.25/百万输入、$1.5/百万输出，在 LMArena Elo 1432，但相对 2.5 Flash‑Lite 单价提高约 2.5–3.75 倍，引发“性能提升值不值价格”的讨论。 > 相关链接：DeepMind 发布线程｜Google API 说明｜Jeff Dean 细节与价格｜Arena 排名｜第三方性能与价格分析｜Reddit 成本吐槽贴

##### OpenAI 上线 GPT‑5.3 Instant，并预告 GPT‑5.4 GPT‑5.3 Instant 推送到全部 ChatGPT 用户，号称更自然、更少“说教”，减少无必要拒答，在有搜索时幻觉率降 26.8%、无搜索降 19.7%。API 中出现 gpt‑5.3‑chat‑latest，并已进 Arena 对比。官方同时放出“5.4 sooner than you Think”的预告，社区认为 5.4 可能很快上线，也被解读为转移 DoD/NSA 合同风波注意力。 > 相关链接：GPT‑5.3 Instant 公告｜OpenAI 推文｜内部指标补充｜GPT‑5.3 API 出现｜GPT‑5.4 预告推文

##### 阿里 Qwen 3.5：小模型、本地部署与推理体验 Qwen 3.5 系列在 Reddit 上讨论火爆：0.8B 小模型带视觉编码器，可在浏览器 WebGPU、本地手机等低算力设备跑通；27B/35B 版本在推理、研究任务和长上下文上表现接近更大模型，线性注意力架构提升效率。在老手机上 0.8B 也能跑到约 12 token/s，本地助手场景可用，但社区仍提醒有明显幻觉风险。 > 相关链接：Qwen 3.5 世代对比讨论｜Qwen 3.5 vs 3 基准图表｜0.8B 浏览器 WebGPU Demo

##### 苹果发布 M5 Pro / M5 Max：号称 LLM 提示处理最高快 4 倍 苹果发布 M5 Pro 与 M5 Max，主打本地 AI 能力：M5 Pro 支持 64GB 统一内存、307GB/s 带宽，M5 Max 支持 128GB、614GB/s，并宣称 LLM 提示处理最高比 M4 Pro/Max 快 4 倍。SSD 吞吐升到 14.5GB/s，集成 N1 芯片支持 Wi‑Fi 7，社区期待其在 Mac Studio / 本地大模型上的实际表现。 > 相关链接：LocalLLaMA 讨论帖

---

#### 基础设施与硬件 ##### 长上下文训练和显存优化：Together、Databricks、SkyPilot 新方案 Together 提出结合 Context Parallel + 序列并行的注意力分块方案，在 8×H100 单机上训练 5M 上下文 8B 模型，注意力显存最高降 87%。Databricks 开源 FlashOptim，可将 AdamW 显存开销从约 16 字节/参数降到 7 字节，并将 8B 微调峰值显存从 175GiB 降到 113GiB。SkyPilot 推出 Job Groups，把 RL 训练拆给高端 GPU、便宜 GPU 和大内存 CPU 协同调度。 > 相关链接：Together 长上下文技术｜FlashOptim 介绍｜Mosaic 实测数据｜SkyPilot RL 基础设施

##### NVIDIA Blackwell 架构拆两条线：数据中心 vs 消费级 社区注意到 Blackwell 架构被拆成数据中心 CC 10.0 和消费级 CC 12.0 两条线，一些新特性只在 sm_100a / sm_100f 上可用，存在前向兼容性问题。对底层 CUDA/内核开发者意味着需要按 GPU 家族区分编译和优化策略，未来多代卡混用会更复杂。 > 相关链接：NVIDIA 官方说明

##### ByteDance CUDA Agent 与 RL 写核：自动内核生成开始实用化 ByteDance 发布 CUDA Agent，可自动生成高性能 CUDA kernel，据论文与推文称在中小 kernel 上比 torch.compile 快 2 倍，在复杂基准上也大幅领先主流 LLM。GPU MODE 里也讨论了一款学术 RL‑CUDA agent，性能类似，但依赖大规模 GPU 池和进程隔离，真实工程成本仍不低。 > 相关链接：ByteDance CUDA Agent 官网｜官方推文｜RL Agent 论文

##### 专用推理芯片与 Apple ANE：推理基础设施价值抬升 讨论集中在两类硬件：Taalas HC1 这类硬接 Llama‑3.1‑8B 的专用芯片，可做到约 1.7 万 token/s，但只能跑固定模型；以及苹果 M4/M5 上的 Neural Engine，有实测 Llama2 110M 在 M4 ANE 上能比 A100 高 80 倍能效。配合分析预测 2030 年推理基础设施市场可达 2550 亿美金，长期价值或高于训练。 > 相关链接：Taalas 芯片论文｜M4 ANE 性能实测｜推理市场规模讨论

---

#### Agent 与工具链 ##### MCP 命不久矣？实际生态却在加速扩张 一边有人在 Twitter 上喊 “MCP 已死”，另一边 Notion 已接入 MCP/API，支持 Meeting Notes，一行命令即可在 Claude Code 使用；Cursor 则上线 MCP Apps，让 Agent 在对话里渲染交互式 UI。与此同时，有安全研究指出 MCP 整体安全模型比较混乱，列举了 5 类容易被攻击的模式，提醒开发者谨慎设计。 > 相关链接：Notion MCP 集成｜Cursor MCP Apps 发布｜@nainia_ayoub/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90" style="color: #6B7B5C;">MCP 安全风险分析

##### ShadowClaw：单一 C 可执行体的极简本地 Agent ShadowClaw 在多个社区被安利：用 C 写成的单文件 Agent，通过 curl 调用本地 LLM（如 Ollama），内置执行 shell、读写文件、HTTP GET、简单算式，并自动持久化状态。不依赖大型框架，适合作为“能干活但可控”的本地个人 Agent 基线。 > 相关链接：ShadowClaw 仓库

##### RLM（Recursive Language Modeling）：Agent 范式之争 DSPy 等社区密集讨论 RLM：给模型一个 REPL 环境，让它自己写代码再调用，而不是我们预先写好工具函数。支持者认为这比传统 ReAct/工具调用更灵活，也更接近“模型自己编程”；反对者担心可控性、调试和安全。大家正在准备线下 Meetup，系统比较 RLM 与 ReAct 的利弊和适用场景。 > 相关链接：RLM 讨论帖 1｜RLM 讨论帖 2

##### Perplexity Computer、Cursor 云 Agent：安全沙箱里的“用电脑” Perplexity 的 Computer 和 Cursor 的云 Agent 都走同一路线：在隔离 VM / 安全沙箱里运行代理，代用户操作浏览器、终端、IDE，最后产出 PR 或文档。优点是不需要用户管理 API key 和本地环境，缺点是调试透明度与成本。Perplexity 强调“我们帮你管理一堆模型和权限”，Cursor 则更偏工程产能。 > 相关链接：Perplexity Computer 介绍｜Cursor 云 Agent 介绍

---

#### 研究与方法 ##### 长上下文评测与 Agent 基准：现在的 Benchmark 不像真实工作 一组新工作指出当前 Agent 基准严重偏向数学/编程，与真实劳动力结构不匹配，有人称之为“真实工作的核心问题”。Arena 推出 Document Arena，直接用 PDF 文档做推理对战，目前 Claude Opus 4.6 在该榜单领先。整体趋势是从玩具任务转向贴近业务文档和工作流的评测。 > 相关链接：基准与真实工作分布数据库｜Emollick 评论｜Document Arena 介绍

##### 多 Agent 共识与 Theory of Mind：规模越大越爱“卡死” Byzantine 共识实验表明，LLM 组成的多 Agent 系统即便没有恶意节点，也很难稳定达成一致，常见失败原因是超时和僵持，且随参与者增多更严重。另一组将 ToM/BDI + 形式验证接入 Agent，发现 ToM 模块并不是万能的，收益高度依赖底层模型本身能力。 > 相关链接：Byzantine 共识实验｜ToM + BDI 工作

##### 谱范数缩放与 muP：为什么“调好参数化”能让网络学特征 Eleuther 社区讨论一篇 2023 年论文：通过按 √(fan‑out/fan‑in) 缩放权重矩阵的谱范数和更新，可以从理论上解释何时网络会从“只做核方法”变成真正的特征学习。该推导给出 maximal update parametrization（muP）的直观解释，并和 Modula 等近期工作关联起来。 > 相关链接：谱范数与 muP 论文｜Modula 相关工作

##### SAE 解剖文生图扩散模型：构图早期就定型 新论文用稀疏自编码器（SAE）分析主流文本生成图像的扩散模型，在激活中发现大量可解释概念。结果显示：在反向扩散早期就能大致预测图像构图，中期主要决定风格，最后阶段只微调纹理细节；还展示了在不同阶段对构图/风格做有针对性的干预。 > 相关链接：SAE + Diffusion 论文

---

#### 产品与应用落地 ##### Claude & Claude Code 暴涨：语音模式上线、流量超预期 Anthropic 表示 Claude 与 Claude Code 本周流量远超预期，正在紧急扩容，也被不少人视为 OpenAI DoD 合同风波的受益者。有用户统计称 Claude 在美国企业市场份额从少数跃升为第一。Claude Code 也开始灰度“语音模式”，支持按住空格说话，语音内容直接流入光标位置，不额外计费。 > 相关链接：流量暴涨说明｜语音模式介绍｜市场份额讨论

##### Cursor、Viktor 等“AI 同事”：从 IDE 到 Slack 的端到端工作流 Cursor 一方面在自家 IDE 里改版布局、支持 Zen 模式和云 Agent（已支持 Android WebApp），另一方面也被用来从零构建 Slack 里的“AI 同事” Viktor，可做营销审计、投放管理和线索研究，集成 3000+ SaaS，并用持久记忆适应公司上下文。说明很多 Agent 产品开始真正嵌入团队工作流，而不只是聊天机器人。 > 相关链接：Cursor 云 Agent｜Viktor 产品页

##### 本地 LLM 体验：LM Studio、OpenClaw、Manus 等工具链进展 LM Studio 修复了 LM Link 多设备发现问题，重开等候名单，并在讨论 Vulkan 多卡均衡、Topaz NeuroStream 等本地推理 trick。OpenClaw 社区开放了全部社区规则与团队架构，出现 Instagram、WhatsApp 等频道适配，以及基于 OpenClaw 的视频剪辑和自动化交易案例。Manus.im 则更多在回答“如何省信用点”和结构化需求文档驱动开发的实践。 > 相关链接：LM Studio 公告｜OpenClaw 社区文档｜Manus 优化用量文档

##### 语音转写 easytranscriber：比 WhisperX 快三到一倍 KBLab 在 Hugging Face 推出 easytranscriber，主打自动语音识别+准确时间戳，接口类似 WhisperX，但实测快 35%–102%（视硬件而定），还支持直接用 HF 模型作后端。对需要大批量长音频转录的团队，这是个更省时的开源选项。 > 相关链接：easytranscriber 博文

---

#### 行业与公司动态 ##### 阿里 Qwen 团队高层大撤退：开源节奏前景成疑 Qwen 技术负责人 Justin Lin 等多名关键成员宣布离职，外界称是阿里云“换帅”，有说法是被更“指标导向”的人接手。社区担心：Qwen 作为开源小模型与多模态基础设施，如果开源/许可证策略收紧，将对整个开源生态造成冲击。不过 Qwen 3.5 训练脚本、LoRA 指南、Int4 GPTQ 等仍在继续发布，呈现“产品猛冲、领导出走”的割裂状态。 > 相关链接：Justin Lin 告别帖｜后续离职确认｜研究者对 Qwen 重要性的评价

##### OpenAI 高层跳槽 Anthropic：后训练负责人加入竞争对手 OpenAI 负责 RLHF/后训练的 VP Max Schwarzer 宣布离职，加入 Anthropic 做一线 RL 研究，被不少人视为 Anthropic 在人才上的重大胜利。Max 参与过 GPT‑5 系列多个版本，这次跳槽强化了“顶级人才在大模型公司之间流动”的趋势，也加剧外界对 OpenAI 内部稳定性的猜测。 > 相关链接：Max Schwarzer 宣布离职与去向｜社区评论

##### Anthropic 与五角大楼/Palantir 的博弈 报道称美国国防部曾威胁把 Anthropic 列为“供应链风险”，影响 Palantir 等在政府项目中使用其模型。Anthropic 希望在大规模监控、自治武器等用途上加防火墙，这与部分军方需求有张力。事件凸显：前沿模型供应商与军工/政府客户之间的条款博弈会越来越常见。 > 相关链接：相关报道串｜媒体报道链接

---

#### 政策、治理与安全 ##### OpenAI 与美国国防部/NSA 合同引发信任危机 媒体披露 OpenAI 与美 DoD/NSA 合作后，引发隐私与监控担忧。多位学者要求公开合同原文，认为“偶然收集”之类措辞历史上曾被用于无令状监控。Sam Altman 随后发内部信称已修改条款，禁止用于针对美国公民的国内监控，并声称情报机构需额外协议才能使用。很多人仍呼吁独立法律审查，而不是“相信我们”。 > 相关链接：Jeremy Howard 评论｜合同修订说明｜隐私/合规讨论

##### ChatGPT 卸载量“激增 295%”：数据点本身可能没那么吓人 多家媒体引用 TechCrunch 报告称，OpenAI 与五角大楼合作消息后，ChatGPT 手机 App 卸载量环比飙升 295%，社交网络上出现大量“取消 Plus 订阅”截图。但不少人指出：如果基数很小，这个百分比可能只是几千到几万量级的波动；对营收影响要看长期留存，而不是一天的情绪。与此同时，Claude 下载被指同步上升。 > 相关链接：TechCrunch 引用的报道｜Singularity 讨论串｜ChatGPT 子版讨论串

##### MCP 安全被点名“是一团糟”：五种易被利用的攻击模式 有开发者在 Medium 上系统梳理 MCP 集成里的安全坑，包括：工具描述被提示注入、文件系统/网络越权、第三方服务滥用等，列出 5 种几乎一试就中的攻击模式。文章的核心观点是：MCP 把“把一堆高权限 API 暴露给一个容易被骗的模型”，如果没有额外 sandbox 和策略，很难指望安全。 > 相关链接：@nainia_ayoub/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90" style="color: #6B7B5C;">MCP 安全长文

##### BASI 社区：从 MITRE ATLAS 到实际 Jailbreak 生意 BASI Jailbreaking Discord 同时在两头玩火：一边分享 MITRE ATLAS 这类正式 AI 红队框架，一边讨论如何设计“eni jailbreak”并靠卖越狱提示词赚钱，还有成员给出从 Safrole 合成 MDMA 的四步流程。对想认真做安全的人，这是一个既能学姿势又充满灰区内容的社区。 > 相关链接：MITRE ATLAS

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

📰 Easy AI日报 | 2026-03-04

📅 2026年03月04日 AI行业动态

🌟 智谱 GLM-5 已上线