📅 2026年03月04日 AI行业动态
#### 模型与能力 ##### Google 推出 Gemini 3.1 Flash‑Lite:更快、更贵的高吞吐端点 Gemini 3.1 Flash‑Lite 预览版上线,被定位为 Gemini 3 系列里延迟最低、吞吐最高的多模态模型,1M 上下文,实测 360+ token/s、平均约 5.1 秒出答案。Jeff Dean 报价约 $0.25/百万输入、$1.5/百万输出,在 LMArena Elo 1432,但相对 2.5 Flash‑Lite 单价提高约 2.5–3.75 倍,引发“性能提升值不值价格”的讨论。 > 相关链接:DeepMind 发布线程|Google API 说明|Jeff Dean 细节与价格|Arena 排名|第三方性能与价格分析|Reddit 成本吐槽贴
##### OpenAI 上线 GPT‑5.3 Instant,并预告 GPT‑5.4 GPT‑5.3 Instant 推送到全部 ChatGPT 用户,号称更自然、更少“说教”,减少无必要拒答,在有搜索时幻觉率降 26.8%、无搜索降 19.7%。API 中出现 gpt‑5.3‑chat‑latest,并已进 Arena 对比。官方同时放出“5.4 sooner than you Think”的预告,社区认为 5.4 可能很快上线,也被解读为转移 DoD/NSA 合同风波注意力。 > 相关链接:GPT‑5.3 Instant 公告|OpenAI 推文|内部指标补充|GPT‑5.3 API 出现|GPT‑5.4 预告推文
##### 阿里 Qwen 3.5:小模型、本地部署与推理体验 Qwen 3.5 系列在 Reddit 上讨论火爆:0.8B 小模型带视觉编码器,可在浏览器 WebGPU、本地手机等低算力设备跑通;27B/35B 版本在推理、研究任务和长上下文上表现接近更大模型,线性注意力架构提升效率。在老手机上 0.8B 也能跑到约 12 token/s,本地助手场景可用,但社区仍提醒有明显幻觉风险。 > 相关链接:Qwen 3.5 世代对比讨论|Qwen 3.5 vs 3 基准图表|0.8B 浏览器 WebGPU Demo
##### 苹果发布 M5 Pro / M5 Max:号称 LLM 提示处理最高快 4 倍 苹果发布 M5 Pro 与 M5 Max,主打本地 AI 能力:M5 Pro 支持 64GB 统一内存、307GB/s 带宽,M5 Max 支持 128GB、614GB/s,并宣称 LLM 提示处理最高比 M4 Pro/Max 快 4 倍。SSD 吞吐升到 14.5GB/s,集成 N1 芯片支持 Wi‑Fi 7,社区期待其在 Mac Studio / 本地大模型上的实际表现。 > 相关链接:LocalLLaMA 讨论帖
---
#### 基础设施与硬件 ##### 长上下文训练和显存优化:Together、Databricks、SkyPilot 新方案 Together 提出结合 Context Parallel + 序列并行的注意力分块方案,在 8×H100 单机上训练 5M 上下文 8B 模型,注意力显存最高降 87%。Databricks 开源 FlashOptim,可将 AdamW 显存开销从约 16 字节/参数降到 7 字节,并将 8B 微调峰值显存从 175GiB 降到 113GiB。SkyPilot 推出 Job Groups,把 RL 训练拆给高端 GPU、便宜 GPU 和大内存 CPU 协同调度。 > 相关链接:Together 长上下文技术|FlashOptim 介绍|Mosaic 实测数据|SkyPilot RL 基础设施
##### NVIDIA Blackwell 架构拆两条线:数据中心 vs 消费级 社区注意到 Blackwell 架构被拆成数据中心 CC 10.0 和消费级 CC 12.0 两条线,一些新特性只在 sm_100a / sm_100f 上可用,存在前向兼容性问题。对底层 CUDA/内核开发者意味着需要按 GPU 家族区分编译和优化策略,未来多代卡混用会更复杂。 > 相关链接:NVIDIA 官方说明
##### ByteDance CUDA Agent 与 RL 写核:自动内核生成开始实用化 ByteDance 发布 CUDA Agent,可自动生成高性能 CUDA kernel,据论文与推文称在中小 kernel 上比 torch.compile 快 2 倍,在复杂基准上也大幅领先主流 LLM。GPU MODE 里也讨论了一款学术 RL‑CUDA agent,性能类似,但依赖大规模 GPU 池和进程隔离,真实工程成本仍不低。 > 相关链接:ByteDance CUDA Agent 官网|官方推文|RL Agent 论文
##### 专用推理芯片与 Apple ANE:推理基础设施价值抬升 讨论集中在两类硬件:Taalas HC1 这类硬接 Llama‑3.1‑8B 的专用芯片,可做到约 1.7 万 token/s,但只能跑固定模型;以及苹果 M4/M5 上的 Neural Engine,有实测 Llama2 110M 在 M4 ANE 上能比 A100 高 80 倍能效。配合分析预测 2030 年推理基础设施市场可达 2550 亿美金,长期价值或高于训练。 > 相关链接:Taalas 芯片论文|M4 ANE 性能实测|推理市场规模讨论
---
#### Agent 与工具链 ##### MCP 命不久矣?实际生态却在加速扩张 一边有人在 Twitter 上喊 “MCP 已死”,另一边 Notion 已接入 MCP/API,支持 Meeting Notes,一行命令即可在 Claude Code 使用;Cursor 则上线 MCP Apps,让 Agent 在对话里渲染交互式 UI。与此同时,有安全研究指出 MCP 整体安全模型比较混乱,列举了 5 类容易被攻击的模式,提醒开发者谨慎设计。 > 相关链接:Notion MCP 集成|Cursor MCP Apps 发布|@nainia_ayoub/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90" style="color: #6B7B5C;">MCP 安全风险分析
##### ShadowClaw:单一 C 可执行体的极简本地 Agent ShadowClaw 在多个社区被安利:用 C 写成的单文件 Agent,通过 curl 调用本地 LLM(如 Ollama),内置执行 shell、读写文件、HTTP GET、简单算式,并自动持久化状态。不依赖大型框架,适合作为“能干活但可控”的本地个人 Agent 基线。 > 相关链接:ShadowClaw 仓库
##### RLM(Recursive Language Modeling):Agent 范式之争 DSPy 等社区密集讨论 RLM:给模型一个 REPL 环境,让它自己写代码再调用,而不是我们预先写好工具函数。支持者认为这比传统 ReAct/工具调用更灵活,也更接近“模型自己编程”;反对者担心可控性、调试和安全。大家正在准备线下 Meetup,系统比较 RLM 与 ReAct 的利弊和适用场景。 > 相关链接:RLM 讨论帖 1|RLM 讨论帖 2
##### Perplexity Computer、Cursor 云 Agent:安全沙箱里的“用电脑” Perplexity 的 Computer 和 Cursor 的云 Agent 都走同一路线:在隔离 VM / 安全沙箱里运行代理,代用户操作浏览器、终端、IDE,最后产出 PR 或文档。优点是不需要用户管理 API key 和本地环境,缺点是调试透明度与成本。Perplexity 强调“我们帮你管理一堆模型和权限”,Cursor 则更偏工程产能。 > 相关链接:Perplexity Computer 介绍|Cursor 云 Agent 介绍
---
#### 研究与方法 ##### 长上下文评测与 Agent 基准:现在的 Benchmark 不像真实工作 一组新工作指出当前 Agent 基准严重偏向数学/编程,与真实劳动力结构不匹配,有人称之为“真实工作的核心问题”。Arena 推出 Document Arena,直接用 PDF 文档做推理对战,目前 Claude Opus 4.6 在该榜单领先。整体趋势是从玩具任务转向贴近业务文档和工作流的评测。 > 相关链接:基准与真实工作分布数据库|Emollick 评论|Document Arena 介绍
##### 多 Agent 共识与 Theory of Mind:规模越大越爱“卡死” Byzantine 共识实验表明,LLM 组成的多 Agent 系统即便没有恶意节点,也很难稳定达成一致,常见失败原因是超时和僵持,且随参与者增多更严重。另一组将 ToM/BDI + 形式验证接入 Agent,发现 ToM 模块并不是万能的,收益高度依赖底层模型本身能力。 > 相关链接:Byzantine 共识实验|ToM + BDI 工作
##### 谱范数缩放与 muP:为什么“调好参数化”能让网络学特征 Eleuther 社区讨论一篇 2023 年论文:通过按 √(fan‑out/fan‑in) 缩放权重矩阵的谱范数和更新,可以从理论上解释何时网络会从“只做核方法”变成真正的特征学习。该推导给出 maximal update parametrization(muP)的直观解释,并和 Modula 等近期工作关联起来。 > 相关链接:谱范数与 muP 论文|Modula 相关工作
##### SAE 解剖文生图扩散模型:构图早期就定型 新论文用稀疏自编码器(SAE)分析主流文本生成图像的扩散模型,在激活中发现大量可解释概念。结果显示:在反向扩散早期就能大致预测图像构图,中期主要决定风格,最后阶段只微调纹理细节;还展示了在不同阶段对构图/风格做有针对性的干预。 > 相关链接:SAE + Diffusion 论文
---
#### 产品与应用落地 ##### Claude & Claude Code 暴涨:语音模式上线、流量超预期 Anthropic 表示 Claude 与 Claude Code 本周流量远超预期,正在紧急扩容,也被不少人视为 OpenAI DoD 合同风波的受益者。有用户统计称 Claude 在美国企业市场份额从少数跃升为第一。Claude Code 也开始灰度“语音模式”,支持按住空格说话,语音内容直接流入光标位置,不额外计费。 > 相关链接:流量暴涨说明|语音模式介绍|市场份额讨论
##### Cursor、Viktor 等“AI 同事”:从 IDE 到 Slack 的端到端工作流 Cursor 一方面在自家 IDE 里改版布局、支持 Zen 模式和云 Agent(已支持 Android WebApp),另一方面也被用来从零构建 Slack 里的“AI 同事” Viktor,可做营销审计、投放管理和线索研究,集成 3000+ SaaS,并用持久记忆适应公司上下文。说明很多 Agent 产品开始真正嵌入团队工作流,而不只是聊天机器人。 > 相关链接:Cursor 云 Agent|Viktor 产品页
##### 本地 LLM 体验:LM Studio、OpenClaw、Manus 等工具链进展 LM Studio 修复了 LM Link 多设备发现问题,重开等候名单,并在讨论 Vulkan 多卡均衡、Topaz NeuroStream 等本地推理 trick。OpenClaw 社区开放了全部社区规则与团队架构,出现 Instagram、WhatsApp 等频道适配,以及基于 OpenClaw 的视频剪辑和自动化交易案例。Manus.im 则更多在回答“如何省信用点”和结构化需求文档驱动开发的实践。 > 相关链接:LM Studio 公告|OpenClaw 社区文档|Manus 优化用量文档
##### 语音转写 easytranscriber:比 WhisperX 快三到一倍 KBLab 在 Hugging Face 推出 easytranscriber,主打自动语音识别+准确时间戳,接口类似 WhisperX,但实测快 35%–102%(视硬件而定),还支持直接用 HF 模型作后端。对需要大批量长音频转录的团队,这是个更省时的开源选项。 > 相关链接:easytranscriber 博文
---
#### 行业与公司动态 ##### 阿里 Qwen 团队高层大撤退:开源节奏前景成疑 Qwen 技术负责人 Justin Lin 等多名关键成员宣布离职,外界称是阿里云“换帅”,有说法是被更“指标导向”的人接手。社区担心:Qwen 作为开源小模型与多模态基础设施,如果开源/许可证策略收紧,将对整个开源生态造成冲击。不过 Qwen 3.5 训练脚本、LoRA 指南、Int4 GPTQ 等仍在继续发布,呈现“产品猛冲、领导出走”的割裂状态。 > 相关链接:Justin Lin 告别帖|后续离职确认|研究者对 Qwen 重要性的评价
##### OpenAI 高层跳槽 Anthropic:后训练负责人加入竞争对手 OpenAI 负责 RLHF/后训练的 VP Max Schwarzer 宣布离职,加入 Anthropic 做一线 RL 研究,被不少人视为 Anthropic 在人才上的重大胜利。Max 参与过 GPT‑5 系列多个版本,这次跳槽强化了“顶级人才在大模型公司之间流动”的趋势,也加剧外界对 OpenAI 内部稳定性的猜测。 > 相关链接:Max Schwarzer 宣布离职与去向|社区评论
##### Anthropic 与五角大楼/Palantir 的博弈 报道称美国国防部曾威胁把 Anthropic 列为“供应链风险”,影响 Palantir 等在政府项目中使用其模型。Anthropic 希望在大规模监控、自治武器等用途上加防火墙,这与部分军方需求有张力。事件凸显:前沿模型供应商与军工/政府客户之间的条款博弈会越来越常见。 > 相关链接:相关报道串|媒体报道链接
---
#### 政策、治理与安全 ##### OpenAI 与美国国防部/NSA 合同引发信任危机 媒体披露 OpenAI 与美 DoD/NSA 合作后,引发隐私与监控担忧。多位学者要求公开合同原文,认为“偶然收集”之类措辞历史上曾被用于无令状监控。Sam Altman 随后发内部信称已修改条款,禁止用于针对美国公民的国内监控,并声称情报机构需额外协议才能使用。很多人仍呼吁独立法律审查,而不是“相信我们”。 > 相关链接:Jeremy Howard 评论|合同修订说明|隐私/合规讨论
##### ChatGPT 卸载量“激增 295%”:数据点本身可能没那么吓人 多家媒体引用 TechCrunch 报告称,OpenAI 与五角大楼合作消息后,ChatGPT 手机 App 卸载量环比飙升 295%,社交网络上出现大量“取消 Plus 订阅”截图。但不少人指出:如果基数很小,这个百分比可能只是几千到几万量级的波动;对营收影响要看长期留存,而不是一天的情绪。与此同时,Claude 下载被指同步上升。 > 相关链接:TechCrunch 引用的报道|Singularity 讨论串|ChatGPT 子版讨论串
##### MCP 安全被点名“是一团糟”:五种易被利用的攻击模式 有开发者在 Medium 上系统梳理 MCP 集成里的安全坑,包括:工具描述被提示注入、文件系统/网络越权、第三方服务滥用等,列出 5 种几乎一试就中的攻击模式。文章的核心观点是:MCP 把“把一堆高权限 API 暴露给一个容易被骗的模型”,如果没有额外 sandbox 和策略,很难指望安全。 > 相关链接:@nainia_ayoub/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90" style="color: #6B7B5C;">MCP 安全长文
##### BASI 社区:从 MITRE ATLAS 到实际 Jailbreak 生意 BASI Jailbreaking Discord 同时在两头玩火:一边分享 MITRE ATLAS 这类正式 AI 红队框架,一边讨论如何设计“eni jailbreak”并靠卖越狱提示词赚钱,还有成员给出从 Safrole 合成 MDMA 的四步流程。对想认真做安全的人,这是一个既能学姿势又充满灰区内容的社区。 > 相关链接:MITRE ATLAS
---
---
📌 来源: Easy AI 日报
#EasyAI #AI日报 #AI教学