## 📅 2026年03月04日 AI行业动态
#### **模型与能力**
##### **Google 推出 Gemini 3.1 Flash‑Lite:更快、更贵的高吞吐端点**
Gemini 3.1 Flash‑Lite 预览版上线,被定位为 Gemini 3 系列里延迟最低、吞吐最高的多模态模型,1M 上下文,实测 360+ token/s、平均约 5.1 秒出答案。Jeff Dean 报价约 $0.25/百万输入、$1.5/百万输出,在 LMArena Elo 1432,但相对 2.5 Flash‑Lite 单价提高约 2.5–3.75 倍,引发“性能提升值不值价格”的讨论。
> 相关链接:[DeepMind 发布线程](https://x.com/GoogleDeepMind/status/2028872381477929185)|[Google API 说明](https://x.com/Google/status/2028872509601333594)|[Jeff Dean 细节与价格](https://x.com/JeffDean/status/2028876962580816143)|[Arena 排名](https://arena.ai/leaderboard)|[第三方性能与价格分析](https://x.com/ArtificialAnlys/status/2028882198456352852)|[Reddit 成本吐槽贴](https://www.reddit.com/r/Bard/comments/1rjtfa3/gemini_31_flash_lite/)
##### **OpenAI 上线 GPT‑5.3 Instant,并预告 GPT‑5.4**
GPT‑5.3 Instant 推送到全部 ChatGPT 用户,号称更自然、更少“说教”,减少无必要拒答,在有搜索时幻觉率降 26.8%、无搜索降 19.7%。API 中出现 gpt‑5.3‑chat‑latest,并已进 Arena 对比。官方同时放出“5.4 sooner than you Think”的预告,社区认为 5.4 可能很快上线,也被解读为转移 DoD/NSA 合同风波注意力。
> 相关链接:[GPT‑5.3 Instant 公告](https://openai.com/index/gpt-5-3-instant/)|[OpenAI 推文](https://x.com/OpenAI/status/2028893701427302559)|[内部指标补充](https://x.com/aidan_mclau/status/2028894122959159434)|[GPT‑5.3 API 出现](https://x.com/scaling01/status/2028906108291616773)|[GPT‑5.4 预告推文](https://x.com/OpenAI/status/2028909019977703752)
##### **阿里 Qwen 3.5:小模型、本地部署与推理体验**
Qwen 3.5 系列在 Reddit 上讨论火爆:0.8B 小模型带视觉编码器,可在浏览器 WebGPU、本地手机等低算力设备跑通;27B/35B 版本在推理、研究任务和长上下文上表现接近更大模型,线性注意力架构提升效率。在老手机上 0.8B 也能跑到约 12 token/s,本地助手场景可用,但社区仍提醒有明显幻觉风险。
> 相关链接:[Qwen 3.5 世代对比讨论](https://www.reddit.com/r/LocalLLaMA/comments/1rjd4pv/qwen_25_3_35_smallest_models_incredible/)|[Qwen 3.5 vs 3 基准图表](https://www.reddit.com/r/LocalLLaMA/comments/1rivckt/visualizing_all_qwen_35_vs_qwen_3_benchmarks/)|[0.8B 浏览器 WebGPU Demo](https://www.reddit.com/r/LocalLLaMA/comments/1rizodv/running_qwen_35_08b_locally_in_the_browser_on/)
##### **苹果发布 M5 Pro / M5 Max:号称 LLM 提示处理最高快 4 倍**
苹果发布 M5 Pro 与 M5 Max,主打本地 AI 能力:M5 Pro 支持 64GB 统一内存、307GB/s 带宽,M5 Max 支持 128GB、614GB/s,并宣称 LLM 提示处理最高比 M4 Pro/Max 快 4 倍。SSD 吞吐升到 14.5GB/s,集成 N1 芯片支持 Wi‑Fi 7,社区期待其在 Mac Studio / 本地大模型上的实际表现。
> 相关链接:[LocalLLaMA 讨论帖](https://www.reddit.com/r/LocalLLaMA/comments/1rjqsv6/apple_unveils_m5_pro_and_m5_max_citing_up_to_4/)
---
#### **基础设施与硬件**
##### **长上下文训练和显存优化:Together、Databricks、SkyPilot 新方案**
Together 提出结合 Context Parallel + 序列并行的注意力分块方案,在 8×H100 单机上训练 5M 上下文 8B 模型,注意力显存最高降 87%。Databricks 开源 FlashOptim,可将 AdamW 显存开销从约 16 字节/参数降到 7 字节,并将 8B 微调峰值显存从 175GiB 降到 113GiB。SkyPilot 推出 Job Groups,把 RL 训练拆给高端 GPU、便宜 GPU 和大内存 CPU 协同调度。
> 相关链接:[Together 长上下文技术](https://x.com/rronak_/status/2028718679123497007)|[FlashOptim 介绍](https://x.com/davisblalock/status/2028943987349045610)|[Mosaic 实测数据](https://x.com/DbrxMosaicAI/status/2028977216940589383)|[SkyPilot RL 基础设施](https://x.com/skypilot_org/status/2028878888211013907)
##### **NVIDIA Blackwell 架构拆两条线:数据中心 vs 消费级**
社区注意到 Blackwell 架构被拆成数据中心 CC 10.0 和消费级 CC 12.0 两条线,一些新特性只在 sm_100a / sm_100f 上可用,存在前向兼容性问题。对底层 CUDA/内核开发者意味着需要按 GPU 家族区分编译和优化策略,未来多代卡混用会更复杂。
> 相关链接:[NVIDIA 官方说明](https://developer.nvidia.com/blog/nvidia-blackwell-and-nvidia-cuda-12-9-introduce-family-specific-architecture-features/)
##### **ByteDance CUDA Agent 与 RL 写核:自动内核生成开始实用化**
ByteDance 发布 CUDA Agent,可自动生成高性能 CUDA kernel,据论文与推文称在中小 kernel 上比 torch.compile 快 2 倍,在复杂基准上也大幅领先主流 LLM。GPU MODE 里也讨论了一款学术 RL‑CUDA agent,性能类似,但依赖大规模 GPU 池和进程隔离,真实工程成本仍不低。
> 相关链接:[ByteDance CUDA Agent 官网](https://cuda-agent.github.io)|[官方推文](https://x.com/BoWang87/status/2028599174992949508)|[RL Agent 论文](https://arxiv.org/abs/2602.24286)
##### **专用推理芯片与 Apple ANE:推理基础设施价值抬升**
讨论集中在两类硬件:Taalas HC1 这类硬接 Llama‑3.1‑8B 的专用芯片,可做到约 1.7 万 token/s,但只能跑固定模型;以及苹果 M4/M5 上的 Neural Engine,有实测 Llama2 110M 在 M4 ANE 上能比 A100 高 80 倍能效。配合分析预测 2030 年推理基础设施市场可达 2550 亿美金,长期价值或高于训练。
> 相关链接:[Taalas 芯片论文](https://arxiv.org/abs/2412.18511)|[M4 ANE 性能实测](https://github.com/maderix/ANE)|[推理市场规模讨论](https://xcancel.com/meggmcnulty/status/2028532451992314199)
---
#### **Agent 与工具链**
##### **MCP 命不久矣?实际生态却在加速扩张**
一边有人在 Twitter 上喊 “MCP 已死”,另一边 Notion 已接入 MCP/API,支持 Meeting Notes,一行命令即可在 Claude Code 使用;Cursor 则上线 MCP Apps,让 Agent 在对话里渲染交互式 UI。与此同时,有安全研究指出 MCP 整体安全模型比较混乱,列举了 5 类容易被攻击的模式,提醒开发者谨慎设计。
> 相关链接:[Notion MCP 集成](https://x.com/zachtratar/status/2028881783551570209)|[Cursor MCP Apps 发布](https://x.com/cursor_ai/status/2028953584407085546)|[MCP 安全风险分析](https://medium.com/<span class="mention-invalid">@nainia_ayoub</span>/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90)
##### **ShadowClaw:单一 C 可执行体的极简本地 Agent**
ShadowClaw 在多个社区被安利:用 C 写成的单文件 Agent,通过 curl 调用本地 LLM(如 Ollama),内置执行 shell、读写文件、HTTP GET、简单算式,并自动持久化状态。不依赖大型框架,适合作为“能干活但可控”的本地个人 Agent 基线。
> 相关链接:[ShadowClaw 仓库](https://github.com/webxos/webxos/tree/main/shadowclaw)
##### **RLM(Recursive Language Modeling):Agent 范式之争**
DSPy 等社区密集讨论 RLM:给模型一个 REPL 环境,让它自己写代码再调用,而不是我们预先写好工具函数。支持者认为这比传统 ReAct/工具调用更灵活,也更接近“模型自己编程”;反对者担心可控性、调试和安全。大家正在准备线下 Meetup,系统比较 RLM 与 ReAct 的利弊和适用场景。
> 相关链接:[RLM 讨论帖 1](https://x.com/nfcampos/status/2028576281793630372)|[RLM 讨论帖 2](https://x.com/RLanceMartin/status/2027450018513490419)
##### **Perplexity Computer、Cursor 云 Agent:安全沙箱里的“用电脑”**
Perplexity 的 Computer 和 Cursor 的云 Agent 都走同一路线:在隔离 VM / 安全沙箱里运行代理,代用户操作浏览器、终端、IDE,最后产出 PR 或文档。优点是不需要用户管理 API key 和本地环境,缺点是调试透明度与成本。Perplexity 强调“我们帮你管理一堆模型和权限”,Cursor 则更偏工程产能。
> 相关链接:[Perplexity Computer 介绍](https://x.com/AskPerplexity/status/2028893546447814895)|[Cursor 云 Agent 介绍](https://x.com/dl_weekly/status/2028844128729973060)
---
#### **研究与方法**
##### **长上下文评测与 Agent 基准:现在的 Benchmark 不像真实工作**
一组新工作指出当前 Agent 基准严重偏向数学/编程,与真实劳动力结构不匹配,有人称之为“真实工作的核心问题”。Arena 推出 Document Arena,直接用 PDF 文档做推理对战,目前 Claude Opus 4.6 在该榜单领先。整体趋势是从玩具任务转向贴近业务文档和工作流的评测。
> 相关链接:[基准与真实工作分布数据库](https://x.com/ZhiruoW/status/2028847081507488011)|[Emollick 评论](https://x.com/emollick/status/2028870529906622677)|[Document Arena 介绍](https://arena.ai/leaderboard/document)
##### **多 Agent 共识与 Theory of Mind:规模越大越爱“卡死”**
Byzantine 共识实验表明,LLM 组成的多 Agent 系统即便没有恶意节点,也很难稳定达成一致,常见失败原因是超时和僵持,且随参与者增多更严重。另一组将 ToM/BDI + 形式验证接入 Agent,发现 ToM 模块并不是万能的,收益高度依赖底层模型本身能力。
> 相关链接:[Byzantine 共识实验](https://x.com/omarsar0/status/2028823724196343923)|[ToM + BDI 工作](https://x.com/omarsar0/status/2028913061260935331)
##### **谱范数缩放与 muP:为什么“调好参数化”能让网络学特征**
Eleuther 社区讨论一篇 2023 年论文:通过按 √(fan‑out/fan‑in) 缩放权重矩阵的谱范数和更新,可以从理论上解释何时网络会从“只做核方法”变成真正的特征学习。该推导给出 maximal update parametrization(muP)的直观解释,并和 Modula 等近期工作关联起来。
> 相关链接:[谱范数与 muP 论文](https://arxiv.org/abs/2310.17813)|[Modula 相关工作](https://arxiv.org/abs/2405.14813)
##### **SAE 解剖文生图扩散模型:构图早期就定型**
新论文用稀疏自编码器(SAE)分析主流文本生成图像的扩散模型,在激活中发现大量可解释概念。结果显示:在反向扩散早期就能大致预测图像构图,中期主要决定风格,最后阶段只微调纹理细节;还展示了在不同阶段对构图/风格做有针对性的干预。
> 相关链接:[SAE + Diffusion 论文](https://arxiv.org/abs/2504.15473)
---
#### **产品与应用落地**
##### **Claude & Claude Code 暴涨:语音模式上线、流量超预期**
Anthropic 表示 Claude 与 Claude Code 本周流量远超预期,正在紧急扩容,也被不少人视为 OpenAI DoD 合同风波的受益者。有用户统计称 Claude 在美国企业市场份额从少数跃升为第一。Claude Code 也开始灰度“语音模式”,支持按住空格说话,语音内容直接流入光标位置,不额外计费。
> 相关链接:[流量暴涨说明](https://www.reddit.com/r/ClaudeAI/comments/1rjyp7d/claude_and_claude_code_traffic_grew_faster_than/)|[语音模式介绍](https://x.com/i/status/2028628570692890800)|[市场份额讨论](https://x.com/Yuchenj_UW/status/2028974344710606905)
##### **Cursor、Viktor 等“AI 同事”:从 IDE 到 Slack 的端到端工作流**
Cursor 一方面在自家 IDE 里改版布局、支持 Zen 模式和云 Agent(已支持 Android WebApp),另一方面也被用来从零构建 Slack 里的“AI 同事” Viktor,可做营销审计、投放管理和线索研究,集成 3000+ SaaS,并用持久记忆适应公司上下文。说明很多 Agent 产品开始真正嵌入团队工作流,而不只是聊天机器人。
> 相关链接:[Cursor 云 Agent](https://cursor.sh)|[Viktor 产品页](https://www.producthunt.com/products/viktor)
##### **本地 LLM 体验:LM Studio、OpenClaw、Manus 等工具链进展**
LM Studio 修复了 LM Link 多设备发现问题,重开等候名单,并在讨论 Vulkan 多卡均衡、Topaz NeuroStream 等本地推理 trick。OpenClaw 社区开放了全部社区规则与团队架构,出现 Instagram、WhatsApp 等频道适配,以及基于 OpenClaw 的视频剪辑和自动化交易案例。Manus.im 则更多在回答“如何省信用点”和结构化需求文档驱动开发的实践。
> 相关链接:[LM Studio 公告](https://discord.com/channels/1110598183144399058/1111797717639901324/1478188955164872925)|[OpenClaw 社区文档](https://github.com/openclaw/community)|[Manus 优化用量文档](https://help.manus.im/en/articles/12087847-how-to-optimize-my-credit-usage)
##### **语音转写 easytranscriber:比 WhisperX 快三到一倍**
KBLab 在 Hugging Face 推出 easytranscriber,主打自动语音识别+准确时间戳,接口类似 WhisperX,但实测快 35%–102%(视硬件而定),还支持直接用 HF 模型作后端。对需要大批量长音频转录的团队,这是个更省时的开源选项。
> 相关链接:[easytranscriber 博文](https://huggingface.co/blog/KBLab/easytranscriber)
---
#### **行业与公司动态**
##### **阿里 Qwen 团队高层大撤退:开源节奏前景成疑**
Qwen 技术负责人 Justin Lin 等多名关键成员宣布离职,外界称是阿里云“换帅”,有说法是被更“指标导向”的人接手。社区担心:Qwen 作为开源小模型与多模态基础设施,如果开源/许可证策略收紧,将对整个开源生态造成冲击。不过 Qwen 3.5 训练脚本、LoRA 指南、Int4 GPTQ 等仍在继续发布,呈现“产品猛冲、领导出走”的割裂状态。
> 相关链接:[Justin Lin 告别帖](https://x.com/JustinLin610/status/2028865835373359513)|[后续离职确认](https://x.com/huybery/status/2028976346416988612)|[研究者对 Qwen 重要性的评价](https://x.com/natolambert/status/2028893211759124890)
##### **OpenAI 高层跳槽 Anthropic:后训练负责人加入竞争对手**
OpenAI 负责 RLHF/后训练的 VP Max Schwarzer 宣布离职,加入 Anthropic 做一线 RL 研究,被不少人视为 Anthropic 在人才上的重大胜利。Max 参与过 GPT‑5 系列多个版本,这次跳槽强化了“顶级人才在大模型公司之间流动”的趋势,也加剧外界对 OpenAI 内部稳定性的猜测。
> 相关链接:[Max Schwarzer 宣布离职与去向](https://x.com/max_a_schwarzer/status/2028939154944585989)|[社区评论](https://x.com/kimmonismus/status/2028952074063331421)
##### **Anthropic 与五角大楼/Palantir 的博弈**
报道称美国国防部曾威胁把 Anthropic 列为“供应链风险”,影响 Palantir 等在政府项目中使用其模型。Anthropic 希望在大规模监控、自治武器等用途上加防火墙,这与部分军方需求有张力。事件凸显:前沿模型供应商与军工/政府客户之间的条款博弈会越来越常见。
> 相关链接:[相关报道串](https://x.com/srimuppidi/status/2028943303581024412)|[媒体报道链接](https://x.com/aaronpholmes/status/2028942999548297464)
---
#### **政策、治理与安全**
##### **OpenAI 与美国国防部/NSA 合同引发信任危机**
媒体披露 OpenAI 与美 DoD/NSA 合作后,引发隐私与监控担忧。多位学者要求公开合同原文,认为“偶然收集”之类措辞历史上曾被用于无令状监控。Sam Altman 随后发内部信称已修改条款,禁止用于针对美国公民的国内监控,并声称情报机构需额外协议才能使用。很多人仍呼吁独立法律审查,而不是“相信我们”。
> 相关链接:[Jeremy Howard 评论](https://x.com/jeremyphoward/status/2028805970214912125)|[合同修订说明](https://x.com/sama/status/2028640354912923739)|[隐私/合规讨论](https://x.com/sjgadler/status/2028899096283758732)
##### **ChatGPT 卸载量“激增 295%”:数据点本身可能没那么吓人**
多家媒体引用 TechCrunch 报告称,OpenAI 与五角大楼合作消息后,ChatGPT 手机 App 卸载量环比飙升 295%,社交网络上出现大量“取消 Plus 订阅”截图。但不少人指出:如果基数很小,这个百分比可能只是几千到几万量级的波动;对营收影响要看长期留存,而不是一天的情绪。与此同时,Claude 下载被指同步上升。
> 相关链接:[TechCrunch 引用的报道](https://techputs.com/chatgpt-uninstalls-surge-295-percent-dod-deal/)|[Singularity 讨论串](https://www.reddit.com/r/singularity/comments/1rjc5to/damnnnn/)|[ChatGPT 子版讨论串](https://www.reddit.com/r/ChatGPT/comments/1rjfipu/chatgpt_uninstalls_surge_295_after_openais_dod/)
##### **MCP 安全被点名“是一团糟”:五种易被利用的攻击模式**
有开发者在 Medium 上系统梳理 MCP 集成里的安全坑,包括:工具描述被提示注入、文件系统/网络越权、第三方服务滥用等,列出 5 种几乎一试就中的攻击模式。文章的核心观点是:MCP 把“把一堆高权限 API 暴露给一个容易被骗的模型”,如果没有额外 sandbox 和策略,很难指望安全。
> 相关链接:[MCP 安全长文](https://medium.com/<span class="mention-invalid">@nainia_ayoub</span>/mcp-security-is-a-mess-5-ways-i-broke-my-own-ai-agent-76379a46ca90)
##### **BASI 社区:从 MITRE ATLAS 到实际 Jailbreak 生意**
BASI Jailbreaking Discord 同时在两头玩火:一边分享 MITRE ATLAS 这类正式 AI 红队框架,一边讨论如何设计“eni jailbreak”并靠卖越狱提示词赚钱,还有成员给出从 Safrole 合成 MDMA 的四步流程。对想认真做安全的人,这是一个既能学姿势又充满灰区内容的社区。
> 相关链接:[MITRE ATLAS](https://atlas.mitre.org/matrices/ATLAS)
---
---
📌 **来源**: Easy AI 日报
#EasyAI #AI日报 #AI教学
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!