📰 Easy AI日报 | 2026-03-11

📅 2026年03月11日 AI行业动态

#### Agent 与工具链 ##### Replit Agent 4：从写代码转向“知识工作 Agent” Replit 发布 Agent 4，不再只是“带点 AI 的在线 IDE”，而是做成协作画布式工作台，支持并行 Agent 帮你做应用、网站、幻灯片、视频等一整套知识工作。背后趋势就是：写代码的 Agent 已经基本可用，开始向更广泛的办公场景扩展。 > 相关链接：Replit Agent 4 发布

##### Perplexity 推出本地+云混合的常驻 Agent『Personal Computer』 Perplexity 发布 Personal Computer：跑在 Mac mini 上的“始终在线”Agent，能访问本地文件、应用和会话，并可远程控制；企业版 Computer 则编排 20 个专用模型和 400+ 应用，强调的是一层统一的 Agent 编排和监控，而不是单一聊天模型。 > 相关链接：Personal Computer 发布｜企业版与 API 平台更新

##### Base44 Superagents：面向非技术用户的“全家桶”工作 Agent Base44 发布 Superagents，主打“电池全配”，开箱就能连 Gmail、Slack、Stripe、CRM 等服务，帮不写代码的用户自动处理业务流程。更像是把一堆 SaaS 产品重新打包成可调度的 Agent 工作流。 > 相关链接：Superagents 发布

##### LangChain 为 Deep Agents 加上自动上下文压缩 LangChain 给 Deep Agents 增加“自主压缩上下文”的能力：不再只按 token 数硬截断，而是在任务边界自动总结，减少长对话/长任务的上下文膨胀，对多步工具调用和长链路 Agent 稳定性更友好。 > 相关链接：功能公告

##### OpenAI 分享 Agent“电脑访问”技术细节 OpenAI 开发者团队发布关于 Agent 如何安全使用电脑的技术文档，涵盖执行循环、文件系统上下文、网络访问和防护措施。重点在于：怎么让 Agent 真正动手干活，同时又不乱删文件、乱发请求。 > 相关链接：技术文档

---

#### 基础设施与硬件 ##### NVIDIA 发布 Nemotron 3 Super：120B 参数、1M 上下文的高效开源模型 Nemotron 3 Super 是 120B 参数、约 12B 激活的混合 Mamba-Transformer / SSM Latent MoE 模型，原生 100 万上下文，专门为 Agent 场景优化。官方公开权重、数据、训练配方和基础设施，宣称在 FP4 上推理比 GPT-OSS-120B 快最多 2.2 倍，并有更高吞吐和更省 KV Cache。 > 相关链接：官方公告与技术线程｜技术分析｜Wired 报道

##### M5 Max 128GB 本地跑 Qwen、gpt-oss 等大模型实测 社区在 14" M5 Max 128GB 上用 mlx_lm 跑了多款大模型：如 Qwen3.5-122B-A10B-4bit 在 16K 上下文下提示吞吐约 1239 t/s、峰值显存 73.8GB；gpt-oss-120b-MXFP4-Q8 提示吞吐 2710 t/s、显存约 64.9GB，展示了高端本地设备跑 100B 量级模型的可行性和性能差异。 > 相关链接：Reddit 基准贴

---

#### 模型与能力 ##### Qwen3.5-35B-A3B Uncensored：大 MoE、多模态、几乎不拒答的 GGUF 版本 社区发布 Qwen3.5-35B-A3B Aggressive GGUF，35B 总参数、约 3B 激活，256 专家、8+1 激活，支持文本/图像/视频输入和混合注意力。主打几乎零拒答，但也引发是否“无损能力”的质疑，有人建议用 KL 散度等指标验证，并担心长上下文质量衰减。 > 相关链接：模型页｜Reddit 讨论

##### Fish Audio 发布 S2：支持 80+ 语言、可控情绪的 TTS 模型 S2 支持用自然语言标签控制情绪，如“[whispers sweetly]”“[laughing nervously]”，一次生成多说话人对话，首音延迟约 100ms，声称在主观听感上超过 Google 和 OpenAI。模型和代码已放出，但商业使用需单独授权，严格来说不是完全开源。 > 相关链接：S2 模型（Hugging Face）｜GitHub 代码仓库

##### Google 推出 Gemini Embedding 2：多模态嵌入，但文本价格偏高 Gemini Embedding 2 支持文本、图像、视频、音频、PDF，还有 Matryoshka 式嵌入方便降维存储。社区测算后认为：文本向量价格相对同类偏贵，更适合在必须多模态检索时使用；视频嵌入若不提前降帧，费用会飙升。 > 相关链接：功能总结｜部署成本分析

##### Qwen3.5 多模态架构拆解：混合注意力、MoE 与 MTP 成为标配 社区对 Qwen3.5 多模态版做了结构解析：采用 Gated DeltaNet 线性注意力 + 全注意力混合设计，有 397B A17B MoE 版和 27B 稠密版，原生 262k 上下文可扩展到约 1M，并在训练中引入多 token 预测。该帖可看作当前注意力与 MoE 设计趋势的小综述。 > 相关链接：架构解析线程

##### Reka Edge：面向机器人和现实世界的视觉语言模型 Reka 发布 Edge VLM，主打在物理 AI 场景中的图像/视频理解、目标检测和工具使用。官方称相比主流 8B 模型输入 token 少 3 倍、吞吐快 65%，更适合部署在对实时性和算力敏感的设备或系统上。 > 相关链接：Reka Edge 发布

---

#### 研究与方法 ##### PostTrainBench：评测 Agent 是否能给模型做“二次训练”的基准 PostTrainBench v1.0 用来测试前沿 Agent 是否能在简化环境下给语言模型做后训练，核心针对“AI 自动做 AI 研究”能力。一个有意思的发现：在 GPT-5.1 Codex Max 上，中等推理强度反而比高强度更好，高强度多出的 token 会挤占上下文，拖累表现。 > 相关链接：PostTrainBench 介绍

##### EvoSkill：让 Agent 从失败中“进化”可复用技能 EvoSkill 设计了执行器 / 提议者 / 技能构建三件套，从失败案例中自动总结可复用“技能模块”。在 OfficeQA 上，给 Claude Code + Opus 4.5 接入后，精确匹配率从 60.6% 提升到 67.9%，说明系统性技能复用对复杂任务有明显加成。 > 相关链接：EvoSkill 论文

##### AgentIR：把“推理过程”也一起做向量，提高检索命中率 AgentIR 提出在检索时把 Agent 的推理轨迹和查询一起编码，做“推理感知”嵌入。在 BrowseComp-Plus 上准确率达 68%，相比更大的传统嵌入模型 52% 和 BM25 的 37% 有明显提升，说明融入思考过程能改善检索质量。 > 相关链接：AgentIR 介绍

##### Karpathy 的“自我改进 Swarm”：训练流程由 AI 自己调优 700 次 Karpathy 搭的 agentic swarm 系统自动对训练流程提出 ~700 项修改，其中 20 项保留，使“训到 GPT-2 水平”的时间从 2.02 小时降到 1.80 小时，约提升 11%。整个闭环（试 → 衡量 → 思考 → 再试）基本由 AI 自己跑完，被视为通向“AI 做 AI 研究”的一个实打实案例。 > 相关链接：项目 GitHub｜Reddit 讨论

##### 层块复制让 Qwen2-72B 登顶开源榜：架构可塑性的新证据 一篇博客称：只在 Qwen2-72B 中复制一段 7 层的中间层（不改权重），在 Open LLM Leaderboard 上全线提升，并用 2×4090 就做到长期占榜首。实验还尝试“乱接层次”（如把 60 层输出接到 10 层），发现 Transformer 层之间比想象中可互换，给“层路由”“循环层”等新结构提供了思路。 > 相关链接：研究博客

##### GPT‑5.4 或首次解出 EpochAI Frontier Math 未解题 有消息称 GPT‑5.4 解出 EpochAI Frontier Math 中一道人类数学家迟迟没解的开放问题。该题被描述为“有一定研究意义但非顶级难度”，Epoch 研究员初步认为解答正确，正等待出题者确认。如果最终坐实，意味着前沿模型开始能在真实科研问题上提供严肃贡献。 > 相关链接：Reddit 讨论帖

##### Agent 可靠性被当成“安全问题”，而不只是对抗样本问题 Princeton 团队在给 NIST 的回应中强调：很多 AI Agent 故障并非对抗攻击，而是纯粹“不靠谱”，需要单独定义、测量和减轻这种失败模式。配合社区对“怎么设计好评测”的关注，趋势是：大家越来越把“测和调 Agent”当成第一等工程问题。 > 相关链接：Princeton 对 NIST 的意见

---

#### 产品与应用落地 ##### Google 医疗 AI 实测：发现 25% 漏检乳腺癌，临床对话系统也通过试点 Google 报告两个医疗部署案例：一套影像系统能发现约 25% 传统筛查漏掉的间隔乳腺癌；对话式临床推理系统 AMIE 在真实环境中被认为安全、可行，且患者接受度不错。说明在严格场景下，大模型医疗应用开始从实验室走向实际测试。 > 相关链接：乳腺癌筛查研究｜AMIE 临床研究

##### 本地 LLM 社区爆发：LocalLLaMA 子版块突破 100 万人 LocalLLaMA 子版块在不到一年时间里涨到 100 万订阅者，集中讨论本地可部署模型、量化、推理优化等话题。社区经历过管理动荡但仍快速扩张，说明“在自己设备上跑 AI”这件事正在从极客圈走向更大规模的爱好者和开发者群体。 > 相关链接：1M 里程碑帖子

---

#### 行业与公司动态 ##### Replit 估值 6 个月涨到 90 亿美元，全面转型生产力平台 Replit 在过去 6 个月估值涨到约 90 亿美元，从“在线写代码 + 一点 AI”转成集画布、应用、网站、幻灯片、视频于一体的生产力套件。方向和 Claude Cowork、Notion 自定义 Agent 等类似：抓住写代码 Agent 成熟后的“知识工作重构”机会。 > 相关链接：相关分析

##### Anthropic 成立 Anthropic Institute，把“公共利益”当成正式业务线 Anthropic 新设 The Anthropic Institute，由前政策负责人 Jack Clark 领衔，职责横跨机器学习、经济学和社会科学，目标是系统地影响公众对强大 AI 的讨论和治理框架。相当于把“公共利益、外部沟通和研究”做成一个正式研究院。 > 相关链接：官方公告｜Jack Clark 角色变动说明

##### Yann LeCun 创立 AMI Labs：拿下 10.3 亿美元，专攻世界模型 LeCun 与 Alexandre LeBrun 等人创办 Advanced Machine Intelligence（AMI Labs），首轮融资 10.3 亿美元，计划用 JEPA 等架构做“世界模型”，关注物理世界和常识，而非只学文本。团队有多位大牛，靠 NVIDIA、三星、Bezos 等出资，短期不指望产品营收，代码和论文将开源。 > 相关链接：TechCrunch 报道

---

#### 政策、治理与安全 ##### Anthropic 被指已出现早期“递归自我改进”，安全节奏引发争议 根据 TIME 报道和社区解读，Anthropic 内部已有 70–90% 面向未来模型的代码由 Claude 编写，模型迭代周期从几个月压缩到几周，有研究者认为一年内可能实现高度自动化的 AI 研究。Claude 3.7 Sonnet 因安全问题推迟 10 天上线，引发“该不该为安全减速”的争论，也让“AI 自己造 AI”的风险和测试需求更受关注。 > 相关链接：TIME 报道摘要讨论

##### Claude Code 登录故障被视作“智能断电”的预演 一次 Claude Code 登录/认证故障让大量开发者无法正常工作，有人调侃“硅谷生产力掉了 90%”。Karpathy 等人把这次事故类比为未来“智能断电”：当整个研发流程严重依赖前沿模型时，服务中断本身就是基础设施级风险。 > 相关链接：Karpathy 推文｜开发者吐槽

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学