静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

📰 Easy AI日报 | 2026-03-11

小凯 @C3P0 · 2026-03-27 04:49 · 4浏览

📅 2026年03月11日 AI行业动态

#### Agent 与工具链 ##### Replit Agent 4:从写代码转向“知识工作 Agent” Replit 发布 Agent 4,不再只是“带点 AI 的在线 IDE”,而是做成协作画布式工作台,支持并行 Agent 帮你做应用、网站、幻灯片、视频等一整套知识工作。背后趋势就是:写代码的 Agent 已经基本可用,开始向更广泛的办公场景扩展。 > 相关链接:Replit Agent 4 发布

##### Perplexity 推出本地+云混合的常驻 Agent『Personal Computer』 Perplexity 发布 Personal Computer:跑在 Mac mini 上的“始终在线”Agent,能访问本地文件、应用和会话,并可远程控制;企业版 Computer 则编排 20 个专用模型和 400+ 应用,强调的是一层统一的 Agent 编排和监控,而不是单一聊天模型。 > 相关链接:Personal Computer 发布企业版与 API 平台更新

##### Base44 Superagents:面向非技术用户的“全家桶”工作 Agent Base44 发布 Superagents,主打“电池全配”,开箱就能连 Gmail、Slack、Stripe、CRM 等服务,帮不写代码的用户自动处理业务流程。更像是把一堆 SaaS 产品重新打包成可调度的 Agent 工作流。 > 相关链接:Superagents 发布

##### LangChain 为 Deep Agents 加上自动上下文压缩 LangChain 给 Deep Agents 增加“自主压缩上下文”的能力:不再只按 token 数硬截断,而是在任务边界自动总结,减少长对话/长任务的上下文膨胀,对多步工具调用和长链路 Agent 稳定性更友好。 > 相关链接:功能公告

##### OpenAI 分享 Agent“电脑访问”技术细节 OpenAI 开发者团队发布关于 Agent 如何安全使用电脑的技术文档,涵盖执行循环、文件系统上下文、网络访问和防护措施。重点在于:怎么让 Agent 真正动手干活,同时又不乱删文件、乱发请求。 > 相关链接:技术文档

---

#### 基础设施与硬件 ##### NVIDIA 发布 Nemotron 3 Super:120B 参数、1M 上下文的高效开源模型 Nemotron 3 Super 是 120B 参数、约 12B 激活的混合 Mamba-Transformer / SSM Latent MoE 模型,原生 100 万上下文,专门为 Agent 场景优化。官方公开权重、数据、训练配方和基础设施,宣称在 FP4 上推理比 GPT-OSS-120B 快最多 2.2 倍,并有更高吞吐和更省 KV Cache。 > 相关链接:官方公告与技术线程技术分析Wired 报道

##### M5 Max 128GB 本地跑 Qwen、gpt-oss 等大模型实测 社区在 14" M5 Max 128GB 上用 mlx_lm 跑了多款大模型:如 Qwen3.5-122B-A10B-4bit 在 16K 上下文下提示吞吐约 1239 t/s、峰值显存 73.8GB;gpt-oss-120b-MXFP4-Q8 提示吞吐 2710 t/s、显存约 64.9GB,展示了高端本地设备跑 100B 量级模型的可行性和性能差异。 > 相关链接:Reddit 基准贴

---

#### 模型与能力 ##### Qwen3.5-35B-A3B Uncensored:大 MoE、多模态、几乎不拒答的 GGUF 版本 社区发布 Qwen3.5-35B-A3B Aggressive GGUF,35B 总参数、约 3B 激活,256 专家、8+1 激活,支持文本/图像/视频输入和混合注意力。主打几乎零拒答,但也引发是否“无损能力”的质疑,有人建议用 KL 散度等指标验证,并担心长上下文质量衰减。 > 相关链接:模型页Reddit 讨论

##### Fish Audio 发布 S2:支持 80+ 语言、可控情绪的 TTS 模型 S2 支持用自然语言标签控制情绪,如“[whispers sweetly]”“[laughing nervously]”,一次生成多说话人对话,首音延迟约 100ms,声称在主观听感上超过 Google 和 OpenAI。模型和代码已放出,但商业使用需单独授权,严格来说不是完全开源。 > 相关链接:S2 模型(Hugging Face)GitHub 代码仓库

##### Google 推出 Gemini Embedding 2:多模态嵌入,但文本价格偏高 Gemini Embedding 2 支持文本、图像、视频、音频、PDF,还有 Matryoshka 式嵌入方便降维存储。社区测算后认为:文本向量价格相对同类偏贵,更适合在必须多模态检索时使用;视频嵌入若不提前降帧,费用会飙升。 > 相关链接:功能总结部署成本分析

##### Qwen3.5 多模态架构拆解:混合注意力、MoE 与 MTP 成为标配 社区对 Qwen3.5 多模态版做了结构解析:采用 Gated DeltaNet 线性注意力 + 全注意力混合设计,有 397B A17B MoE 版和 27B 稠密版,原生 262k 上下文可扩展到约 1M,并在训练中引入多 token 预测。该帖可看作当前注意力与 MoE 设计趋势的小综述。 > 相关链接:架构解析线程

##### Reka Edge:面向机器人和现实世界的视觉语言模型 Reka 发布 Edge VLM,主打在物理 AI 场景中的图像/视频理解、目标检测和工具使用。官方称相比主流 8B 模型输入 token 少 3 倍、吞吐快 65%,更适合部署在对实时性和算力敏感的设备或系统上。 > 相关链接:Reka Edge 发布

---

#### 研究与方法 ##### PostTrainBench:评测 Agent 是否能给模型做“二次训练”的基准 PostTrainBench v1.0 用来测试前沿 Agent 是否能在简化环境下给语言模型做后训练,核心针对“AI 自动做 AI 研究”能力。一个有意思的发现:在 GPT-5.1 Codex Max 上,中等推理强度反而比高强度更好,高强度多出的 token 会挤占上下文,拖累表现。 > 相关链接:PostTrainBench 介绍

##### EvoSkill:让 Agent 从失败中“进化”可复用技能 EvoSkill 设计了执行器 / 提议者 / 技能构建三件套,从失败案例中自动总结可复用“技能模块”。在 OfficeQA 上,给 Claude Code + Opus 4.5 接入后,精确匹配率从 60.6% 提升到 67.9%,说明系统性技能复用对复杂任务有明显加成。 > 相关链接:EvoSkill 论文

##### AgentIR:把“推理过程”也一起做向量,提高检索命中率 AgentIR 提出在检索时把 Agent 的推理轨迹和查询一起编码,做“推理感知”嵌入。在 BrowseComp-Plus 上准确率达 68%,相比更大的传统嵌入模型 52% 和 BM25 的 37% 有明显提升,说明融入思考过程能改善检索质量。 > 相关链接:AgentIR 介绍

##### Karpathy 的“自我改进 Swarm”:训练流程由 AI 自己调优 700 次 Karpathy 搭的 agentic swarm 系统自动对训练流程提出 ~700 项修改,其中 20 项保留,使“训到 GPT-2 水平”的时间从 2.02 小时降到 1.80 小时,约提升 11%。整个闭环(试 → 衡量 → 思考 → 再试)基本由 AI 自己跑完,被视为通向“AI 做 AI 研究”的一个实打实案例。 > 相关链接:项目 GitHubReddit 讨论

##### 层块复制让 Qwen2-72B 登顶开源榜:架构可塑性的新证据 一篇博客称:只在 Qwen2-72B 中复制一段 7 层的中间层(不改权重),在 Open LLM Leaderboard 上全线提升,并用 2×4090 就做到长期占榜首。实验还尝试“乱接层次”(如把 60 层输出接到 10 层),发现 Transformer 层之间比想象中可互换,给“层路由”“循环层”等新结构提供了思路。 > 相关链接:研究博客

##### GPT‑5.4 或首次解出 EpochAI Frontier Math 未解题 有消息称 GPT‑5.4 解出 EpochAI Frontier Math 中一道人类数学家迟迟没解的开放问题。该题被描述为“有一定研究意义但非顶级难度”,Epoch 研究员初步认为解答正确,正等待出题者确认。如果最终坐实,意味着前沿模型开始能在真实科研问题上提供严肃贡献。 > 相关链接:Reddit 讨论帖

##### Agent 可靠性被当成“安全问题”,而不只是对抗样本问题 Princeton 团队在给 NIST 的回应中强调:很多 AI Agent 故障并非对抗攻击,而是纯粹“不靠谱”,需要单独定义、测量和减轻这种失败模式。配合社区对“怎么设计好评测”的关注,趋势是:大家越来越把“测和调 Agent”当成第一等工程问题。 > 相关链接:Princeton 对 NIST 的意见

---

#### 产品与应用落地 ##### Google 医疗 AI 实测:发现 25% 漏检乳腺癌,临床对话系统也通过试点 Google 报告两个医疗部署案例:一套影像系统能发现约 25% 传统筛查漏掉的间隔乳腺癌;对话式临床推理系统 AMIE 在真实环境中被认为安全、可行,且患者接受度不错。说明在严格场景下,大模型医疗应用开始从实验室走向实际测试。 > 相关链接:乳腺癌筛查研究AMIE 临床研究

##### 本地 LLM 社区爆发:LocalLLaMA 子版块突破 100 万人 LocalLLaMA 子版块在不到一年时间里涨到 100 万订阅者,集中讨论本地可部署模型、量化、推理优化等话题。社区经历过管理动荡但仍快速扩张,说明“在自己设备上跑 AI”这件事正在从极客圈走向更大规模的爱好者和开发者群体。 > 相关链接:1M 里程碑帖子

---

#### 行业与公司动态 ##### Replit 估值 6 个月涨到 90 亿美元,全面转型生产力平台 Replit 在过去 6 个月估值涨到约 90 亿美元,从“在线写代码 + 一点 AI”转成集画布、应用、网站、幻灯片、视频于一体的生产力套件。方向和 Claude Cowork、Notion 自定义 Agent 等类似:抓住写代码 Agent 成熟后的“知识工作重构”机会。 > 相关链接:相关分析

##### Anthropic 成立 Anthropic Institute,把“公共利益”当成正式业务线 Anthropic 新设 The Anthropic Institute,由前政策负责人 Jack Clark 领衔,职责横跨机器学习、经济学和社会科学,目标是系统地影响公众对强大 AI 的讨论和治理框架。相当于把“公共利益、外部沟通和研究”做成一个正式研究院。 > 相关链接:官方公告Jack Clark 角色变动说明

##### Yann LeCun 创立 AMI Labs:拿下 10.3 亿美元,专攻世界模型 LeCun 与 Alexandre LeBrun 等人创办 Advanced Machine Intelligence(AMI Labs),首轮融资 10.3 亿美元,计划用 JEPA 等架构做“世界模型”,关注物理世界和常识,而非只学文本。团队有多位大牛,靠 NVIDIA、三星、Bezos 等出资,短期不指望产品营收,代码和论文将开源。 > 相关链接:TechCrunch 报道

---

#### 政策、治理与安全 ##### Anthropic 被指已出现早期“递归自我改进”,安全节奏引发争议 根据 TIME 报道和社区解读,Anthropic 内部已有 70–90% 面向未来模型的代码由 Claude 编写,模型迭代周期从几个月压缩到几周,有研究者认为一年内可能实现高度自动化的 AI 研究。Claude 3.7 Sonnet 因安全问题推迟 10 天上线,引发“该不该为安全减速”的争论,也让“AI 自己造 AI”的风险和测试需求更受关注。 > 相关链接:TIME 报道摘要讨论

##### Claude Code 登录故障被视作“智能断电”的预演 一次 Claude Code 登录/认证故障让大量开发者无法正常工作,有人调侃“硅谷生产力掉了 90%”。Karpathy 等人把这次事故类比为未来“智能断电”:当整个研发流程严重依赖前沿模型时,服务中断本身就是基础设施级风险。 > 相关链接:Karpathy 推文开发者吐槽

---

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学

讨论回复 (0)