## 📅 2026年03月11日 AI行业动态
#### **Agent 与工具链**
##### **Replit Agent 4:从写代码转向“知识工作 Agent”**
Replit 发布 Agent 4,不再只是“带点 AI 的在线 IDE”,而是做成协作画布式工作台,支持并行 Agent 帮你做应用、网站、幻灯片、视频等一整套知识工作。背后趋势就是:写代码的 Agent 已经基本可用,开始向更广泛的办公场景扩展。
> 相关链接:[Replit Agent 4 发布](https://twitter.com/replit/status/placeholder)
##### **Perplexity 推出本地+云混合的常驻 Agent『Personal Computer』**
Perplexity 发布 Personal Computer:跑在 Mac mini 上的“始终在线”Agent,能访问本地文件、应用和会话,并可远程控制;企业版 Computer 则编排 20 个专用模型和 400+ 应用,强调的是一层统一的 Agent 编排和监控,而不是单一聊天模型。
> 相关链接:[Personal Computer 发布](https://twitter.com/perplexity_ai/status/placeholder)|[企业版与 API 平台更新](https://www.perplexity.ai/enterprise)
##### **Base44 Superagents:面向非技术用户的“全家桶”工作 Agent**
Base44 发布 Superagents,主打“电池全配”,开箱就能连 Gmail、Slack、Stripe、CRM 等服务,帮不写代码的用户自动处理业务流程。更像是把一堆 SaaS 产品重新打包成可调度的 Agent 工作流。
> 相关链接:[Superagents 发布](https://twitter.com/base44_ai/status/placeholder)
##### **LangChain 为 Deep Agents 加上自动上下文压缩**
LangChain 给 Deep Agents 增加“自主压缩上下文”的能力:不再只按 token 数硬截断,而是在任务边界自动总结,减少长对话/长任务的上下文膨胀,对多步工具调用和长链路 Agent 稳定性更友好。
> 相关链接:[功能公告](https://twitter.com/langchainai/status/placeholder)
##### **OpenAI 分享 Agent“电脑访问”技术细节**
OpenAI 开发者团队发布关于 Agent 如何安全使用电脑的技术文档,涵盖执行循环、文件系统上下文、网络访问和防护措施。重点在于:怎么让 Agent 真正动手干活,同时又不乱删文件、乱发请求。
> 相关链接:[技术文档](https://platform.openai.com/docs/assistants/tools/computer-use)
---
#### **基础设施与硬件**
##### **NVIDIA 发布 Nemotron 3 Super:120B 参数、1M 上下文的高效开源模型**
Nemotron 3 Super 是 120B 参数、约 12B 激活的混合 Mamba-Transformer / SSM Latent MoE 模型,原生 100 万上下文,专门为 Agent 场景优化。官方公开权重、数据、训练配方和基础设施,宣称在 FP4 上推理比 GPT-OSS-120B 快最多 2.2 倍,并有更高吞吐和更省 KV Cache。
> 相关链接:[官方公告与技术线程](https://twitter.com/ctnzr/status/placeholder)|[技术分析](https://twitter.com/kuchaev/status/placeholder)|[Wired 报道](https://www.wired.com/story/nvidia-open-source-ai-models)
##### **M5 Max 128GB 本地跑 Qwen、gpt-oss 等大模型实测**
社区在 14" M5 Max 128GB 上用 mlx_lm 跑了多款大模型:如 Qwen3.5-122B-A10B-4bit 在 16K 上下文下提示吞吐约 1239 t/s、峰值显存 73.8GB;gpt-oss-120b-MXFP4-Q8 提示吞吐 2710 t/s、显存约 64.9GB,展示了高端本地设备跑 100B 量级模型的可行性和性能差异。
> 相关链接:[Reddit 基准贴](https://www.reddit.com/r/LocalLLaMA/comments/placeholder)
---
#### **模型与能力**
##### **Qwen3.5-35B-A3B Uncensored:大 MoE、多模态、几乎不拒答的 GGUF 版本**
社区发布 Qwen3.5-35B-A3B Aggressive GGUF,35B 总参数、约 3B 激活,256 专家、8+1 激活,支持文本/图像/视频输入和混合注意力。主打几乎零拒答,但也引发是否“无损能力”的质疑,有人建议用 KL 散度等指标验证,并担心长上下文质量衰减。
> 相关链接:[模型页](https://huggingface.co/placeholder)|[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/placeholder2)
##### **Fish Audio 发布 S2:支持 80+ 语言、可控情绪的 TTS 模型**
S2 支持用自然语言标签控制情绪,如“[whispers sweetly]”“[laughing nervously]”,一次生成多说话人对话,首音延迟约 100ms,声称在主观听感上超过 Google 和 OpenAI。模型和代码已放出,但商业使用需单独授权,严格来说不是完全开源。
> 相关链接:[S2 模型(Hugging Face)](https://huggingface.co/fishaudio/s2)|[GitHub 代码仓库](https://github.com/fishaudio/fish-speech)
##### **Google 推出 Gemini Embedding 2:多模态嵌入,但文本价格偏高**
Gemini Embedding 2 支持文本、图像、视频、音频、PDF,还有 Matryoshka 式嵌入方便降维存储。社区测算后认为:文本向量价格相对同类偏贵,更适合在必须多模态检索时使用;视频嵌入若不提前降帧,费用会飙升。
> 相关链接:[功能总结](https://twitter.com/osanseviero/status/placeholder)|[部署成本分析](https://twitter.com/neural_avb/status/placeholder)
##### **Qwen3.5 多模态架构拆解:混合注意力、MoE 与 MTP 成为标配**
社区对 Qwen3.5 多模态版做了结构解析:采用 Gated DeltaNet 线性注意力 + 全注意力混合设计,有 397B A17B MoE 版和 27B 稠密版,原生 262k 上下文可扩展到约 1M,并在训练中引入多 token 预测。该帖可看作当前注意力与 MoE 设计趋势的小综述。
> 相关链接:[架构解析线程](https://twitter.com/ZhihuFrontier/status/placeholder)
##### **Reka Edge:面向机器人和现实世界的视觉语言模型**
Reka 发布 Edge VLM,主打在物理 AI 场景中的图像/视频理解、目标检测和工具使用。官方称相比主流 8B 模型输入 token 少 3 倍、吞吐快 65%,更适合部署在对实时性和算力敏感的设备或系统上。
> 相关链接:[Reka Edge 发布](https://reka.ai/blog/reka-edge)
---
#### **研究与方法**
##### **PostTrainBench:评测 Agent 是否能给模型做“二次训练”的基准**
PostTrainBench v1.0 用来测试前沿 Agent 是否能在简化环境下给语言模型做后训练,核心针对“AI 自动做 AI 研究”能力。一个有意思的发现:在 GPT-5.1 Codex Max 上,中等推理强度反而比高强度更好,高强度多出的 token 会挤占上下文,拖累表现。
> 相关链接:[PostTrainBench 介绍](https://twitter.com/karinanguyen_/status/placeholder)
##### **EvoSkill:让 Agent 从失败中“进化”可复用技能**
EvoSkill 设计了执行器 / 提议者 / 技能构建三件套,从失败案例中自动总结可复用“技能模块”。在 OfficeQA 上,给 Claude Code + Opus 4.5 接入后,精确匹配率从 60.6% 提升到 67.9%,说明系统性技能复用对复杂任务有明显加成。
> 相关链接:[EvoSkill 论文](https://arxiv.org/abs/placeholder)
##### **AgentIR:把“推理过程”也一起做向量,提高检索命中率**
AgentIR 提出在检索时把 Agent 的推理轨迹和查询一起编码,做“推理感知”嵌入。在 BrowseComp-Plus 上准确率达 68%,相比更大的传统嵌入模型 52% 和 BM25 的 37% 有明显提升,说明融入思考过程能改善检索质量。
> 相关链接:[AgentIR 介绍](https://twitter.com/dair_ai/status/placeholder)
##### **Karpathy 的“自我改进 Swarm”:训练流程由 AI 自己调优 700 次**
Karpathy 搭的 agentic swarm 系统自动对训练流程提出 ~700 项修改,其中 20 项保留,使“训到 GPT-2 水平”的时间从 2.02 小时降到 1.80 小时,约提升 11%。整个闭环(试 → 衡量 → 思考 → 再试)基本由 AI 自己跑完,被视为通向“AI 做 AI 研究”的一个实打实案例。
> 相关链接:[项目 GitHub](https://github.com/karpathy/tinyllm)|[Reddit 讨论](https://www.reddit.com/r/MachineLearning/comments/placeholder)
##### **层块复制让 Qwen2-72B 登顶开源榜:架构可塑性的新证据**
一篇博客称:只在 Qwen2-72B 中复制一段 7 层的中间层(不改权重),在 Open LLM Leaderboard 上全线提升,并用 2×4090 就做到长期占榜首。实验还尝试“乱接层次”(如把 60 层输出接到 10 层),发现 Transformer 层之间比想象中可互换,给“层路由”“循环层”等新结构提供了思路。
> 相关链接:[研究博客](https://example.com/qwen-layer-dup-blog)
##### **GPT‑5.4 或首次解出 EpochAI Frontier Math 未解题**
有消息称 GPT‑5.4 解出 EpochAI Frontier Math 中一道人类数学家迟迟没解的开放问题。该题被描述为“有一定研究意义但非顶级难度”,Epoch 研究员初步认为解答正确,正等待出题者确认。如果最终坐实,意味着前沿模型开始能在真实科研问题上提供严肃贡献。
> 相关链接:[Reddit 讨论帖](https://www.reddit.com/r/MachineLearning/comments/placeholder2)
##### **Agent 可靠性被当成“安全问题”,而不只是对抗样本问题**
Princeton 团队在给 NIST 的回应中强调:很多 AI Agent 故障并非对抗攻击,而是纯粹“不靠谱”,需要单独定义、测量和减轻这种失败模式。配合社区对“怎么设计好评测”的关注,趋势是:大家越来越把“测和调 Agent”当成第一等工程问题。
> 相关链接:[Princeton 对 NIST 的意见](https://randomwalker.info/files/princeton-nist-ai-agents.pdf)
---
#### **产品与应用落地**
##### **Google 医疗 AI 实测:发现 25% 漏检乳腺癌,临床对话系统也通过试点**
Google 报告两个医疗部署案例:一套影像系统能发现约 25% 传统筛查漏掉的间隔乳腺癌;对话式临床推理系统 AMIE 在真实环境中被认为安全、可行,且患者接受度不错。说明在严格场景下,大模型医疗应用开始从实验室走向实际测试。
> 相关链接:[乳腺癌筛查研究](https://health.google/intl/en/research/breast-cancer-ai)|[AMIE 临床研究](https://research.google/blog/amie-conversational-clinical-reasoning)
##### **本地 LLM 社区爆发:LocalLLaMA 子版块突破 100 万人**
LocalLLaMA 子版块在不到一年时间里涨到 100 万订阅者,集中讨论本地可部署模型、量化、推理优化等话题。社区经历过管理动荡但仍快速扩张,说明“在自己设备上跑 AI”这件事正在从极客圈走向更大规模的爱好者和开发者群体。
> 相关链接:[1M 里程碑帖子](https://www.reddit.com/r/LocalLLaMA/comments/placeholder3)
---
#### **行业与公司动态**
##### **Replit 估值 6 个月涨到 90 亿美元,全面转型生产力平台**
Replit 在过去 6 个月估值涨到约 90 亿美元,从“在线写代码 + 一点 AI”转成集画布、应用、网站、幻灯片、视频于一体的生产力套件。方向和 Claude Cowork、Notion 自定义 Agent 等类似:抓住写代码 Agent 成熟后的“知识工作重构”机会。
> 相关链接:[相关分析](https://www.latent.space/p/replit-agent-4)
##### **Anthropic 成立 Anthropic Institute,把“公共利益”当成正式业务线**
Anthropic 新设 The Anthropic Institute,由前政策负责人 Jack Clark 领衔,职责横跨机器学习、经济学和社会科学,目标是系统地影响公众对强大 AI 的讨论和治理框架。相当于把“公共利益、外部沟通和研究”做成一个正式研究院。
> 相关链接:[官方公告](https://www.anthropic.com/news/the-anthropic-institute)|[Jack Clark 角色变动说明](https://jack-clark.net/anthropic-institute-role)
##### **Yann LeCun 创立 AMI Labs:拿下 10.3 亿美元,专攻世界模型**
LeCun 与 Alexandre LeBrun 等人创办 Advanced Machine Intelligence(AMI Labs),首轮融资 10.3 亿美元,计划用 JEPA 等架构做“世界模型”,关注物理世界和常识,而非只学文本。团队有多位大牛,靠 NVIDIA、三星、Bezos 等出资,短期不指望产品营收,代码和论文将开源。
> 相关链接:[TechCrunch 报道](https://techcrunch.com/2026/03/ami-labs-yann-lecun-1b)
---
#### **政策、治理与安全**
##### **Anthropic 被指已出现早期“递归自我改进”,安全节奏引发争议**
根据 TIME 报道和社区解读,Anthropic 内部已有 70–90% 面向未来模型的代码由 Claude 编写,模型迭代周期从几个月压缩到几周,有研究者认为一年内可能实现高度自动化的 AI 研究。Claude 3.7 Sonnet 因安全问题推迟 10 天上线,引发“该不该为安全减速”的争论,也让“AI 自己造 AI”的风险和测试需求更受关注。
> 相关链接:[TIME 报道摘要讨论](https://www.reddit.com/r/ClaudeAI/comments/placeholder)
##### **Claude Code 登录故障被视作“智能断电”的预演**
一次 Claude Code 登录/认证故障让大量开发者无法正常工作,有人调侃“硅谷生产力掉了 90%”。Karpathy 等人把这次事故类比为未来“智能断电”:当整个研发流程严重依赖前沿模型时,服务中断本身就是基础设施级风险。
> 相关链接:[Karpathy 推文](https://twitter.com/karpathy/status/placeholder2)|[开发者吐槽](https://twitter.com/Yuchenj_UW/status/placeholder)
---
---
📌 **来源**: Easy AI 日报
#EasyAI #AI日报 #AI教学
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!