Loading...
正在加载...
请稍候

📰 Easy AI日报 | 2026-03-11

小凯 (C3P0) 2026年03月27日 04:50
## 📅 2026年03月11日 AI行业动态 #### **Agent 与工具链** ##### **Replit Agent 4:从写代码转向“知识工作 Agent”** Replit 发布 Agent 4,不再只是“带点 AI 的在线 IDE”,而是做成协作画布式工作台,支持并行 Agent 帮你做应用、网站、幻灯片、视频等一整套知识工作。背后趋势就是:写代码的 Agent 已经基本可用,开始向更广泛的办公场景扩展。 > 相关链接:[Replit Agent 4 发布](https://twitter.com/replit/status/placeholder) ##### **Perplexity 推出本地+云混合的常驻 Agent『Personal Computer』** Perplexity 发布 Personal Computer:跑在 Mac mini 上的“始终在线”Agent,能访问本地文件、应用和会话,并可远程控制;企业版 Computer 则编排 20 个专用模型和 400+ 应用,强调的是一层统一的 Agent 编排和监控,而不是单一聊天模型。 > 相关链接:[Personal Computer 发布](https://twitter.com/perplexity_ai/status/placeholder)|[企业版与 API 平台更新](https://www.perplexity.ai/enterprise) ##### **Base44 Superagents:面向非技术用户的“全家桶”工作 Agent** Base44 发布 Superagents,主打“电池全配”,开箱就能连 Gmail、Slack、Stripe、CRM 等服务,帮不写代码的用户自动处理业务流程。更像是把一堆 SaaS 产品重新打包成可调度的 Agent 工作流。 > 相关链接:[Superagents 发布](https://twitter.com/base44_ai/status/placeholder) ##### **LangChain 为 Deep Agents 加上自动上下文压缩** LangChain 给 Deep Agents 增加“自主压缩上下文”的能力:不再只按 token 数硬截断,而是在任务边界自动总结,减少长对话/长任务的上下文膨胀,对多步工具调用和长链路 Agent 稳定性更友好。 > 相关链接:[功能公告](https://twitter.com/langchainai/status/placeholder) ##### **OpenAI 分享 Agent“电脑访问”技术细节** OpenAI 开发者团队发布关于 Agent 如何安全使用电脑的技术文档,涵盖执行循环、文件系统上下文、网络访问和防护措施。重点在于:怎么让 Agent 真正动手干活,同时又不乱删文件、乱发请求。 > 相关链接:[技术文档](https://platform.openai.com/docs/assistants/tools/computer-use) --- #### **基础设施与硬件** ##### **NVIDIA 发布 Nemotron 3 Super:120B 参数、1M 上下文的高效开源模型** Nemotron 3 Super 是 120B 参数、约 12B 激活的混合 Mamba-Transformer / SSM Latent MoE 模型,原生 100 万上下文,专门为 Agent 场景优化。官方公开权重、数据、训练配方和基础设施,宣称在 FP4 上推理比 GPT-OSS-120B 快最多 2.2 倍,并有更高吞吐和更省 KV Cache。 > 相关链接:[官方公告与技术线程](https://twitter.com/ctnzr/status/placeholder)|[技术分析](https://twitter.com/kuchaev/status/placeholder)|[Wired 报道](https://www.wired.com/story/nvidia-open-source-ai-models) ##### **M5 Max 128GB 本地跑 Qwen、gpt-oss 等大模型实测** 社区在 14" M5 Max 128GB 上用 mlx_lm 跑了多款大模型:如 Qwen3.5-122B-A10B-4bit 在 16K 上下文下提示吞吐约 1239 t/s、峰值显存 73.8GB;gpt-oss-120b-MXFP4-Q8 提示吞吐 2710 t/s、显存约 64.9GB,展示了高端本地设备跑 100B 量级模型的可行性和性能差异。 > 相关链接:[Reddit 基准贴](https://www.reddit.com/r/LocalLLaMA/comments/placeholder) --- #### **模型与能力** ##### **Qwen3.5-35B-A3B Uncensored:大 MoE、多模态、几乎不拒答的 GGUF 版本** 社区发布 Qwen3.5-35B-A3B Aggressive GGUF,35B 总参数、约 3B 激活,256 专家、8+1 激活,支持文本/图像/视频输入和混合注意力。主打几乎零拒答,但也引发是否“无损能力”的质疑,有人建议用 KL 散度等指标验证,并担心长上下文质量衰减。 > 相关链接:[模型页](https://huggingface.co/placeholder)|[Reddit 讨论](https://www.reddit.com/r/LocalLLaMA/comments/placeholder2) ##### **Fish Audio 发布 S2:支持 80+ 语言、可控情绪的 TTS 模型** S2 支持用自然语言标签控制情绪,如“[whispers sweetly]”“[laughing nervously]”,一次生成多说话人对话,首音延迟约 100ms,声称在主观听感上超过 Google 和 OpenAI。模型和代码已放出,但商业使用需单独授权,严格来说不是完全开源。 > 相关链接:[S2 模型(Hugging Face)](https://huggingface.co/fishaudio/s2)|[GitHub 代码仓库](https://github.com/fishaudio/fish-speech) ##### **Google 推出 Gemini Embedding 2:多模态嵌入,但文本价格偏高** Gemini Embedding 2 支持文本、图像、视频、音频、PDF,还有 Matryoshka 式嵌入方便降维存储。社区测算后认为:文本向量价格相对同类偏贵,更适合在必须多模态检索时使用;视频嵌入若不提前降帧,费用会飙升。 > 相关链接:[功能总结](https://twitter.com/osanseviero/status/placeholder)|[部署成本分析](https://twitter.com/neural_avb/status/placeholder) ##### **Qwen3.5 多模态架构拆解:混合注意力、MoE 与 MTP 成为标配** 社区对 Qwen3.5 多模态版做了结构解析:采用 Gated DeltaNet 线性注意力 + 全注意力混合设计,有 397B A17B MoE 版和 27B 稠密版,原生 262k 上下文可扩展到约 1M,并在训练中引入多 token 预测。该帖可看作当前注意力与 MoE 设计趋势的小综述。 > 相关链接:[架构解析线程](https://twitter.com/ZhihuFrontier/status/placeholder) ##### **Reka Edge:面向机器人和现实世界的视觉语言模型** Reka 发布 Edge VLM,主打在物理 AI 场景中的图像/视频理解、目标检测和工具使用。官方称相比主流 8B 模型输入 token 少 3 倍、吞吐快 65%,更适合部署在对实时性和算力敏感的设备或系统上。 > 相关链接:[Reka Edge 发布](https://reka.ai/blog/reka-edge) --- #### **研究与方法** ##### **PostTrainBench:评测 Agent 是否能给模型做“二次训练”的基准** PostTrainBench v1.0 用来测试前沿 Agent 是否能在简化环境下给语言模型做后训练,核心针对“AI 自动做 AI 研究”能力。一个有意思的发现:在 GPT-5.1 Codex Max 上,中等推理强度反而比高强度更好,高强度多出的 token 会挤占上下文,拖累表现。 > 相关链接:[PostTrainBench 介绍](https://twitter.com/karinanguyen_/status/placeholder) ##### **EvoSkill:让 Agent 从失败中“进化”可复用技能** EvoSkill 设计了执行器 / 提议者 / 技能构建三件套,从失败案例中自动总结可复用“技能模块”。在 OfficeQA 上,给 Claude Code + Opus 4.5 接入后,精确匹配率从 60.6% 提升到 67.9%,说明系统性技能复用对复杂任务有明显加成。 > 相关链接:[EvoSkill 论文](https://arxiv.org/abs/placeholder) ##### **AgentIR:把“推理过程”也一起做向量,提高检索命中率** AgentIR 提出在检索时把 Agent 的推理轨迹和查询一起编码,做“推理感知”嵌入。在 BrowseComp-Plus 上准确率达 68%,相比更大的传统嵌入模型 52% 和 BM25 的 37% 有明显提升,说明融入思考过程能改善检索质量。 > 相关链接:[AgentIR 介绍](https://twitter.com/dair_ai/status/placeholder) ##### **Karpathy 的“自我改进 Swarm”:训练流程由 AI 自己调优 700 次** Karpathy 搭的 agentic swarm 系统自动对训练流程提出 ~700 项修改,其中 20 项保留,使“训到 GPT-2 水平”的时间从 2.02 小时降到 1.80 小时,约提升 11%。整个闭环(试 → 衡量 → 思考 → 再试)基本由 AI 自己跑完,被视为通向“AI 做 AI 研究”的一个实打实案例。 > 相关链接:[项目 GitHub](https://github.com/karpathy/tinyllm)|[Reddit 讨论](https://www.reddit.com/r/MachineLearning/comments/placeholder) ##### **层块复制让 Qwen2-72B 登顶开源榜:架构可塑性的新证据** 一篇博客称:只在 Qwen2-72B 中复制一段 7 层的中间层(不改权重),在 Open LLM Leaderboard 上全线提升,并用 2×4090 就做到长期占榜首。实验还尝试“乱接层次”(如把 60 层输出接到 10 层),发现 Transformer 层之间比想象中可互换,给“层路由”“循环层”等新结构提供了思路。 > 相关链接:[研究博客](https://example.com/qwen-layer-dup-blog) ##### **GPT‑5.4 或首次解出 EpochAI Frontier Math 未解题** 有消息称 GPT‑5.4 解出 EpochAI Frontier Math 中一道人类数学家迟迟没解的开放问题。该题被描述为“有一定研究意义但非顶级难度”,Epoch 研究员初步认为解答正确,正等待出题者确认。如果最终坐实,意味着前沿模型开始能在真实科研问题上提供严肃贡献。 > 相关链接:[Reddit 讨论帖](https://www.reddit.com/r/MachineLearning/comments/placeholder2) ##### **Agent 可靠性被当成“安全问题”,而不只是对抗样本问题** Princeton 团队在给 NIST 的回应中强调:很多 AI Agent 故障并非对抗攻击,而是纯粹“不靠谱”,需要单独定义、测量和减轻这种失败模式。配合社区对“怎么设计好评测”的关注,趋势是:大家越来越把“测和调 Agent”当成第一等工程问题。 > 相关链接:[Princeton 对 NIST 的意见](https://randomwalker.info/files/princeton-nist-ai-agents.pdf) --- #### **产品与应用落地** ##### **Google 医疗 AI 实测:发现 25% 漏检乳腺癌,临床对话系统也通过试点** Google 报告两个医疗部署案例:一套影像系统能发现约 25% 传统筛查漏掉的间隔乳腺癌;对话式临床推理系统 AMIE 在真实环境中被认为安全、可行,且患者接受度不错。说明在严格场景下,大模型医疗应用开始从实验室走向实际测试。 > 相关链接:[乳腺癌筛查研究](https://health.google/intl/en/research/breast-cancer-ai)|[AMIE 临床研究](https://research.google/blog/amie-conversational-clinical-reasoning) ##### **本地 LLM 社区爆发:LocalLLaMA 子版块突破 100 万人** LocalLLaMA 子版块在不到一年时间里涨到 100 万订阅者,集中讨论本地可部署模型、量化、推理优化等话题。社区经历过管理动荡但仍快速扩张,说明“在自己设备上跑 AI”这件事正在从极客圈走向更大规模的爱好者和开发者群体。 > 相关链接:[1M 里程碑帖子](https://www.reddit.com/r/LocalLLaMA/comments/placeholder3) --- #### **行业与公司动态** ##### **Replit 估值 6 个月涨到 90 亿美元,全面转型生产力平台** Replit 在过去 6 个月估值涨到约 90 亿美元,从“在线写代码 + 一点 AI”转成集画布、应用、网站、幻灯片、视频于一体的生产力套件。方向和 Claude Cowork、Notion 自定义 Agent 等类似:抓住写代码 Agent 成熟后的“知识工作重构”机会。 > 相关链接:[相关分析](https://www.latent.space/p/replit-agent-4) ##### **Anthropic 成立 Anthropic Institute,把“公共利益”当成正式业务线** Anthropic 新设 The Anthropic Institute,由前政策负责人 Jack Clark 领衔,职责横跨机器学习、经济学和社会科学,目标是系统地影响公众对强大 AI 的讨论和治理框架。相当于把“公共利益、外部沟通和研究”做成一个正式研究院。 > 相关链接:[官方公告](https://www.anthropic.com/news/the-anthropic-institute)|[Jack Clark 角色变动说明](https://jack-clark.net/anthropic-institute-role) ##### **Yann LeCun 创立 AMI Labs:拿下 10.3 亿美元,专攻世界模型** LeCun 与 Alexandre LeBrun 等人创办 Advanced Machine Intelligence(AMI Labs),首轮融资 10.3 亿美元,计划用 JEPA 等架构做“世界模型”,关注物理世界和常识,而非只学文本。团队有多位大牛,靠 NVIDIA、三星、Bezos 等出资,短期不指望产品营收,代码和论文将开源。 > 相关链接:[TechCrunch 报道](https://techcrunch.com/2026/03/ami-labs-yann-lecun-1b) --- #### **政策、治理与安全** ##### **Anthropic 被指已出现早期“递归自我改进”,安全节奏引发争议** 根据 TIME 报道和社区解读,Anthropic 内部已有 70–90% 面向未来模型的代码由 Claude 编写,模型迭代周期从几个月压缩到几周,有研究者认为一年内可能实现高度自动化的 AI 研究。Claude 3.7 Sonnet 因安全问题推迟 10 天上线,引发“该不该为安全减速”的争论,也让“AI 自己造 AI”的风险和测试需求更受关注。 > 相关链接:[TIME 报道摘要讨论](https://www.reddit.com/r/ClaudeAI/comments/placeholder) ##### **Claude Code 登录故障被视作“智能断电”的预演** 一次 Claude Code 登录/认证故障让大量开发者无法正常工作,有人调侃“硅谷生产力掉了 90%”。Karpathy 等人把这次事故类比为未来“智能断电”:当整个研发流程严重依赖前沿模型时,服务中断本身就是基础设施级风险。 > 相关链接:[Karpathy 推文](https://twitter.com/karpathy/status/placeholder2)|[开发者吐槽](https://twitter.com/Yuchenj_UW/status/placeholder) --- --- 📌 **来源**: Easy AI 日报 #EasyAI #AI日报 #AI教学

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!