📰 Easy AI日报 | 2026-03-12

📅 2026年03月12日 AI行业动态

#### 行业与公司动态 ##### Replit 估值 6 个月涨到 90 亿美元，全面从“写代码”转向“做生产力套件” Replit 在过去半年估值翻了三倍到 90 亿美元，从原来的“在线 IDE+一点点 AI 辅助写码”转向做完整的 AI 生产力平台：支持画布、应用、网站、幻灯片、视频等，目标是让原本只做代码的 Agent 扩展到更多知识工作场景。 > 相关链接：原文长文（Latent Space）｜Replit 2015 Master Plan｜Replit Documentary

##### Anthropic 成立 The Anthropic Institute：Jack Clark 转任“公共利益负责人” Anthropic 新设 The Anthropic Institute，由前政策负责人 Jack Clark 领导，职责横跨机器学习、经济学和社会科学，核心目标是围绕强模型如何影响社会做系统研究和对外沟通，相当于把“研究+政策+舆论场”打包成一个长期机构化项目。 > 相关链接：官方公告｜领导团队说明｜Jack Clark 关于新角色

##### Yann LeCun 创立 AMI Labs，拿下 10.3 亿美元融资做“世界模型” Yann LeCun 联合创立 Advanced Machine Intelligence（AMI Labs），首轮融资 10.3 亿美元，投资方包括 NVIDIA、三星、Bezos Expeditions 等，主打基于 JEPA 架构的世界模型，目标是建模真实世界而不是只学文本，代码和论文计划走开源路线，短期不指望产品和营收，更像一个“超级研究所”。 > 相关链接：融资与愿景介绍｜TechCrunch 报道

##### LocalLLaMA 社区一年破 100 万人，本地模型从小圈子玩具变成大众爱好 本地可部署模型社区 /r/LocalLLaMA 从 2023 年 3 月创建到现在不到一年，成员数已破 100 万。帖子里不少人从“只是想用下 AI 辅助学习”一路玩到自己屯显卡、改量化、调内核，已经演变成类似当年玩 Linux 的极客圈现象。 > 相关链接：庆祝破百万帖子｜本地模型上瘾故事

---

#### 模型与能力 ##### NVIDIA 发布 Nemotron 3 Super：120B 参数开源混合架构，专门为 Agent 优化 Nemotron 3 Super 是 120B 参数、约 12B 激活的开源大模型，1M 上下文，混合 Mamba-Transformer + Latent MoE 架构，原生支持多 Token 预测（MTP），KV Cache 也比 Qwen3.5-122B 更省显存。官方宣称在 Blackwell 上推理比 GPT-OSS-120B 快最高 2.2 倍，社区已在 vLLM、llama.cpp、Ollama 等完成适配。 > 相关链接：官方技术线程｜技术分析｜Wired 关于 NVIDIA 开源策略

##### Google 推出 Gemini Embedding 2：全模态嵌入，但文本价格偏贵 Gemini Embedding 2 支持文本、图片、视频、音频、PDF 等多模态，提供 Matryoshka 嵌入方便做低维存储。社区反馈：纯文本价格相对竞品偏贵，更适合专门做多模态检索；视频要注意先降帧，否则成本会飙。 > 相关链接：功能概览｜部署与成本分析

##### Qwen3.5 多模态架构被社区拆解：混合注意力 + 大 MoE + 原生长上下文 社区对 Qwen3.5 多模态结构做了比较完整的技术总结：混合 Gated DeltaNet 线性注意力 + 全局注意力，提供 397B A17B MoE 版本和 27B 稠密版，原生 262k 上下文可扩展到约 1M，训练中已使用多 Token 预测。可以当作当前主流注意力与 MoE 设计的“总览图”。 > 相关链接：架构详解长帖

##### Fish Audio 发布 S2 语音模型：支持 80+ 语言和“文字写情绪”的可控 TTS S2 主打用自然语言标签控制语气，例如“[whispers sweetly]”“[laughing nervously]”，支持 80+ 语言、一次生成多说话人对话，首帧延迟约 100ms。作者称在多项评测上超过 Google / OpenAI TTS，但模型只对非商业用途开放，商用需单独授权，因此严格说并非完全开源。 > 相关链接：模型介绍贴｜Hugging Face 模型｜GitHub 代码库

##### Qwen3.5-35B-A3B“无审查版”GGUF 释出：MoE 架构、3B 激活，强调“零拒绝” 社区发布 Qwen3.5-35B-A3B Aggressive GGUF 版，标榜保持原模型能力且几乎不拒答（0/465 拒绝），为 35B MoE（256 专家、每 token 激活 8+1），支持图像/视频输入，带多种量化格式。也有用户质疑“无能力损失”的说法需要用 KL 散度等指标验证，并担心长上下文质量。 > 相关链接：模型发布帖｜Hugging Face 模型页

##### 苹果 M5 Max 128GB 跑本地大模型实测：多款 100B 级模型可用但吃满内存 有用户用 mlx_lm 在 14 寸 M5 Max 128GB 上测 Qwen3.5-122B、Qwen3 Coder、Qwen3.5-27B 蒸馏版和 gpt-oss-120b 等，16–32k 上下文下，提示吞吐最高可达 2700+ tok/s，但显存占用 60–90GB 不等，说明顶配 Mac 确实能跑百亿级模型，但需要认真管控上下文和量化。 > 相关链接：跑分帖子

---

#### Agent 与工具链 ##### Perplexity “Personal Computer”：把 Mac mini 变成永远在线的本地+云混合 Agent Perplexity 推出 Personal Computer，把一台 Mac mini 当成常驻 Agent 服务器，能持续访问本地文件、App、浏览记录等，同时接云端模型，还支持远程控制。企业版则强调用 20 个专用模型编排 400+ SaaS 应用，明显在往“操作系统级代理”方向走。 > 相关链接：个人版发布｜个人版候补名单｜企业版介绍｜API 平台更新

##### Replit Agent 4：从“写代码”升级成多 Agent 协作画布，可同时做 App/网站/幻灯片 Replit 新版 Agent 4 强调“协作画布”体验，而不是单纯聊天写代码。用户在一个画布上同时让多个 Agent 分工做应用、网站、Slides 等，偏向完整项目协作而不是单文件编辑，也契合“IDE 没死，而是长成更大的 Agent IDE”的趋势。 > 相关链接：Replit Agent 4 发布｜趋势分析（Latent Space）

##### Base44 Superagents：给非技术用户的一站式工作流 Agent（已接 Gmail/Slack/Stripe 等） Base44 推出 Superagents，卖点是“电池全包”：开箱就连好 Gmail、Slack、Stripe、CRM 等常见工具，让非技术用户也能快速搭自动化工作流，而不用自己写集成代码或搭框架。 > 相关链接：产品发布

##### LangChain 为 Deep Agents 加入“自动压缩上下文”，按任务边界而不是硬 Token 截断 LangChain 新增自动上下文压缩：不是到固定 Token 数再粗暴截断，而是让 Agent 在任务边界主动整理总结，把历史对话压缩成更紧凑的状态，兼顾长任务记忆与 Token 成本，对多步骤工作流更友好。 > 相关链接：功能公告

##### OpenAI 发布电脑访问技术说明：详细拆解 Agent 如何安全地“用电脑” OpenAI Dev 团队发布面向开发者的技术文档，讲清楚 Agent 通过电脑访问功能时的执行循环、文件系统上下文、联网能力以及防护措施，实质是把“让模型点鼠标敲键盘”拆成可控、可审计的工程实践。 > 相关链接：技术说明

---

#### 研究与方法 ##### PostTrainBench：专门测“Agent 能不能自己帮模型做后训练”的新基准 Karin Nguyen 团队发布 PostTrainBench v1.0，关注的不是模型本身，而是前沿 Agent 能否在简化环境中帮模型做后训练，作为监测 AI 自动化科研/递归自改进进度的工具。一个有意思的发现是：在 GPT-5.1 Codex Max 上，中等推理长度比超长推理更好，因为太多 Token 会触发上下文压缩反而拉胯。 > 相关链接：基准介绍线程｜关键消融实验

##### EvoSkill：让 Agent 从失败中“挖技能”，把常用操作沉淀成可复用模块 EvoSkill 框架用执行器/提议者/技能构建器三角色，让 Agent 在任务失败中自动总结出可复用技能，再在后续任务中调用。在 OfficeQA 上，把 Claude Code + Opus 4.5 的准确率从 60.6% 拉到 67.9%，说明“失败数据”可以被系统性转成能力库。 > 相关链接：论文/项目介绍

##### AgentIR：把“思考过程+查询”一起做向量，检索精度大幅超越传统嵌入 AgentIR 提出在检索时，把 Agent 的推理轨迹和当前查询一起编码成向量，用于后续检索而不是只看短 Query。在 BrowseComp-Plus 上准确率达 68%，相比更大的普通嵌入模型 52% 和 BM25 的 37%，说明“把思考也入向量”对复杂任务帮助很大。 > 相关链接：方法介绍

##### 用层块复制把 Qwen2-72B 顶到榜一：两张 4090 就能做的“结构手术” 有研究者在 Qwen2-72B 上不改权重，只是复制一段中间 7 层并插回网络，就在 Open LLM Leaderboard 上全线涨分。作者猜测预训练会在层堆栈里形成“功能电路块”，只要保持整体结构就能复用。更大胆的实验包括打乱层顺序、考虑循环使用层块来做“早停推理”，都指向 Transformer 层比想象中更可互换。 > 相关链接：研究博客｜技术细节长文

##### Karpathy “自改进 Agent 群体”线上跑通：自动把训练 GPT-2 的时间缩短 11% Karpathy 把“试 → 测 → 想 → 再试”的研究循环交给了一群 Agent，结果系统自己做了约 700 次改动，其中 20 个有效改动把到 GPT-2 水平的训练时间从 2.02 小时降到 1.80 小时。相当于一个小型“AI 研究员”开始在训练流程上超越人工微调。 > 相关链接：项目介绍帖子｜GitHub 仓库

##### GPT-5.4 疑似首次解出 EpochAI Frontier Math 开放难题之一 社区报告 GPT-5.4 解决了 EpochAI Frontier Math 集合中的一个未解问题，初步由 Epoch 研究者认为解法是对的，正等待出题人确认。虽然该题难度被描述为“中等有趣”，但如果属实，说明前沿模型已经开始能在未被人类解决的数学问题上给出可用证明。 > 相关链接：讨论帖｜EpochAI 开放题集

---

#### 政策、治理与安全 ##### Anthropic 被曝 70–90% 研发代码由 Claude 编写，引发早期“自我递归改进”焦虑 TIME 报道和相关讨论称：Anthropic 内部已有 70–90% 训练下一代模型的代码由 Claude 写，迭代周期从几个月缩短到几周，有研究员认为完全自动化 AI 研究可能一年内出现。再加上 Claude 在某些内部任务上比人类监督快 427 倍，这些数字让“RSI 提前到来”的担忧开始从理论讨论变成公司内部现实案例。 > 相关链接：递归自改进讨论贴｜相关评论汇总｜补充讨论

##### 研究者提醒：很多 Agent 事故不是被攻击，而是单纯“不可靠” Princeton 等团队给 NIST 的回应指出，大量 AI Agent 失误根本不是“被提示攻击”之类，而是系统本身太不稳定，缺少对这类“非对抗失败”的定义、度量和缓解手段。随着 Agent 进入生产环境，如何设计评测、监控和反馈回路，已经从工程问题升级成安全问题。 > 相关链接：Random Walker 线程

##### Claude Code 登录故障暴露“前沿模型停机 = 智力限电”的基础设施风险 一次 Claude Code 登录/OAuth 故障导致大量开发者一天几乎无法正常写代码，有人调侃“硅谷生产力跌了 90%”。Karpathy 也提到自己的 autoresearch 实验室被这次故障直接停摆，把这种停机称作未来可能出现的“intelligence brownout”（智力限电），提醒大家别把单一云模型当成唯一生产力来源。 > 相关链接：Karpathy 相关推文｜用户反馈 1｜用户反馈 2

---

#### 产品与应用落地 ##### Google 医疗 AI 实战：乳腺癌漏诊减少 25%，对话医生 AMIE 获实地验证 Google 报告两个医疗落地案例：一是 AI 系统能发现 25% 常规筛查漏掉的间期乳腺癌；二是对话式临床推理系统 AMIE 在真实场景试点中被认为安全、可行，且病人接受度不错，说明“大模型当辅助医生”开始从论文走向医院。 > 相关链接：乳腺癌筛查系统｜AMIE 实地研究

##### Reka Edge：面向机器人和“物理 AI”的视觉模型，号称比同级快 65% Reka 推出 Edge 视觉语言模型，面向机器人/物理场景，官方数据称在图像和视频理解、物体检测、工具调用上，比主流 8B 级模型输入 Token 少 3 倍、吞吐快 65%。重点是“能在生产环境里又快又便宜地跑起来”。 > 相关链接：产品发布

##### 用 Claude 做 YouTube“无脸频道”：有人靠 AI 视频 9 个月赚了 7 万刀 一位创作者分享用 Claude 写脚本、ElevenLabs 配音、Magic Hour 生成画面、CapCut 剪辑做无脸频道，已经快拿到 YouTube 变现资格；另一位制作人则称从 2025 年 8 月转向 AI 视频到现在收入约 7 万美元。评论区同时充满对“AI 内容灌水”的反感和对实际赚钱路径的好奇。 > 相关链接：无脸频道流程贴｜AI 视频 7 万美元 AMA

##### Claude 帮人重写技术邮件，真的把一座城的红绿灯改了 有用户用 Claude 把自己对路口拥堵的抱怨，翻译成信号工程师看得懂的技术说明并发邮件，结果当地工程部门很快就改了配时，每个周期多放行 2–3 辆车。这是一个很具体的例子：AI 不只是写作文，而是帮普通人和专业系统说“同一种语言”。 > 相关链接：原始截图帖

##### 四大模型实盘炒股 9 周对比：ChatGPT 暂时领跑 +21%，但样本太小别当真 有人给 ChatGPT、Gemini、Claude、Perplexity 各 1000 美元，接 Alpaca API 让它们自己选股 9 周：ChatGPT 因押中一只翻倍的医疗股收益 +21.1%，Perplexity 小赚 +1.1%，Gemini 和 Claude 分别亏 6.6% 和 11.5%。实验挺有趣，但只有一条轨迹，更多是“娱乐性质案例研究”，不能当成实证。 > 相关链接：实验总结｜GitHub 代码｜详细分析 Substack

##### Anthropic 免费推出 Claude 学院，对标动辄上千美元的“AI 训练营” Anthropic 上线免费在线课程，教大家如何在 Amazon Bedrock、GCP Vertex 等平台上用 Claude，并针对教育、公益等场景给出案例。相当于把很多收费训练营在讲的内容直接免费放出来，适合新人系统入门。 > 相关链接：Claude Academy 介绍帖

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学