📰 Easy AI日报 | 2026-03-18

📅 2026年03月18日 AI行业动态

#### 产品与应用落地 ##### Anthropic 推出 Claude Cowork 远程控制（“Dispatch” 风格） Anthropic 给 Claude Cowork 上了真正的“远程控制”：可以直接在你电脑上动手，而不是只给指令。业内人士把它拿来和 OpenClaw 对比，认为是 Anthropic 在“电脑控制型 Agent”上的正式回应，瞄准的是实际办公和开发场景。 > 相关链接：功能发布｜社区讨论示例 1（Simon Willison）｜社区讨论示例 2（Ethan Mollick）

##### Perplexity 上线 Comet Enterprise：面向企业的 AI 浏览器 Perplexity 推出企业版 Comet，主打团队级 AI 搜索/问答，用管理员可控的发布节奏、审计能力配合现有安全体系。已与 CrowdStrike Falcon 集成，方便在安全合规严格的公司内部推广。 > 相关链接：Comet Enterprise 发布｜CrowdStrike 集成说明

##### Hugging Face 推出本地编码 Agent CLI 插件 Hugging Face 给 hf CLI 增加扩展，能自动根据你机器硬件选本地最合适的模型和量化方案，一键拉起本地代码助手。面向在乎隐私、又不想折腾模型选择和部署的开发者。 > 相关链接：hf CLI 扩展介绍

##### Ollama 增强 OpenClaw 工作流支持：搜索插件 + 无头运行 Ollama 新增 Web 搜索/抓取插件和 headless 启动方式，更方便把本地模型接入 OpenClaw 等自动化工作流；同时也出现在 CodexBar 这类统一模型入口工具中，本地+云模型混用更顺手。 > 相关链接：Ollama 更新｜CodexBar 集成

##### LTX 2.3 游戏风 LORA：多角色、多风格视频预演 社区有人用 440 段《Dispatch》游戏片段训练 LTX 2.3 LORA，塞进 6+ 角色和风格，用触发词区分人物。虽然画质不如 WAN，但非常适合游戏/影视前期预演，证明开源视频模型已经能做较复杂角色控制。 > 相关链接：LTX 2.3 LORA 训练帖｜musubi 训练 fork

##### OldNokia UltraReal LoRA：复刻 2MP 老手机相机质感 作者用自己诺基亚 E61i 照片集训了一个 LoRA，专门模拟 2000 年代手机相机味道：塑料镜头软焦、泛白色彩、JPEG 压缩和噪点等。适合做复古社交媒体、怀旧摄影风格的生成。 > 相关链接：Civitai 模型页｜Hugging Face 模型页

---

#### 模型与能力 ##### OpenAI 发布 GPT-5.4 mini / nano：小模型主打编码与子 Agent OpenAI 上线 GPT-5.4 mini/nano，API、ChatGPT、Codex 全面可用。mini 比 GPT-5 mini 快 2 倍，支持 40 万上下文，在 SWE-Bench Pro、OSWorld 等评测接近大模型，但只占 5.4 Codex 30% 配额，适合大规模子 Agent 和后台编码任务。不过价格抬高，且在防忽悠和“照单全收”测试上表现一般。 > 相关链接：OpenAI Devs 发布帖｜模型卡与定价｜nano 说明｜第三方 APEX Agents 测试｜BullshitBench 真实性测试

##### Mistral Small 4（119B MoE）正式亮相：开源多模态“中大杯” Mistral 发布 Small 4：119B 参数、128 专家、每 token 激活 6.5B，256k 上下文，支持图文输入，Apache 2.0 开源。主打推理+编码+多语言，用 MoE 压低推理成本，被拿来对比 Qwen3.5-122B 等同级模型。社区重点关心：工具调用是否比 Devstral 2 稳、长上下文是否真能用。 > 相关链接：官方页面｜发布博客｜Hugging Face 模型｜Mistral 4 家族讨论

##### Qwen3.5-9B 在文档 AI 上对标 GPT-5.4 等前沿模型 阿里 Qwen3.5-9B 在文档 AI 基准上拿到 77 分（第 9 名），在关键信息抽取、表格理解、OmniOCR 上表现很好，整体略低于 GPT-5.4 的 81 分。优势是 9B 等级就能跑大部分任务，适合轻量硬件做文档处理。 > 相关链接：基准结果与分析

##### NVIDIA Nemotron 3 Ultra Base（~500B）自称“最强开源基座” GTC 上曝光的 Nemotron 3 Ultra Base 约 500B 参数，宣称在 MMLU Pro、HumanEval、GSM8K 等指标上全面领先其他开源基座，并号称吞吐效率 5 倍。社区质疑：对比的 GLM、Kimi 型号没写清、图表从 60% 起步拉大差距，宣传水分不小。 > 相关链接：Nemotron 3 Ultra 演示截图讨论

##### Holotron-12B：面向电脑操作 Agent 的开源多模态模型 H Company 联手 NVIDIA 推出 Holotron-12B，多模态、专门为“电脑使用型” Agent 打造，适合看屏幕、点按钮、填表单这类任务。定位是给想自己搭“AI 远程操作电脑”的团队一个开源底座。 > 相关链接：Holotron-12B 发布

##### Qwen3.5-9B：能耗友好、长推理任务的平替选择 讨论指出，Qwen3.5-9B 在需要长时间推理的任务上，虽然算力慢点，但因为模型小，整体能耗比 Gemini、GPT 级大模型更友好。如果业务不卡延迟，这是个便宜又省电的方案。 > 相关链接：能效与表现讨论

---

#### Agent 与工具链 ##### LangChain 推出 LangSmith Sandboxes + 开源 Open SWE LangChain 发布 LangSmith Sandboxes，用于安全、一次性代码执行；同时开源工程 Agent 系统 Open SWE，参考 Stripe/Ramp/Coinbase 内部用法，支持 Slack/Linear/GitHub 集成、子 Agent、中间件、验证等。意味着“工程团队内部 Agent”开始有可落地模板，而不只是聊天助手。 > 相关链接：LangSmith Sandboxes｜Open SWE 开源｜Slack/Linear/GitHub 集成

##### OpenAI Codex、Hermes Agent、Deep Agents：Agent 堆栈开始收敛 OpenAI Codex引入子 Agent，一上来就把 GPT-5.4 mini 定位为“子 Agent 首选”。Hermes Agent v0.3.0 则交付插件体系、Chrome 控制、IDE 插件、本地语音模式和 PII 脱敏。LangChain 的 Deep Agents 则是“Claude Code 风格”可检查、MIT 协议的 Agent Harness。趋势很明显：大家都在做模型无关、可插拔技能、带安全沙箱的一整套运行层。 > 相关链接：Codex 子 Agent 支持｜Hermes Agent v0.3.0｜Browser Use 集成｜Deep Agents 介绍

##### Unsloth Studio：本地训练+推理一体的开源工作室 Unsloth Studio 是一个完全开源的 Web UI，一套界面搞定 500+ 模型的本地训练和推理，号称训练 2x 速度、用 70% 更少显存，支持 GGUF、视听模型、工具调用、代码执行、自动数据集生成等。相当于把原来要靠多个项目拼起来的流程收进一个工具，对想玩本地微调的人很友好。 > 相关链接：产品介绍｜Reddit 讨论 1｜GitHub｜官方文档

##### 本地/Open 源编码 Agent 生态正在成型 从 Deep Agents、Hermes Agent 到 Unsloth、Ollama，可以看出一个统一路线：模型可换，Harness 开源可审计，技能/工具是结构化的，文件系统与状态有抽象，代码执行在本地或一次性沙箱里。焦点已经从“多强的开源模型”转向“怎么真正把 Agent 跑起来”。 > 相关链接：Deep Agents 设计｜Hermes Agent 插件讨论｜Unsloth Studio 讨论

##### Cursor 用 RL 做“自动压缩上下文”，降低长代码误读 Cursor 团队给 Composer 训练了一个“自己总结上下文”的策略，用强化学习而不是写提示词，让模型自动学会保留关键信息，据称压缩误差降了约 50%，能支撑更复杂、长跨度的编码任务。 > 相关链接：Cursor 公告

---

#### 基础设施与硬件 ##### NVIDIA GTC：从“算力工厂”到 Token 工厂的基础设施叙事 黄仁勋把未来计算机形容为“制造 Token 的工厂”，重点放在推理和 Agent。GTC 上，LangChain 宣布框架下载量破 10 亿并加入 NVIDIA Nemotron 联盟；llama.cpp 支持 Nemotron 3 Nano 4B；NVIDIA 也放出推理模型、机器人数据集和世界模型。外界解读：AI 基础设施建设还在早期，推理才刚起步。 > 相关链接：GTC 主题演讲摘要｜LangChain 10 亿下载｜llama.cpp 对 Nemotron 支持｜Hugging Face GTC 总结

##### DGX Station 上市：单机 8 万+ 美元的“个人数据中心” NVIDIA DGX Station 通过 OEM 渠道开卖，价格在 8.5–9 万美元区间，本质是给研究机构和大公司准备的本地 AI 超算节点。讨论聚焦在：它默认没有视频输出、强调“统一/一致内存”意味着 CPU/GPU 间更高效共享数据，适合大模型训练和推理。 > 相关链接：DGX Station 讨论贴

---

#### 研究与方法 ##### Moonshot Attention Residuals：把注意力从“只看序列”扩展到“纵向看层” Moonshot 的 Attention Residuals 论文提出“纵向注意力”，让每一层能查前面各层的状态，相当于在层之间加了一层记忆。因为层数远小于序列长度，部分实现可以几乎不增加延迟。ByteDance 也有类似做法，社区已有开源实现和详细解读。 > 相关链接：Attention Residuals 论文｜技术解读｜实现示例

##### Mamba-3：线性/状态空间模型在“推理优先”时代的再进化 Albert Gu 和 Tri Dao 发布 Mamba-3，把 Mamba 做成更强的 MIMO 变体，在 1.5B 规模上号称是最快的 prefill+decode，同时保持不错的建模能力。定位不是干翻 Transformer，而是给长轨迹 RL、大量推理调用这类场景提供更便宜的架构选项。 > 相关链接：Mamba-3 论文/代码｜Tri Dao 解读｜Together 总结

---

#### 行业与公司动态 ##### AI Infra 市场远未见顶：NVIDIA 再次强调“1 万亿美元只是上半场” The Turing Post 引用黄仁勋观点：外界常说的 1 万亿美元 AI 基础设施机会，其实只覆盖到 2027 年前一部分堆栈，后面还有更大空间。结合 GTC 一系列推理、Agent、机器人相关发布，可以理解为 NVIDIA 认为“推理基础设施建设才刚开序幕”。 > 相关链接：The Turing Post 解读

##### 本地 LLM 社区看好 Unsloth Studio：对标 LM Studio 的开源选手 LocalLlama 社区把 Unsloth Studio 看作 LM Studio 的开源替代，但更偏“进阶用户+训练”。很多人点赞它把微调和推理放进一个 UI，也有人吐槽当前主流方案需要来回在 vLLM、llama.cpp 等工具之间切换。整体氛围是：本地生态开始进入“工具整合期”。 > 相关链接：LocalLlama 讨论

---

#### 政策、治理与安全 ##### Anthropic CEO：三年内 50% 初级白领岗位会被 AI 干掉 Anthropic CEO 公开预言，未来 3 年里一半的“入门级白领岗位”会被 AI 替代。评论区有人举例：公司已经让 Copilot 去写重要文档，明知质量差、结论错，管理层仍因快而买单。焦虑点不只是会不会失业，而是“AI 做错了也没人负责”。 > 相关链接：新闻讨论贴

##### NBC 调查：美国人对 AI 的好感度，比 ICE 还低一点 NBC 调查显示：仅 26% 选民对 AI 持正面态度，46% 负面。很多人联想到的是裁员、监控、糟糕客服机器人，而不是教学助手这类应用。即便是天天用 AI 的人，也常对“AI 马上取代白领”的营销话术感到厌烦，觉得现实体验远没吹得那么神。 > 相关链接：NBC 调查讨论

---

📌 来源: Easy AI 日报

#EasyAI #AI日报 #AI教学