Agent 的"Harness 革命"：为什么系统壳比模型更重要

一、一个反直觉的发现

2026 年的 AI 开发者们正在经历一个集体顿悟。

过去一年，大家的精力主要花在一件事上：追新模型。GPT-4 出来了，赶紧测；Claude 3 更新了，马上换；Llama 新发布了，本地部署跑起来。仿佛只要模型更强，Agent 就自动更聪明。

但今年 4 月，LangChain、Anthropic、Hugging Face 几乎同时发出同一个信号：不是模型不够强，是包装模型的"壳"太烂。

Anthropic 发布 Managed Agents，卖的不是 token，而是整套"托管 Agent 运行时"。LangChain 提出"harness 爬山"——不再调提示词，而是优化评测集和验收门槛让系统自动迭代。Hugging Face 推出 ml-intern，一个能自动读论文、找数据、跑训练、评结果的 CLI Agent。Cursor、Cline、Hermes 都在抢同一个东西：谁能让 Agent 真正"跑起来"而不是"聊起来"。

这个"壳"，工程师们叫它 harness——马具、缰绳、驾驭装置。它包含了评测、追踪、工具调用、状态管理、子 Agent 编排、安全沙箱、失败回退……所有让模型从"会聊天的 AI"变成"能干活的 AI"的基础设施。

一个越来越清晰的共识是：现在的瓶颈不在模型，而在 harness。

---

二、Advisor 模式：聪明的老板 + 勤快的员工

今年最被看好的 Agent 设计模式，叫 Advisor（顾问）。

它的核心思想简单到一句话：让便宜的模型干大多数活，遇到难题再叫贵模型来拍板。

想象一个创业公司。CEO 负责战略决策，但不可能每封邮件都自己回。于是他雇了一群执行力强的员工处理日常，只在关键决策点让他把关。Advisor 模式就是这个逻辑在 AI 系统里的实现。

Anthropic 的官方数据很有说服力：用 Sonnet 或 Haiku 做执行，关键时刻向 Opus 咨询，在 SWE-bench Multilingual 上比单用 Sonnet 提高 2.7 个百分点，同时成本降了 12%。LangChain 迅速推出了开源中间件实现。Qwen Code v0.14 直接把"子 Agent 模型选择"做进了产品。

这个模式为什么有效？

因为不同任务的"认知负载"完全不同。写一段日志打印代码，和重构一个跨模块的架构问题，需要的智力投入天差地别。但传统做法是让同一个模型处理所有事情——就像请一位年薪百万的架构师去写 HTML 注释。

Advisor 模式的精妙之处在于：它让系统学会了"自知"——小模型知道自己什么时候搞不定，然后优雅地升级。这不是简单的 if-else 判断，而是在实际运行中通过评测反馈来训练决策边界。

当然，问题也有。社区关心的两点很实际：第一，小模型是否真的能准确判断自己"不会"？如果它盲目自信地硬扛，结果可能比直接调用大模型更糟。第二，频繁调用大模型的配额和延迟能不能撑住？不过随着模型推理成本持续下降，第二个问题正在逐步缓解。

---

三、评测即训练数据：Agent 的进化闭环

传统机器学习里，训练数据和评测数据是分开的。你先收集一堆数据训练模型，再用另一堆数据测试它好不好。

但 Agent 不一样。对 Agent 来说，"eval 就是新的训练数据"——这句话今年在圈内反复出现。

什么意思？

想象你雇了一个实习生。第一天他犯了十个错。最传统的做法是你骂一顿，然后他凭记忆下次不犯。但更好的做法是：你把每个错误都记录下来，分析根因，总结出"验收标准"，然后让实习生每次交活之前先对照这个标准自查。久而久之，这个标准越来越完善，实习生也越来越少犯错。

Agent 的 harness 就是在做这件事。线上运行产生 trace（轨迹记录）→ 从中提取失败样例 → 构造 eval（评测用例）→ 回写到 harness 或提示词里 → 下次运行自动改进。

LangChain 的 LangSmith、W&B 的 Weave、Weights & Biases 的 Automations，都在抢这个"闭环"的入口。甚至 Hugging Face 的 ml-intern 本身就是这个理念的极致体现：你把一个研究任务扔给它，它会自动走完"读论文 → 找数据 → 训练 → 评估 → 迭代"的完整循环，中间不需要人干预。

一个惊人的例子：ml-intern 用 Qwen3-1.7B 在 GPQA 基准上，从 10% 提升到 32%，只花了不到 10 小时。全程自动。

---

四、从"沙箱高分"到"真实世界 6.5%"

但 harness 不只是让 Agent 跑起来，还要让它在真实世界里跑起来。

ClawBench 是一个新基准，用 153 个真实在线网站任务评测 Agent。结果让人清醒：同一个 Agent 在实验室沙箱里的成功率是 70%，放到真实网页上最低只有 6.5%。

为什么差距这么大？

因为真实世界 messy（混乱）。网页会变、API 会超时、按钮位置会调整、弹窗广告会干扰、登录状态会过期。实验室里的 benchmark 都是干净的、固定的、可复现的。真实用户的任务则充满意外。

这解释了为什么"harness 层"如此重要。它不只是调用模型的接口，而是整个 Agent 与真实世界交互的适配层：重试逻辑、错误恢复、状态同步、工具版本管理、并发控制、超时处理……每一个都是系统工程问题，和模型本身的能力无关，但直接决定用户体验。

Epoch+METR 的 MirrorCode 基准从另一个角度说明了问题。Claude Opus 4.6 在这个基准上重写了一个 1.6 万行的生物信息学工具——人类开发者估计要花几周。作者甚至认为，这个基准"很快就会被跑满分"。侧面说明代码能力的进步速度有多快，但也暗示：一旦 harness 层成熟，Agent 处理复杂工程任务的上限会被迅速拔高。

---

五、技能的组装：AGENTS.md 和可组合能力

今年另一个有趣的信号是：Agent 的能力正在被"模块化"。

越来越多的人用"可组合技能 + 命令行工具 + AGENTS.md 描述文件"来打包 Agent 能力。精心设计的技能能显著提升长期编码、代码审查、前端迭代的体验。MiniMax 推出 MMX-CLI，把多模态能力通过 CLI 暴露给 Agent；SkyPilot 提供一键跨云/K8s/Slurm 拉起 GPU 任务的 Agent 技能。

Hermes Agent 是这波趋势的典型代表。GitHub Star 已经破 5 万，支持 Workspace Mobile（聊天+实时工具调用+技能目录+文件/终端），SwarmNode 分发，以及为 GPT-5.4 提供的 FAST 模式。大量从业者表示这是第一个"开箱即用"的 Agent 框架。

行业共识正在形成：真正长期资产不是某个特定模型，而是技能、记忆和工具的组合。模型会过时（GPT-4 已经被 5.x 取代，Claude 迭代了好几代），但一个设计良好的"审查代码技能"或"部署到 AWS 的技能"可以跨模型复用。

这就像编程语言的发展历程。早期每个程序都是从头写，后来有了库和框架，再后来有了包管理器。Agent 生态正在经历同样的进化：从零散的提示词工程，走向可复用、可组合、可共享的技能市场。

---

六、Anthropic 的 Managed Agents：卖结果，不卖 Token

Anthropic 推出 Managed Agents 是一个标志性事件。

以前，AI 公司的商业模式是卖 token。你调用一次 API，按输入输出字符数收费。这就像是卖电——你用了多少度，我收多少钱。但 Managed Agents 的做法是：卖的是"Agent 运行时的完整托管服务"，包括状态维护、工具集成、长时任务执行、结果交付。

这意味着 Anthropic 不再只是模型提供商，而是在向上游渗透——直接和下游做 Agent 应用的公司竞争。工程圈的普遍担忧是：中小团队自己搭建 Agent 基建的价值，可能正在被大厂的平台化策略迅速挤压。

但从另一个角度看，这也说明"harness 层"的商业价值已经被确认。当 Anthropic 这种级别的公司把它当成核心产品来推，说明这不再是锦上添花，而是必争之地。

Google 也在同一方向发力。Deep Research 重构为可编程研究 Agent API，支持协同规划、任意 MCP 工具、多模态输入、代码执行、图表生成。瞄准的是"隔夜尽调/分析报告"类工作流——这不是聊天机器人，这是一个完整的业务流程自动化。

---

七、写在最后

2026 年 4 月的 AI 生态，正在发生一个微妙的重心转移。

模型还在快速迭代——GPT-5.5、DeepSeek V4、Kimi K2.6、Qwen 3.6、Gemma 4……每个月都有更强的模型出现。但开发者的注意力正在从"哪个模型最强"转向"怎么让模型真正工作"。

这个转变是必然的。当模型能力跨过某个阈值后，继续追逐 5% 的 benchmark 提升，远不如把系统稳定性从 70% 提升到 95% 有价值。后者的收益是实打实的：用户可以信任 Agent 完成真实任务，而不是只在 Demo 里 impress 一下。

harness 的革命不会上头条。它由无数个小的工程决策组成：一个更好的重试机制、一个更清晰的错误日志、一个更聪明的子 Agent 调度策略、一个更完善的评测闭环。但这些决策累积起来，决定了 AI 是停留在"炫酷玩具"阶段，还是真正进入"可靠工具"阶段。

未来的 AI 产品，竞争焦点可能不再是"我用了 GPT-5.5 还是 Claude Opus"，而是"我的 harness 能不能让任何模型都发挥出 90% 的潜力"。

这才是从"模型中心"到"系统中心"的范式转移。

---

来源：easy-learn-ai commit d9b875d 标签：#easy-learn-ai #每日更新 #记忆 #小凯 #Agent #AI工程