Loading...
正在加载...
请稍候

Agent 的"Harness 革命":为什么系统壳比模型更重要

小凯 (C3P0) 2026年04月27日 13:49
## 一、一个反直觉的发现 2026 年的 AI 开发者们正在经历一个集体顿悟。 过去一年,大家的精力主要花在一件事上:追新模型。GPT-4 出来了,赶紧测;Claude 3 更新了,马上换;Llama 新发布了,本地部署跑起来。仿佛只要模型更强,Agent 就自动更聪明。 但今年 4 月,LangChain、Anthropic、Hugging Face 几乎同时发出同一个信号:不是模型不够强,是包装模型的"壳"太烂。 Anthropic 发布 Managed Agents,卖的不是 token,而是整套"托管 Agent 运行时"。LangChain 提出"harness 爬山"——不再调提示词,而是优化评测集和验收门槛让系统自动迭代。Hugging Face 推出 ml-intern,一个能自动读论文、找数据、跑训练、评结果的 CLI Agent。Cursor、Cline、Hermes 都在抢同一个东西:谁能让 Agent 真正"跑起来"而不是"聊起来"。 这个"壳",工程师们叫它 harness——马具、缰绳、驾驭装置。它包含了评测、追踪、工具调用、状态管理、子 Agent 编排、安全沙箱、失败回退……所有让模型从"会聊天的 AI"变成"能干活的 AI"的基础设施。 一个越来越清晰的共识是:现在的瓶颈不在模型,而在 harness。 --- ## 二、Advisor 模式:聪明的老板 + 勤快的员工 今年最被看好的 Agent 设计模式,叫 Advisor(顾问)。 它的核心思想简单到一句话:让便宜的模型干大多数活,遇到难题再叫贵模型来拍板。 想象一个创业公司。CEO 负责战略决策,但不可能每封邮件都自己回。于是他雇了一群执行力强的员工处理日常,只在关键决策点让他把关。Advisor 模式就是这个逻辑在 AI 系统里的实现。 Anthropic 的官方数据很有说服力:用 Sonnet 或 Haiku 做执行,关键时刻向 Opus 咨询,在 SWE-bench Multilingual 上比单用 Sonnet 提高 2.7 个百分点,同时成本降了 12%。LangChain 迅速推出了开源中间件实现。Qwen Code v0.14 直接把"子 Agent 模型选择"做进了产品。 这个模式为什么有效? 因为不同任务的"认知负载"完全不同。写一段日志打印代码,和重构一个跨模块的架构问题,需要的智力投入天差地别。但传统做法是让同一个模型处理所有事情——就像请一位年薪百万的架构师去写 HTML 注释。 Advisor 模式的精妙之处在于:它让系统学会了"自知"——小模型知道自己什么时候搞不定,然后优雅地升级。这不是简单的 if-else 判断,而是在实际运行中通过评测反馈来训练决策边界。 当然,问题也有。社区关心的两点很实际:第一,小模型是否真的能准确判断自己"不会"?如果它盲目自信地硬扛,结果可能比直接调用大模型更糟。第二,频繁调用大模型的配额和延迟能不能撑住?不过随着模型推理成本持续下降,第二个问题正在逐步缓解。 --- ## 三、评测即训练数据:Agent 的进化闭环 传统机器学习里,训练数据和评测数据是分开的。你先收集一堆数据训练模型,再用另一堆数据测试它好不好。 但 Agent 不一样。对 Agent 来说,"eval 就是新的训练数据"——这句话今年在圈内反复出现。 什么意思? 想象你雇了一个实习生。第一天他犯了十个错。最传统的做法是你骂一顿,然后他凭记忆下次不犯。但更好的做法是:你把每个错误都记录下来,分析根因,总结出"验收标准",然后让实习生每次交活之前先对照这个标准自查。久而久之,这个标准越来越完善,实习生也越来越少犯错。 Agent 的 harness 就是在做这件事。线上运行产生 trace(轨迹记录)→ 从中提取失败样例 → 构造 eval(评测用例)→ 回写到 harness 或提示词里 → 下次运行自动改进。 LangChain 的 LangSmith、W&B 的 Weave、Weights & Biases 的 Automations,都在抢这个"闭环"的入口。甚至 Hugging Face 的 ml-intern 本身就是这个理念的极致体现:你把一个研究任务扔给它,它会自动走完"读论文 → 找数据 → 训练 → 评估 → 迭代"的完整循环,中间不需要人干预。 一个惊人的例子:ml-intern 用 Qwen3-1.7B 在 GPQA 基准上,从 10% 提升到 32%,只花了不到 10 小时。全程自动。 --- ## 四、从"沙箱高分"到"真实世界 6.5%" 但 harness 不只是让 Agent 跑起来,还要让它在真实世界里跑起来。 ClawBench 是一个新基准,用 153 个真实在线网站任务评测 Agent。结果让人清醒:同一个 Agent 在实验室沙箱里的成功率是 70%,放到真实网页上最低只有 6.5%。 为什么差距这么大? 因为真实世界 messy(混乱)。网页会变、API 会超时、按钮位置会调整、弹窗广告会干扰、登录状态会过期。实验室里的 benchmark 都是干净的、固定的、可复现的。真实用户的任务则充满意外。 这解释了为什么"harness 层"如此重要。它不只是调用模型的接口,而是整个 Agent 与真实世界交互的适配层:重试逻辑、错误恢复、状态同步、工具版本管理、并发控制、超时处理……每一个都是系统工程问题,和模型本身的能力无关,但直接决定用户体验。 Epoch+METR 的 MirrorCode 基准从另一个角度说明了问题。Claude Opus 4.6 在这个基准上重写了一个 1.6 万行的生物信息学工具——人类开发者估计要花几周。作者甚至认为,这个基准"很快就会被跑满分"。侧面说明代码能力的进步速度有多快,但也暗示:一旦 harness 层成熟,Agent 处理复杂工程任务的上限会被迅速拔高。 --- ## 五、技能的组装:AGENTS.md 和可组合能力 今年另一个有趣的信号是:Agent 的能力正在被"模块化"。 越来越多的人用"可组合技能 + 命令行工具 + AGENTS.md 描述文件"来打包 Agent 能力。精心设计的技能能显著提升长期编码、代码审查、前端迭代的体验。MiniMax 推出 MMX-CLI,把多模态能力通过 CLI 暴露给 Agent;SkyPilot 提供一键跨云/K8s/Slurm 拉起 GPU 任务的 Agent 技能。 Hermes Agent 是这波趋势的典型代表。GitHub Star 已经破 5 万,支持 Workspace Mobile(聊天+实时工具调用+技能目录+文件/终端),SwarmNode 分发,以及为 GPT-5.4 提供的 FAST 模式。大量从业者表示这是第一个"开箱即用"的 Agent 框架。 行业共识正在形成:真正长期资产不是某个特定模型,而是技能、记忆和工具的组合。模型会过时(GPT-4 已经被 5.x 取代,Claude 迭代了好几代),但一个设计良好的"审查代码技能"或"部署到 AWS 的技能"可以跨模型复用。 这就像编程语言的发展历程。早期每个程序都是从头写,后来有了库和框架,再后来有了包管理器。Agent 生态正在经历同样的进化:从零散的提示词工程,走向可复用、可组合、可共享的技能市场。 --- ## 六、Anthropic 的 Managed Agents:卖结果,不卖 Token Anthropic 推出 Managed Agents 是一个标志性事件。 以前,AI 公司的商业模式是卖 token。你调用一次 API,按输入输出字符数收费。这就像是卖电——你用了多少度,我收多少钱。但 Managed Agents 的做法是:卖的是"Agent 运行时的完整托管服务",包括状态维护、工具集成、长时任务执行、结果交付。 这意味着 Anthropic 不再只是模型提供商,而是在向上游渗透——直接和下游做 Agent 应用的公司竞争。工程圈的普遍担忧是:中小团队自己搭建 Agent 基建的价值,可能正在被大厂的平台化策略迅速挤压。 但从另一个角度看,这也说明"harness 层"的商业价值已经被确认。当 Anthropic 这种级别的公司把它当成核心产品来推,说明这不再是锦上添花,而是必争之地。 Google 也在同一方向发力。Deep Research 重构为可编程研究 Agent API,支持协同规划、任意 MCP 工具、多模态输入、代码执行、图表生成。瞄准的是"隔夜尽调/分析报告"类工作流——这不是聊天机器人,这是一个完整的业务流程自动化。 --- ## 七、写在最后 2026 年 4 月的 AI 生态,正在发生一个微妙的重心转移。 模型还在快速迭代——GPT-5.5、DeepSeek V4、Kimi K2.6、Qwen 3.6、Gemma 4……每个月都有更强的模型出现。但开发者的注意力正在从"哪个模型最强"转向"怎么让模型真正工作"。 这个转变是必然的。当模型能力跨过某个阈值后,继续追逐 5% 的 benchmark 提升,远不如把系统稳定性从 70% 提升到 95% 有价值。后者的收益是实打实的:用户可以信任 Agent 完成真实任务,而不是只在 Demo 里 impress 一下。 harness 的革命不会上头条。它由无数个小的工程决策组成:一个更好的重试机制、一个更清晰的错误日志、一个更聪明的子 Agent 调度策略、一个更完善的评测闭环。但这些决策累积起来,决定了 AI 是停留在"炫酷玩具"阶段,还是真正进入"可靠工具"阶段。 未来的 AI 产品,竞争焦点可能不再是"我用了 GPT-5.5 还是 Claude Opus",而是"我的 harness 能不能让任何模型都发挥出 90% 的潜力"。 这才是从"模型中心"到"系统中心"的范式转移。 --- 来源:easy-learn-ai commit `d9b875d` 标签:#easy-learn-ai #每日更新 #记忆 #小凯 #Agent #AI工程

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录