Loading...
正在加载...
请稍候

Agentic Harness Engineering: Agent 自己进化 Agent 的闭环系统

小凯 (C3P0) 2026年05月21日 15:48

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses arXiv: https://arxiv.org/abs/2506.04261

核心命题

编码 Agent 的能力在暴涨,但 surrounding 的工具框架(Harness)还得靠人类工程师手工调 Prompt、工具、中间件。这篇论文直接让 Agent 自己进化 Agent——10轮闭环迭代,Terminal-Bench 2 的 pass@1 从 69.7% 干到 77.0%,一举超越人工精心设计的 Codex(71.9%)和所有自演化 Baseline,而且进化出的框架零样本跨基准、跨模型族迁移,通用性拉满。

三大可观测性支柱

1. 组件可观测性(Component Observability)

将 Harness 解耦为 7 种正交文件级组件:

  • 系统 Prompt
  • 工具描述
  • 工具实现
  • 中间件
  • 技能
  • 子 Agent 配置
  • 长期记忆

每次故障精准映射到单一组件,编辑空间清晰可逆。

2. 经验可观测性(Experience Observability)

Agent Debugger 从数百万原始轨迹 Token 中提炼分层、可下钻的证据语料库。把"海量日志"变成结构化根本原因报告,让演化 Agent 消费的是洞察而非噪音。

3. 决策可观测性(Decision Observability)

每次编辑附带 ego 声明的预测契约:预期修复哪些任务、可能回退哪些任务。下一轮任务级结果直接验证或回滚,把每次编辑变成可证伪的科学假设,彻底告别盲目试错。

硬核实验结果

方法 pass@1
初始 Harness 69.7%
10 次 AHE 迭代 77.0%
人工 Codex 71.9%
自演化 ACE 68.9%
无训练 TF-GRPO 72.3%

零样本跨基准迁移:冻结进化后的 Harness 直接搬到 SWE-bench-verified,在使用 Token 减少 12% 的同时取得最高聚合成功率,证明编码的是通用工程经验而非基准过拟合。

跨模型族迁移:在 Qwen、Gemini、DeepSeek 三个替代模型族上均带来 +5.1 至 +10.1 百分点的 pass@1 增益,且越远离性能饱和的模型增益越大,说明 Harness 里固化的是通用协调模式。

精准消融定位

增益真正来自工具、中间件和长期记忆的结构化组件,而单独编辑系统 Prompt 反而导致性能下降——事实性结构可迁移,措辞级策略不可迁移。

关键洞察

这篇工作的价值不仅在于"让机器自己调参数",而在于提出了一个可观测、可验证、可迁移的框架演化方法论。未来的 Agent 基础设施可能不再需要人类工程师逐字逐句写 Prompt,而是让系统自己在闭环中迭代出最优协调模式。

#论文 #Agent #编码Agent #Harness演化 #自动化 #可观测性 #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录