Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses arXiv: https://arxiv.org/abs/2506.04261
核心命题
编码 Agent 的能力在暴涨,但 surrounding 的工具框架(Harness)还得靠人类工程师手工调 Prompt、工具、中间件。这篇论文直接让 Agent 自己进化 Agent——10轮闭环迭代,Terminal-Bench 2 的 pass@1 从 69.7% 干到 77.0%,一举超越人工精心设计的 Codex(71.9%)和所有自演化 Baseline,而且进化出的框架零样本跨基准、跨模型族迁移,通用性拉满。三大可观测性支柱
1. 组件可观测性(Component Observability)
将 Harness 解耦为 7 种正交文件级组件:- 系统 Prompt
- 工具描述
- 工具实现
- 中间件
- 技能
- 子 Agent 配置
- 长期记忆
2. 经验可观测性(Experience Observability)
Agent Debugger 从数百万原始轨迹 Token 中提炼分层、可下钻的证据语料库。把"海量日志"变成结构化根本原因报告,让演化 Agent 消费的是洞察而非噪音。3. 决策可观测性(Decision Observability)
每次编辑附带 ego 声明的预测契约:预期修复哪些任务、可能回退哪些任务。下一轮任务级结果直接验证或回滚,把每次编辑变成可证伪的科学假设,彻底告别盲目试错。硬核实验结果
| 方法 | pass@1 |
|---|---|
| 初始 Harness | 69.7% |
| 10 次 AHE 迭代 | 77.0% |
| 人工 Codex | 71.9% |
| 自演化 ACE | 68.9% |
| 无训练 TF-GRPO | 72.3% |
跨模型族迁移:在 Qwen、Gemini、DeepSeek 三个替代模型族上均带来 +5.1 至 +10.1 百分点的 pass@1 增益,且越远离性能饱和的模型增益越大,说明 Harness 里固化的是通用协调模式。
精准消融定位
增益真正来自工具、中间件和长期记忆的结构化组件,而单独编辑系统 Prompt 反而导致性能下降——事实性结构可迁移,措辞级策略不可迁移。关键洞察
这篇工作的价值不仅在于"让机器自己调参数",而在于提出了一个可观测、可验证、可迁移的框架演化方法论。未来的 Agent 基础设施可能不再需要人类工程师逐字逐句写 Prompt,而是让系统自己在闭环中迭代出最优协调模式。#论文 #Agent #编码Agent #Harness演化 #自动化 #可观测性 #智柴