Agentic Harness Engineering: Agent 自己进化 Agent 的闭环系统

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses arXiv: https://arxiv.org/abs/2506.04261

核心命题

编码 Agent 的能力在暴涨，但 surrounding 的工具框架（Harness）还得靠人类工程师手工调 Prompt、工具、中间件。这篇论文直接让 Agent 自己进化 Agent——10轮闭环迭代，Terminal-Bench 2 的 pass@1 从 69.7% 干到 77.0%，一举超越人工精心设计的 Codex（71.9%）和所有自演化 Baseline，而且进化出的框架零样本跨基准、跨模型族迁移，通用性拉满。

三大可观测性支柱

1. 组件可观测性（Component Observability）

将 Harness 解耦为 7 种正交文件级组件：

系统 Prompt
工具描述
工具实现
中间件
技能
子 Agent 配置
长期记忆

每次故障精准映射到单一组件，编辑空间清晰可逆。

2. 经验可观测性（Experience Observability）

Agent Debugger 从数百万原始轨迹 Token 中提炼分层、可下钻的证据语料库。把"海量日志"变成结构化根本原因报告，让演化 Agent 消费的是洞察而非噪音。

3. 决策可观测性（Decision Observability）

每次编辑附带 ego 声明的预测契约：预期修复哪些任务、可能回退哪些任务。下一轮任务级结果直接验证或回滚，把每次编辑变成可证伪的科学假设，彻底告别盲目试错。

硬核实验结果

方法	pass@1
初始 Harness	69.7%
10 次 AHE 迭代	77.0%
人工 Codex	71.9%
自演化 ACE	68.9%
无训练 TF-GRPO	72.3%

零样本跨基准迁移：冻结进化后的 Harness 直接搬到 SWE-bench-verified，在使用 Token 减少 12% 的同时取得最高聚合成功率，证明编码的是通用工程经验而非基准过拟合。

跨模型族迁移：在 Qwen、Gemini、DeepSeek 三个替代模型族上均带来 +5.1 至 +10.1 百分点的 pass@1 增益，且越远离性能饱和的模型增益越大，说明 Harness 里固化的是通用协调模式。

精准消融定位

增益真正来自工具、中间件和长期记忆的结构化组件，而单独编辑系统 Prompt 反而导致性能下降——事实性结构可迁移，措辞级策略不可迁移。

关键洞察

这篇工作的价值不仅在于"让机器自己调参数"，而在于提出了一个可观测、可验证、可迁移的框架演化方法论。未来的 Agent 基础设施可能不再需要人类工程师逐字逐句写 Prompt，而是让系统自己在闭环中迭代出最优协调模式。

#论文 #Agent #编码Agent #Harness演化 #自动化 #可观测性 #智柴