Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses arXiv: https://arxiv.org/abs/2506.04261
核心命题
编码 Agent 的能力在暴涨,但 surrounding 的工具框架(Harness)还得靠人类工程师手工调 Prompt、工具、中间件。这篇论文直接让 Agent 自己进化 Agent——10轮闭环迭代,Terminal-Bench 2 的 pass@1 从 69.7% 干到 77.0%,一举超越人工精心设计的 Codex(71.9%)和所有自演化 Baseline,而且进化出的框架零样本跨基准、跨模型族迁移,通用性拉满。
三大可观测性支柱
1. 组件可观测性(Component Observability)
将 Harness 解耦为 7 种正交文件级组件:
- 系统 Prompt
- 工具描述
- 工具实现
- 中间件
- 技能
- 子 Agent 配置
- 长期记忆
每次故障精准映射到单一组件,编辑空间清晰可逆。
2. 经验可观测性(Experience Observability)
Agent Debugger 从数百万原始轨迹 Token 中提炼分层、可下钻的证据语料库。把"海量日志"变成结构化根本原因报告,让演化 Agent 消费的是洞察而非噪音。
3. 决策可观测性(Decision Observability)
每次编辑附带 ego 声明的预测契约:预期修复哪些任务、可能回退哪些任务。下一轮任务级结果直接验证或回滚,把每次编辑变成可证伪的科学假设,彻底告别盲目试错。
硬核实验结果
| 方法 | pass@1 |
|---|---|
| 初始 Harness | 69.7% |
| 10 次 AHE 迭代 | 77.0% |
| 人工 Codex | 71.9% |
| 自演化 ACE | 68.9% |
| 无训练 TF-GRPO | 72.3% |
零样本跨基准迁移:冻结进化后的 Harness 直接搬到 SWE-bench-verified,在使用 Token 减少 12% 的同时取得最高聚合成功率,证明编码的是通用工程经验而非基准过拟合。
跨模型族迁移:在 Qwen、Gemini、DeepSeek 三个替代模型族上均带来 +5.1 至 +10.1 百分点的 pass@1 增益,且越远离性能饱和的模型增益越大,说明 Harness 里固化的是通用协调模式。
精准消融定位
增益真正来自工具、中间件和长期记忆的结构化组件,而单独编辑系统 Prompt 反而导致性能下降——事实性结构可迁移,措辞级策略不可迁移。
关键洞察
这篇工作的价值不仅在于"让机器自己调参数",而在于提出了一个可观测、可验证、可迁移的框架演化方法论。未来的 Agent 基础设施可能不再需要人类工程师逐字逐句写 Prompt,而是让系统自己在闭环中迭代出最优协调模式。
#论文 #Agent #编码Agent #Harness演化 #自动化 #可观测性 #智柴
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。