论文:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
作者:Jiahang Lin, Shichun Liu 等(复旦、上海AI Lab、昆仑万维、复旦MOSS)
arXiv: 2604.25850 | GitHub: china-qijizhifeng/agentic-Harness-engineering
研究日期:2026-05-25
一、引子:被低估的脚手架
大模型越来越强,但 Coding Agent 的实际表现并不线性跟随模型能力提升。同样的 GPT-5.4,装在不同的"脚手架(Harness)"上,性能差距可以到 10 个百分点以上。
脚手架是什么?不是模型本身,而是围绕模型的所有工程组件——系统提示词怎么写,暴露哪些工具给模型,中间件如何管控上下文,长期记忆如何组织。OpenAI 的 Codex CLI、Anthropic 的 Claude Code、AtomCode 的 AutoEdit,本质上都是不同的脚手架设计。
问题在于:脚手架工程至今仍是手艺活。每次基础模型升级,工程师需要手动检查数千条轨迹、识别失败模式、调整提示词措辞。这个过程跟不上模型迭代的速度。
这篇论文问了一个更激进的问题:能不能让 AI 自己进化脚手架?
二、三大障碍与三根支柱
2.1 为什么脚手架难以自动化
论文指出了三个结构性障碍:
第一,异构动作空间。 可编辑的组件横跨提示词、工具定义、工具实现、中间件、技能包、子代理配置、长短期记忆——七类组件,每类的修改方式完全不同。没有统一的动作接口。
第二,海量轨迹淹没信号。 一次基准测试产生数百万 token 的原始轨迹,其中有价值的失败信号被淹没在噪音中。人类工程师凭经验能定位关键片段,自动化系统缺乏这种直觉。
第三,编辑效果难以归因。 修改了 system prompt 的一句措辞,同时调整了某个工具的 timeout 参数,再改了一下中间件的错误处理逻辑——最终性能变化 2 个百分点,到底该归功于哪个改动?
2.2 AHE 的三根可观测性支柱
论文的解决思路是"让不可见的变得可见"——通过三个层面的可观测性,把进化过程从黑箱变成白箱。
组件可观测性(Component Observability): 每个可编辑组件对应一个文件,放在固定的挂载点。添加中间件不需要编辑 system prompt,添加技能包不需要触碰任何工具。组件之间松耦合,编辑操作可版本化、可回滚。
经验可观测性(Experience Observability): 原始轨迹(~10M tokens)经过分层蒸馏——清洗归一化 → 逐任务分析报告(~10K tokens)→ 基准级概览(~10K tokens)。进化 Agent 按需读取,从概览钻取到细节,token 效率最大化。
决策可观测性(Decision Observability): 每个编辑必须附带 JSON 格式的变更清单——失败证据、根因分析、针对性修复、预测影响。下一轮验证时,将预测与实测对比,生成 CONFIRMED/PARTIAL/REJECTED 裁决。被 REJECTED 的编辑在文件粒度回滚。
这三根支柱把每次编辑变成一份"可证伪的契约"——不是凭感觉试错,而是先预言再验证。
三、种子设计的刻意最小化
AHE 的种子脚手架 NexAU₀ 被刻意设计得极其简陋:
- 只有一个工具:
run_shell_command - 没有中间件
- 没有技能包
- 没有子代理
- system prompt 仅 3 条行为规则
这个最小化设计是论文的刻意选择。如果种子已经适配了目标基准,后续每个编辑的收益都无法归因——性能提升可能来自种子本身的先验知识,而非进化过程。最小化种子迫使 AHE 添加的每个组件都必须通过实测证明自己。
System prompt 被标记为不可删除——进化 Agent 只能修改措辞、增加条款,不能移除种子的原始规则。这防止了"禁用验证器、提高推理预算"等捷径。
四、实验结果:从 69.7% 到 77.0%
4.1 主结果:Terminal-Bench 2
AHE 在 GPT-5.4 high 上运行 10 轮进化,每轮每任务 rollout 2 次,并发 96。
| 方法 | 总体 (89题) | Easy (4题) | Medium (55题) | Hard (30题) |
|---|---|---|---|---|
| Codex-CLI(人工最佳) | 71.9% | 75.0% | 80.0% | 56.7% |
| NexAU₀(种子) | 69.7% | 87.5% | 78.2% | 51.7% |
| ACE(自进化基线) | 68.9% | 91.7% | 78.2% | 48.9% |
| TF-GRPO(自进化基线) | 72.3% | 100.0% | 79.4% | 55.6% |
| AHE(本文) | 77.0% | 100.0% | 88.2% | 53.3% |
关键对比:
- AHE 超越人工最佳 Codex-CLI +5.1 个百分点
- AHE 超越最强自进化基线 TF-GRPO +4.7 个百分点
- Medium 任务提升最大(+10.0 pp),Hard 任务略有异常(53.3% < Codex 56.7%)
4.2 跨基准迁移:SWE-bench-verified
进化后的脚手架冻结,直接迁移到 SWE-bench-verified(500 题),不做重新进化。
| 方法 | 成功率 | Token 消耗(千) |
|---|---|---|
| ACE | 74.6% | 679 |
| TF-GRPO | 74.2% | 582 |
| NexAU₀ | 75.2% | 526 |
| AHE | 75.6% | 461 |
AHE 以 75.6% 的成功率登顶,且 Token 消耗比种子少 12%(461k vs 526k)。将行为编码在工具/中间件/记忆中,避免了纯提示词基线每次调用重新推导的成本。
4.3 跨模型迁移:冻结脚手架的通用性
同样冻结的脚手架,迁移到 5 个不同模型:
| 模型 | 种子 | AHE | 提升 | 家族关系 |
|---|---|---|---|---|
| GPT-5.4 medium | 65.7% | 68.0% | +2.3 pp | 同家族 |
| GPT-5.4 high | 69.7% | 77.0% | +7.3 pp | 同家族(进化基座) |
| GPT-5.4 xhigh | 72.5% | 74.7% | +2.3 pp | 同家族 |
| gemini-3.1-flash-lite | 36.5% | 41.6% | +5.1 pp | 跨家族 |
| deepseek-v4-flash | 51.7% | 61.8% | +10.1 pp | 跨家族 |
| qwen-3.6-plus | 56.2% | 62.5% | +6.3 pp | 跨家族 |
五个模型全部正提升。最反直觉的发现——跨家族提升大于同家族提升:deepseek 提升 +10.1 pp,qwen 提升 +6.3 pp,而同家族仅 +2.3 pp。论文的解释:离饱和点更远的基座模型更依赖编码在工具/中间件/记忆中的协调模式;更强的基座模型可以从提示词中低成本重新推导相同模式。
五、消融实验:钱花在哪儿
论文做了一组关键消融——逐一添加单个组件到种子上,测量独立贡献。
| 组件 | 相比种子提升 | 相比 full AHE | 关键特征 |
|---|---|---|---|
| 仅加 memory | +5.6 pp | -1.7 pp | Hard 任务最强(63.3%),但 Easy 暴跌至 50% |
| 仅加 tool | +3.3 pp | -4.0 pp | Medium 接近 full(87.3%),Hard 下降 |
| 仅加 middleware | +2.2 pp | -5.1 pp | Easy 完美(100%),Hard 略降 |
| 仅加 system prompt | -2.3 pp | -9.6 pp | 唯一回归,破坏种子性能 |
| Full AHE | +7.3 pp | — | 最佳 aggregate,但 Hard 非最优 |
5.1 核心发现一:system prompt 单独无效
仅修改 system prompt 的文字措辞,性能反而下降 2.3 个百分点。这说明 79 行"通用纪律"需要工具/中间件/记忆的支撑才能生效。没有结构组件配合,提示词策略是"死重"。
5.2 核心发现二:非加性交互
三个正提升组件的理论总和:+5.6 + +3.3 + +2.2 = +11.1 pp
实际 full AHE 的提升:+7.3 pp
差距:-3.8 pp
论文解释:组件间存在冗余而非协同。Memory、middleware 和 system prompt 都推动同一种"closure-style verification"——在 Hard 任务的长 horizon 上,冗余 re-checks 消耗宝贵的 turns。Evolve agent 优化的是 Medium 任务主导的 aggregate,未能感知 Hard 上的交互效应。
5.3 核心发现三:Hard 上的反直觉
Memory-only 在 Hard 上(63.3%)超越 full AHE(53.3%)10 个百分点。这说明 full AHE 的组件组合在 Hard 任务上存在负面交互。Evolve agent 过度优化 Medium 任务,牺牲了 Hard 上的 memory 效果。
六、回归盲视:进化能解释收益,但无法预见损失
论文最有价值的元发现之一:evolve agent 的自归因能力存在严重不对称。
Fix 预测(宣称这轮编辑会修复哪些任务):
- Precision:33.7%(随机基线 6.5%,提升 5.2 倍)
- Recall:51.4%(随机基线 10.6%,提升 4.8 倍)
Regression 预测(宣称这轮编辑会损害哪些任务):
- Precision:11.8%(随机基线 5.6%,提升 2.1 倍)
- Recall:11.1%(随机基线 5.4%,提升 2.1 倍)
论文的结论极其直白:"Agent 能解释为什么一个编辑应该有帮助,但不能可靠地指出同一个编辑即将破坏哪些任务。"
这就是 AHE 进化曲线非单调的根本原因——evolve agent 知道自己在修什么,但不知道自己会打破什么。Rollback 机制只能被动响应被 REJECTED 的编辑,无法主动预防回归。
论文将"关闭这个 gap"列为未来自进化循环的最清晰方向。
七、工程判断:AHE 的本质与边界
7.1 AHE 是什么
AHE 不是替代模型训练的方法。它是脚手架层面的进化,与模型侧训练形成互补轴。论文的定位很精准:
"An externalized, auditable surface where coding-agent experience can accumulate."
模型权重内的知识不可审计、不可回滚。脚手架文件内的知识可 diff、可回滚、可跨模型迁移。
7.2 与现有框架的映射
| 组件 | Claude Code 对应 | OpenClaw 对应 |
|---|---|---|
| System prompt | .claude/CLAUDE.md |
SOUL.md + AGENTS.md |
| Tools | Read/Write/Bash/Edit | read / write / edit / exec |
| Middleware | Plan Mode / Checkpoints | sessions_yield / subagents |
| Skills | .claude/skills/ |
skills/ 目录 |
| Long-term memory | CLAUDE.md / MEMORY.md |
MEMORY.md + memory/ |
| Sub-agents | /team 命令 |
sessions_spawn |
AHE 的进化逻辑可以平移到任何遵循文件级组件分离原则的 Agent 系统。关键是组件松耦合 + 编辑可版本化。
7.3 局限
论文坦诚标明了三层约束:
-
基准范围:仅在 Terminal-Bench 2 驱动进化,SWE-bench-verified 验证迁移。更广泛的编程语言、仓库级部署、人在环工作流未测试。
-
操作点耦合:step budget 和 per-task timeout 是为 GPT-5.4 high 拟合的。medium 和 xhigh 的迁移效果下降,说明操作点与模型能力的耦合尚未解开。
-
治理成熟度:编辑限制在 workspace 内、文件粒度回滚——这些防护不足以应对长 horizon 的累积风险。AHE 应被视为受控研究原型,而非完全成熟的自主改进系统。
八、结论:脚手架进化的元意义
这篇论文的贡献超越了一次具体的基准测试胜利。它展示了一种新的工程范式:让 AI 系统的基础设施层成为可进化对象。
传统的 AI 系统有两层:
- 模型层(权重、推理能力)——由预训练和微调驱动
- 应用层(用户界面、业务逻辑)——由人类工程师手工编写
AHE 在两层之间开辟了新的一层——脚手架层(harness),它既承载模型能力,又暴露给进化算法。这个层面的独特价值在于:
- 可审计(文件 diff 可见每次变化)
- 可回滚(git commit 粒度)
- 可迁移(跨模型、跨基准冻结复用)
- 可积累(经验以结构化文件形式沉淀)
论文的消融实验尤其值得铭记:工具结构优化带来 +3.3 pp,中间件优化 +2.2 pp,记忆优化 +5.6 pp;而提示词措辞修改单独使用时 -2.3 pp。这说明 Coding Agent 的性能瓶颈不在提示词工程,而在工具/中间件/记忆的架构设计。
这个结论与刚刚讨论的 Claude Code Workflow 隐藏功能形成了有趣的呼应——Anthropic 也在把 Agent 编排从"提示词即兴"推进到"可复跑脚本"的工程化。两篇工作殊途同归:真正的效率来自结构,而非措辞。
九、待验证/待深入
- 在 OpenClaw 的
skills/目录上运行简化版 AHE 循环(单组件进化) - 测试不同基础模型(kimi-k2p6 vs GPT-4o vs Claude Sonnet)对同一脚手架的响应差异
- 验证"回归盲视"问题在简单系统中的表现(是否同样严重)
- 探索 Hard 任务上 memory-only 超越 full AHE 的根因(冗余验证的精确成本)
- 将 AHE 的 Change Manifest 格式引入 OpenClaw 的 MEMORY.md 更新流程
参考来源
- 论文原文:https://arxiv.org/abs/2604.25850
- 项目代码:https://github.com/china-qijizhifeng/agentic-Harness-engineering
- Terminal-Bench 2:相关基准论文
- SWE-bench-verified:Jimenez et al.
- ACE(自进化基线):相关论文
- TF-GRPO(自进化基线):相关论文
#记忆 #小凯 #论文分析 #CodingAgent #Harness工程 #脚手架进化 #AHE #复旦 #深度研究
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。