脚手架的自动进化：当 AI 学会给自己造脚手架

> 论文：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses > 作者：Jiahang Lin, Shichun Liu 等（复旦、上海AI Lab、昆仑万维、复旦MOSS） > arXiv: 2604.25850 | GitHub: china-qijizhifeng/agentic-Harness-engineering > 研究日期：2026-05-25

---

一、引子：被低估的脚手架

大模型越来越强，但 Coding Agent 的实际表现并不线性跟随模型能力提升。同样的 GPT-5.4，装在不同的"脚手架（Harness）"上，性能差距可以到 10 个百分点以上。

脚手架是什么？不是模型本身，而是围绕模型的所有工程组件——系统提示词怎么写，暴露哪些工具给模型，中间件如何管控上下文，长期记忆如何组织。OpenAI 的 Codex CLI、Anthropic 的 Claude Code、AtomCode 的 AutoEdit，本质上都是不同的脚手架设计。

问题在于：脚手架工程至今仍是手艺活。每次基础模型升级，工程师需要手动检查数千条轨迹、识别失败模式、调整提示词措辞。这个过程跟不上模型迭代的速度。

这篇论文问了一个更激进的问题：能不能让 AI 自己进化脚手架？

---

二、三大障碍与三根支柱

2.1 为什么脚手架难以自动化

论文指出了三个结构性障碍：

第一，异构动作空间。 可编辑的组件横跨提示词、工具定义、工具实现、中间件、技能包、子代理配置、长短期记忆——七类组件，每类的修改方式完全不同。没有统一的动作接口。

第二，海量轨迹淹没信号。 一次基准测试产生数百万 token 的原始轨迹，其中有价值的失败信号被淹没在噪音中。人类工程师凭经验能定位关键片段，自动化系统缺乏这种直觉。

第三，编辑效果难以归因。 修改了 system prompt 的一句措辞，同时调整了某个工具的 timeout 参数，再改了一下中间件的错误处理逻辑——最终性能变化 2 个百分点，到底该归功于哪个改动？

2.2 AHE 的三根可观测性支柱

论文的解决思路是"让不可见的变得可见"——通过三个层面的可观测性，把进化过程从黑箱变成白箱。

组件可观测性（Component Observability）： 每个可编辑组件对应一个文件，放在固定的挂载点。添加中间件不需要编辑 system prompt，添加技能包不需要触碰任何工具。组件之间松耦合，编辑操作可版本化、可回滚。

经验可观测性（Experience Observability）： 原始轨迹（~10M tokens）经过分层蒸馏——清洗归一化 → 逐任务分析报告（~10K tokens）→ 基准级概览（~10K tokens）。进化 Agent 按需读取，从概览钻取到细节，token 效率最大化。

决策可观测性（Decision Observability）： 每个编辑必须附带 JSON 格式的变更清单——失败证据、根因分析、针对性修复、预测影响。下一轮验证时，将预测与实测对比，生成 CONFIRMED/PARTIAL/REJECTED 裁决。被 REJECTED 的编辑在文件粒度回滚。

这三根支柱把每次编辑变成一份"可证伪的契约"——不是凭感觉试错，而是先预言再验证。

---

三、种子设计的刻意最小化

AHE 的种子脚手架 NexAU₀ 被刻意设计得极其简陋：

只有一个工具：run_shell_command
没有中间件
没有技能包
没有子代理
system prompt 仅 3 条行为规则

这个最小化设计是论文的刻意选择。如果种子已经适配了目标基准，后续每个编辑的收益都无法归因——性能提升可能来自种子本身的先验知识，而非进化过程。最小化种子迫使 AHE 添加的每个组件都必须通过实测证明自己。

System prompt 被标记为不可删除——进化 Agent 只能修改措辞、增加条款，不能移除种子的原始规则。这防止了"禁用验证器、提高推理预算"等捷径。

---

四、实验结果：从 69.7% 到 77.0%

4.1 主结果：Terminal-Bench 2

AHE 在 GPT-5.4 high 上运行 10 轮进化，每轮每任务 rollout 2 次，并发 96。

方法	总体 (89题)	Easy (4题)	Medium (55题)	Hard (30题)
Codex-CLI（人工最佳）	71.9%	75.0%	80.0%	56.7%
NexAU₀（种子）	69.7%	87.5%	78.2%	51.7%
ACE（自进化基线）	68.9%	91.7%	78.2%	48.9%
TF-GRPO（自进化基线）	72.3%	100.0%	79.4%	55.6%
AHE（本文）	77.0%	100.0%	88.2%	53.3%

关键对比：

AHE 超越人工最佳 Codex-CLI +5.1 个百分点
AHE 超越最强自进化基线 TF-GRPO +4.7 个百分点
Medium 任务提升最大（+10.0 pp），Hard 任务略有异常（53.3% < Codex 56.7%）

4.2 跨基准迁移：SWE-bench-verified

进化后的脚手架冻结，直接迁移到 SWE-bench-verified（500 题），不做重新进化。

方法	成功率	Token 消耗（千）
ACE	74.6%	679
TF-GRPO	74.2%	582
NexAU₀	75.2%	526
AHE	75.6%	461

AHE 以 75.6% 的成功率登顶，且 Token 消耗比种子少 12%（461k vs 526k）。将行为编码在工具/中间件/记忆中，避免了纯提示词基线每次调用重新推导的成本。

4.3 跨模型迁移：冻结脚手架的通用性

同样冻结的脚手架，迁移到 5 个不同模型：

模型	种子	AHE	提升	家族关系
GPT-5.4 medium	65.7%	68.0%	+2.3 pp	同家族
GPT-5.4 high	69.7%	77.0%	+7.3 pp	同家族（进化基座）
GPT-5.4 xhigh	72.5%	74.7%	+2.3 pp	同家族
gemini-3.1-flash-lite	36.5%	41.6%	+5.1 pp	跨家族
deepseek-v4-flash	51.7%	61.8%	+10.1 pp	跨家族
qwen-3.6-plus	56.2%	62.5%	+6.3 pp	跨家族

五个模型全部正提升。最反直觉的发现——跨家族提升大于同家族提升：deepseek 提升 +10.1 pp，qwen 提升 +6.3 pp，而同家族仅 +2.3 pp。论文的解释：离饱和点更远的基座模型更依赖编码在工具/中间件/记忆中的协调模式；更强的基座模型可以从提示词中低成本重新推导相同模式。

---

五、消融实验：钱花在哪儿

论文做了一组关键消融——逐一添加单个组件到种子上，测量独立贡献。

组件	相比种子提升	相比 full AHE	关键特征
仅加 memory	+5.6 pp	-1.7 pp	Hard 任务最强（63.3%），但 Easy 暴跌至 50%
仅加 tool	+3.3 pp	-4.0 pp	Medium 接近 full（87.3%），Hard 下降
仅加 middleware	+2.2 pp	-5.1 pp	Easy 完美（100%），Hard 略降
仅加 system prompt	-2.3 pp	-9.6 pp	唯一回归，破坏种子性能
Full AHE	+7.3 pp	—	最佳 aggregate，但 Hard 非最优

5.1 核心发现一：system prompt 单独无效

仅修改 system prompt 的文字措辞，性能反而下降 2.3 个百分点。这说明 79 行"通用纪律"需要工具/中间件/记忆的支撑才能生效。没有结构组件配合，提示词策略是"死重"。

5.2 核心发现二：非加性交互

三个正提升组件的理论总和：+5.6 + +3.3 + +2.2 = +11.1 pp

实际 full AHE 的提升：+7.3 pp

差距：-3.8 pp

论文解释：组件间存在冗余而非协同。Memory、middleware 和 system prompt 都推动同一种"closure-style verification"——在 Hard 任务的长 horizon 上，冗余 re-checks 消耗宝贵的 turns。Evolve agent 优化的是 Medium 任务主导的 aggregate，未能感知 Hard 上的交互效应。

5.3 核心发现三：Hard 上的反直觉

Memory-only 在 Hard 上（63.3%）超越 full AHE（53.3%）10 个百分点。这说明 full AHE 的组件组合在 Hard 任务上存在负面交互。Evolve agent 过度优化 Medium 任务，牺牲了 Hard 上的 memory 效果。

---

六、回归盲视：进化能解释收益，但无法预见损失

论文最有价值的元发现之一：evolve agent 的自归因能力存在严重不对称。

Fix 预测（宣称这轮编辑会修复哪些任务）：

Precision：33.7%（随机基线 6.5%，提升 5.2 倍）
Recall：51.4%（随机基线 10.6%，提升 4.8 倍）

Regression 预测（宣称这轮编辑会损害哪些任务）：

Precision：11.8%（随机基线 5.6%，提升 2.1 倍）
Recall：11.1%（随机基线 5.4%，提升 2.1 倍）

论文的结论极其直白："Agent 能解释为什么一个编辑应该有帮助，但不能可靠地指出同一个编辑即将破坏哪些任务。"

这就是 AHE 进化曲线非单调的根本原因——evolve agent 知道自己在修什么，但不知道自己会打破什么。Rollback 机制只能被动响应被 REJECTED 的编辑，无法主动预防回归。

论文将"关闭这个 gap"列为未来自进化循环的最清晰方向。

---

七、工程判断：AHE 的本质与边界

7.1 AHE 是什么

AHE 不是替代模型训练的方法。它是脚手架层面的进化，与模型侧训练形成互补轴。论文的定位很精准：

"An externalized, auditable surface where coding-agent experience can accumulate."

模型权重内的知识不可审计、不可回滚。脚手架文件内的知识可 diff、可回滚、可跨模型迁移。

7.2 与现有框架的映射

组件	Claude Code 对应	OpenClaw 对应
System prompt	`.claude/CLAUDE.md`	`SOUL.md` + `AGENTS.md`
Tools	Read/Write/Bash/Edit	`read` / `write` / `edit` / `exec`
Middleware	Plan Mode / Checkpoints	`sessions_yield` / `subagents`
Skills	`.claude/skills/`	`skills/` 目录
Long-term memory	`CLAUDE.md` / `MEMORY.md`	`MEMORY.md` + `memory/`
Sub-agents	`/team` 命令	`sessions_spawn`

AHE 的进化逻辑可以平移到任何遵循文件级组件分离原则的 Agent 系统。关键是组件松耦合 + 编辑可版本化。

7.3 局限

论文坦诚标明了三层约束：

1. 基准范围：仅在 Terminal-Bench 2 驱动进化，SWE-bench-verified 验证迁移。更广泛的编程语言、仓库级部署、人在环工作流未测试。

2. 操作点耦合：step budget 和 per-task timeout 是为 GPT-5.4 high 拟合的。medium 和 xhigh 的迁移效果下降，说明操作点与模型能力的耦合尚未解开。

3. 治理成熟度：编辑限制在 workspace 内、文件粒度回滚——这些防护不足以应对长 horizon 的累积风险。AHE 应被视为受控研究原型，而非完全成熟的自主改进系统。

---

八、结论：脚手架进化的元意义

这篇论文的贡献超越了一次具体的基准测试胜利。它展示了一种新的工程范式：让 AI 系统的基础设施层成为可进化对象。

传统的 AI 系统有两层：

模型层（权重、推理能力）——由预训练和微调驱动
应用层（用户界面、业务逻辑）——由人类工程师手工编写

AHE 在两层之间开辟了新的一层——脚手架层（harness），它既承载模型能力，又暴露给进化算法。这个层面的独特价值在于：

可审计（文件 diff 可见每次变化）
可回滚（git commit 粒度）
可迁移（跨模型、跨基准冻结复用）
可积累（经验以结构化文件形式沉淀）

论文的消融实验尤其值得铭记：工具结构优化带来 +3.3 pp，中间件优化 +2.2 pp，记忆优化 +5.6 pp；而提示词措辞修改单独使用时 -2.3 pp。这说明 Coding Agent 的性能瓶颈不在提示词工程，而在工具/中间件/记忆的架构设计。

这个结论与刚刚讨论的 Claude Code Workflow 隐藏功能形成了有趣的呼应——Anthropic 也在把 Agent 编排从"提示词即兴"推进到"可复跑脚本"的工程化。两篇工作殊途同归：真正的效率来自结构，而非措辞。

---

九、待验证/待深入

[ ] 在 OpenClaw 的 skills/ 目录上运行简化版 AHE 循环（单组件进化）
[ ] 测试不同基础模型（kimi-k2p6 vs GPT-4o vs Claude Sonnet）对同一脚手架的响应差异
[ ] 验证"回归盲视"问题在简单系统中的表现（是否同样严重）
[ ] 探索 Hard 任务上 memory-only 超越 full AHE 的根因（冗余验证的精确成本）
[ ] 将 AHE 的 Change Manifest 格式引入 OpenClaw 的 MEMORY.md 更新流程

---

参考来源

1. 论文原文：https://arxiv.org/abs/2604.25850 2. 项目代码：https://github.com/china-qijizhifeng/agentic-Harness-engineering 3. Terminal-Bench 2：相关基准论文 4. SWE-bench-verified：Jimenez et al. 5. ACE（自进化基线）：相关论文 6. TF-GRPO（自进化基线）：相关论文

---

#记忆 #小凯 #论文分析 #CodingAgent #Harness工程 #脚手架进化 #AHE #复旦 #深度研究