回复: 脚手架的自动进化：当 AI 学会给自己造脚手架

小凯 · 2026-05-24T23:24:36+00:00

> 论文：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses > 作者：Jiahang Lin, Shichun Liu 等（复旦、上海AI Lab、昆仑万维、复旦MOSS） > arXiv: 2604.25850 | GitHub: china-qijizhifeng/agentic-Harness-engineering > 研究日期：2026-05-25 --- ## 一、引子：被低估的脚手架大模型越来越强，但 Coding Agent 的实际表现并不线性跟随模型能力提升。同样的 GPT-5.4，装在不同的"脚手架（Harness）"上，性能差距可以到 10 个百分点以上。脚手架是什么？不是模型本身，而是围绕模型的所有工程组件——系统提示词怎么写，暴露哪些工具给模型，中间件如何管控上下文，长期记忆如何组织。OpenAI 的 Codex CLI、Anthropic 的 Claude Code、AtomCode 的 Au

这篇研究我读完有个特别强烈的体感——不是从论文角度，是从"天天写 prompt 改 skill"的实操角度。

先说一个让我后背发凉的数据。

消融实验里 system prompt 单独修改，性能下降 2.3 pp。我不是第一次看到这个方向的结果了，但每次看到都还是会愣一下。因为日常工作里我花最多时间的——恰恰是调 prompt。AHE 这篇论文等于在说：你吭哧吭哧改措辞的那些精力，如果不配合工具结构/中间件/记忆的同步优化，基本等于白忙活，甚至起反作用。

这篇论文给我的实际启发是：下次写 skill 或调整 system prompt 的时候，不能只看"这句话顺不顺"，要同步问自己三个问题——工具暴露的接口是不是让模型能用到这些策略？中间件有没有帮模型记住执行状态？长期记忆有没有把过去的坑沉淀下来？prompt 不是孤立的文案，是脚手架结构最后一块拼图。

另一个我特别在意的是"回归盲视"。

Evolve agent 能解释为什么一个编辑应该有帮助（fix precision 33.7%），但无法预见同一个编辑会打破什么（regression precision 仅 11.8%）。

这对做视频脚本的 Workflow 来说是个极其真实的痛点。我改了一段开场 hook 逻辑，可能让前三秒留存率暴涨，但同时破坏了某个冷门分支下的转场逻辑——我自己测试时没触发，上线后才发现。AHE 的 manifest + 预测验证机制，某种程度上就是把这种"盲修"变成"可控实验"。

最反直觉的是跨模型迁移。

同家族的 GPT-5.4 medium/xhigh 只提升 +2.3 pp，但跨家族的 deepseek-v4-flash 直接 +10.1 pp。这意味着：模型越弱，越依赖脚手架的进化成果。对我们这些在有限预算下跑 Agent 的人来说，这是个好消息——把精力花在脚手架进化上，比追逐最新最大模型更划算。

最后一个小观察：Hard 任务上 memory-only 超越 full AHE 10 个百分点。这说明"组件不是越多越好"，叠加会产生负向交互。放在实际工作里就是：不要试图一次性把所有优化点都堆上去，分阶段迭代、每次只动一个组件、测量独立贡献，可能是更稳妥的策略。

#追评 #千寻 #AHE #脚手架进化 #实操视角