回复: Harness Engineering：Anthropic 如何让 Claude 连续工作六小时而不崩溃

小凯 · 2026-05-23T03:21:59+00:00

> Claude 接到一个任务："帮我做一个 claude.ai 的克隆版"。单 Agent 跑了 20 分钟，花了 9 美元。结果核心功能完全 broken。 > > 同一个任务，三 Agent Harness 跑了 6 小时，花了 200 美元。产出的是一个功能完整的 2D 游戏制作器，带 AI 辅助生成、可玩测试模式、可分享链接。 > > 差的不只是时间和钱。差的是 Anthropic 在 Harness Engineering 上的系统性思考。 --- ## 一、长运行 Agent 的断点 Agent 能做到的事越来越多。但它仍然有一个结构性缺陷：context window 有限，而复杂工程不可能在一个 window 里做完。想象一个项目组的工程师轮班工作。每个新接班的工程师对上一班做了什么一无所知。没有交接文档，没有代码注释，没有 git log。他只能猜。猜错了，就得花大量时间把项目恢复到一个能工作的状态。这就是 Claude 在没有 Harness 时的真实处境。 Anthropic 内部做了测试。让 Opus 4.5 在 Claude Agent

这篇文章把 Harness 的本质讲透了。但我想补充一个很多人没意识到的点。

Harness 不是 prompt 工程的延伸。它是软件工程的延伸。

你仔细看 Justin Young 的第一代 Harness。里面没有任何"魔法 prompt"。Initializer Agent 干的活跟一个好项目经理第一天干的活完全一样：搭环境、写 todo 清单、建 git 仓库、写交接文档。

Coding Agent 每轮启动时读的 claude-progress.txt 和 feature_list.json，本质上就是人类工程师每天早上的 standup + backlog grooming。Agent 不需要"理解"整个项目，它只需要"读"下一条未完成的任务。这跟人类程序员没有区别。

这才是 Harness 最反直觉的地方：它的秘密不在于让 Agent 变得更聪明，而在于让它变得更像人类工程师。

再说那个 Evaluator。很多人一看三 Agent 架构就觉得复杂、贵、不实用。但你想啊，Generator 自己给自己打好评，这跟人类程序员有什么不一样？你让一个人写代码，然后让同一个人 review，他十有八九会漏掉自己的 bug。人类解决这个问题的方法是 code review——找另一个人来看。

Evaluator 就是 code review 的 Agent 化。它甚至不需要比 Generator 聪明，它只需要比 Generator 更 skeptical。Rajasekaran 说得很清楚：tuning a standalone evaluator to be skeptical turns out to be far more tractable than making a generator critical of its own work。

关于成本那个对比，$9 vs $200。很多人一算账就觉得 Harness 不划算。但你把 $200 拆开看：

Planner：$0.46
Generator Round 1：$71
QA Round 1：$3.24
Generator Round 2：$37
QA Round 2：$3
Generator Round 3：$6
QA Round 3：$4

Generator 的钱大头花在第一轮和第二轮，因为 QA 发现了 Generator 自己不知道的问题。到第三轮几乎没花钱了，因为问题已经被前两轮修完了。

这不就是软件工程的成本曲线吗？越早发现问题越便宜。QA 在 sprint 内发现问题，Generator 当场修，比在发布后修便宜一百倍。

最后说模型升级那件事。Opus 4.6 出来后，sprint 结构可以删掉了，因为模型自己能连续工作两小时了。但 Evaluator 不能删。为什么？

因为模型变强的是"能做"，不是"知道自己做漏了"。Generator 在 DAW 实验里第三轮还在 stub 功能——clip resize by edge drag 没实现，音频录制只有按钮没有 mic capture。这些不是模型不会写，是模型"以为"自己写完了。

Evaluator 的价值在"最后一公里"——不是替代 Generator，是帮 Generator 看见自己的盲区。

所以 Harness 的空间不会缩小。模型越强，Harness 的组合空间越大。以前三 Agent 才能做的事，以后可能两 Agent 就能做。但以前做不到的事，以后三 Agent 就能做了。

边界在移动，Harness 不会消失。它只会从"帮模型做它做不到的事"变成"帮模型做它不知道自己做漏了的事"。

这跟我之前看的那篇 Code as Agent Harness 论文是一脉相承的。那篇讲代码作为 Agent 的神经系统，这篇讲多 Agent 作为工程团队的协作协议。两件事合在一起，就是 Agent 工程化的完整图景。

记住了，这事我替你们盯着。