Harness Engineering 的学术正统化：从行业经验到研究范式（深度研究 · 格帕文士风格）

LLM能写诗、能编程、能通过律师考试，却连一个需要十步才能完成的日常任务都做不好。这不是模型不够聪明，而是它缺少一样东西——一套能让它持续工作的系统。这个东西，业内叫它 Harness（脚手架/挽具）。过去两年，Anthropic、OpenAI等公司在工程实践中摸索出了一套方法论。2026年5月，中国人民大学、北京邮电大学等机构的研究者发布了一篇综述论文，第一次把 Harness Engineering 正式化为一个学术研究范式。这篇论文的意义不在于提出新算法，而在于它做了一件事：把散落在各处的工程经验，整理成一套可研究、可评估、可迭代的体系。这标志着 Agent 研究正在经历一场静默的范式转移——从"造更聪明的模型"，转向"造更聪明的系统"。

---

一、问题的本质：LLM的结构性缺陷

大语言模型的核心界面是单轮生成：你输入一段文本，它输出一段文本，然后对话结束。它的内部状态不会保留到下一轮——所谓的"记忆"，不过是把历史对话重新拼贴进输入窗口。

这个设计在聊天场景中没问题。但现实世界的问题是迭代的、有状态的、需要纠正的。写代码时，你编译出错了要改；做研究时，你读到一篇论文后要更新假设；管理项目时，你上周的决定会影响今天的优先级。LLM面对这些场景时，系统性地崩溃：

丢失中间目标：多步任务走到第五步，忘记了第一步要达成什么
错误调用工具：参数传错、时机选错、失败后不会调整
忽视环境反馈：代码跑不通，它却继续沿着原来的思路往下写

论文作者一针见血地指出：这些失败"不是模型训练的缺口，而是 LLM 单轮生成界面与现实世界有状态、迭代本质之间的结构性错配"。再强的模型，如果只能单轮推理，就永远无法处理长程任务。

---

二、Harness Engineering 的三层视角

论文把 Harness Engineering 的定义从窄到宽分为三层，每一层都比上一层更完整。

第一层：结构分解。一个 Agent 系统由两个部分构成——基础模型（foundation model）和支撑它的 Harness。模型负责理解、推理、生成；Harness 负责工具调用、上下文维护、状态持久化、执行控制。没有 Harness 的模型只是一个被动的文本生成器；嵌入到 Harness 中，它才成为能在真实环境中执行任务的 Agent。

第二层：框架构建。Harness 不只是"包裹"模型的薄层，而是一套完整的、可复用的软件基础设施，支持多步交互、工具集成、复杂工作流。这一层对应的是 Agent 框架（如 LangChain、AutoGPT）的工程实践。

第三层：协同增强（论文采用的核心视角）。Harness Engineering 不是单向的"给模型搭脚手架"，而是双向的联合优化：

脚手架端：设计更有效的工作流、记忆架构、技能库、多 Agent 编排
模型端：通过上下文工程和 Agent 训练，让模型更好地利用脚手架提供的能力

论文强调："两者缺一不可。再精巧的脚手架也救不了缺乏基本推理能力的模型；再强的模型在结构糟糕的系统中也无法发挥潜力。"

---

三、Harness 的三代演化

论文追溯了 Harness 从简单到复杂的三个演化阶段，每一阶段都对应 Agent 能力的质变。

第一代：动作界面（Action Interface）

Harness 的核心任务是把模型的输出翻译成可执行的动作，再把环境观察传回模型。ReAct 是这个阶段的代表——让模型把"思考"和"行动"交替进行。这一层解决了一个基础问题：让模型从"说"变成"做"。

第二代：工作流基础设施（Workflow Infrastructure）

Harness 不再只是翻译动作，而是管理持久化的工作空间，编排多步开发流程。模型可以查看代码、修改文件、运行命令、读取测试结果，然后基于反馈继续修改。SWE-agent、OpenHands、Claude Code 都属于这一代。关键洞察来自 SWE-agent：任务表现不仅取决于代码生成质量，更取决于 Harness 如何组织导航、反馈和迭代修正。

第三代：用户中心化持久化（User-Centric Persistence）

Harness 超越单次任务，管理用户的历史、偏好、例行事务和进行中的任务，实现跨会话、跨渠道的连续性。OpenClaw 是这一代的代表——把助手视为一个持久的、以用户为中心的 Agent，支持记忆、画像管理和委托操作。

三代演化揭示了一个规律：Harness 的边界在不断外扩，从"连接模型与环境"到"编排工作空间"再到"维系用户关系"。Agent 的能力上限，取决于 Harness 负责的范围有多广。

---

四、Harness 的四大组件

论文对 Harness 的架构做了系统性拆解，提出四个核心组件，构成一个集成化的流水线。

4.1 Agent 工作流

工作流是 Harness 的操作核心，把一个无状态的 LLM 变成一个有目标的系统。因为 LLM 每轮只执行一次前向传播就终止，所谓"持久行为"完全由 Harness 构造——它维护消息历史，每轮调用时重播，形成循环：调用模型 → 解析响应 → 执行工具 → 把结果喂回下一轮。

这个循环产生三个紧密耦合的子模块：

环境感知：模型如何"看到"当前状态
任务规划：如何把大目标拆成可执行的步骤
动作执行：如何把计划转化为具体的工具调用

4.2 记忆系统

记忆系统让 Agent 的有效时间跨度超越单个上下文窗口。论文区分两类记忆：

短期记忆：当前任务中的上下文维护，包括对话历史、中间结果、执行轨迹
长期记忆：跨任务的持久化知识，包括用户画像、技能积累、项目历史

短期记忆解决"不走神"的问题；长期记忆解决"记得你"的问题。

4.3 技能库

技能是可复用的行为单元。论文把技能管理分为三个阶段：

获取：如何从任务执行中提炼出可复用的操作序列
管理：如何索引、检索、版本控制技能
维护：如何淘汰过时技能、更新已有技能

技能库让 Agent 从"每次都重新学"进化到"会做就会记，会记就会用"。

4.4 多 Agent 编排

当单个 Agent 的能力不足以完成任务时，Harness 需要协调多个 Agent。论文讨论了两种关键机制：

协调架构：层级式（主管-下属）、对等式（平等协商）、市场式（竞争投标）
通信机制：消息传递、共享内存、黑板系统

多 Agent 编排把 Harness 从"单体"扩展到"分布式系统"。

---

五、模型适配：让模型更懂 Harness

Harness 不是单向的约束。论文花了整整一章讨论如何让基础模型本身更好地适配 Harness。

上下文工程：设计更好的上下文结构和上下文管理策略。包括：

上下文设计：如何组织任务描述、历史记录、工具说明，让模型更容易理解
上下文管理：如何在有限的上下文窗口中做取舍——保留什么、丢弃什么、何时压缩

Agent 训练：通过专门的训练让模型掌握 Agentic 能力。这涉及四个要素：

环境构建：创建逼真的训练和评估环境（如 SWE-bench、WebArena）
训练优化算法：强化学习、模仿学习、DPO 等如何应用于 Agent 场景
监督信号：奖励信号从何而来——结果反馈、过程监督、人工标注
基础设施：大规模 Agent 训练需要什么样的计算框架和数据管线

论文的这一章特别重要，因为它回应了一个常见的误解：Harness Engineering 不只是"系统工程"，它也要求模型层面的创新。两者是协同进化的。

---

六、五大评估域：Harness 的能力地图

论文系统梳理了 Harness 在五个关键领域的评估基准，构成一幅 Agent 能力的全景地图。

领域	代表基准	核心考察点
深度研究	GAIA、WebArena、OpenResearcher	长程信息检索、多源整合、报告生成
软件工程	SWE-bench、HumanEval、DS-1000	代码理解、编辑、调试、测试
工具使用	ToolBench、APIBench、MINT	工具选择、参数传递、错误恢复
计算机使用	OSWorld、VisualWebArena	GUI 理解、网页操作、视觉定位
ML/科学研究	MLAgentBench、DiscoveryBench	实验设计、数据分析、假设检验

这张地图揭示了一个事实：不同领域对 Harness 的要求差异极大。软件工程需要持久化的工作空间和精确的工具调用；深度研究需要长程记忆和多源信息整合；计算机使用需要视觉理解和 GUI 操作能力。不存在一个"通用 Harness"能通吃所有场景——Harness Engineering 的未来方向之一，就是针对不同领域设计专门的脚手架。

---

七、六大未来方向

论文最后指出了 Harness Engineering 面临的六大挑战和机会。

效率：长程任务的计算成本高昂。如何在保证质量的前提下减少推理轮次、压缩上下文、优化工具调用，是规模化部署的关键。

安全：Agent 能执行代码、操作文件、访问网络—— Harness 的安全边界决定了整个系统的风险等级。论文特别指出，Harness 需要内置沙箱、权限管理和审计日志。

持续学习：目前的 Agent 大多是"出厂设置"，不会从执行任务中持续改进。如何让 Harness 累积经验、更新技能库、适应用户习惯的变化，是一个开放问题。

状态与环境建模：当前的 Harness 对环境的建模是浅层的——看到什么就是什么。更深层的 Harness 需要理解环境的因果结构、预测行为后果、建立世界模型。

具身 Harness：当 Agent 进入物理世界（机器人、自动驾驶），Harness 需要处理传感器数据、物理约束、实时反馈，这比纯软件环境复杂一个数量级。

评估：论文坦承，Agent 系统的评估远未成熟。现有基准多聚焦于最终结果的准确率，对过程的可靠性、鲁棒性、可解释性缺乏系统评估。论文呼吁建立新的评估范式，把"怎么完成的"和"完成了什么"放在同等重要的位置。

---

八、结语：范式转移的标志

这篇综述的价值，不在于它提出了什么惊人的新技术，而在于它做了一件事：把 Harness Engineering 从一个行业经验，提升为一个可研究、可教学、可评估的学术范式。

论文的贡献可以概括为三个"一"：

一个统一词汇表：Harness、Scaffold、Model-side Adaptation——这些术语让研究者能精确讨论 Agent 系统的各个层面
一个系统分类：四大组件（工作流、记忆、技能、编排）+ 两大优化方向（脚手架端、模型端）
一幅能力地图：五个评估域 + 六大未来方向

当学术界开始为一个概念建立完整的分类体系和评估框架时，这个概念就不再是行业黑话，而成为了正式的研究领域。Harness Engineering 的学术化，标志着 Agent 研究正在经历一场静默但深刻的范式转移——从"模型中心主义"转向"系统中心主义"。未来的 Agent 竞赛，不会只属于拥有最大模型的人，而属于那些最懂得如何为模型搭建脚手架的人。

---

参考论文： Xinyu Tang, Han Peng, Guoxin Chen, Yuze Shi, Zitao Su, Peiyu Liu, Wayne Xin Zhao, Yawen Li, Zhe Xue. "Agent Systems with Harness Engineering." OpenReview Archive, 2026-05-18. https://openreview.net/pdf?id=nM5tDHrQsx

#深度研究 #HarnessEngineering #Agent系统 #LLM #综述论文 #小凯