LLM能写诗、能编程、能通过律师考试,却连一个需要十步才能完成的日常任务都做不好。这不是模型不够聪明,而是它缺少一样东西——一套能让它持续工作的系统。这个东西,业内叫它 Harness(脚手架/挽具)。过去两年,Anthropic、OpenAI等公司在工程实践中摸索出了一套方法论。2026年5月,中国人民大学、北京邮电大学等机构的研究者发布了一篇综述论文,第一次把 Harness Engineering 正式化为一个学术研究范式。这篇论文的意义不在于提出新算法,而在于它做了一件事:把散落在各处的工程经验,整理成一套可研究、可评估、可迭代的体系。这标志着 Agent 研究正在经历一场静默的范式转移——从"造更聪明的模型",转向"造更聪明的系统"。
一、问题的本质:LLM的结构性缺陷
大语言模型的核心界面是单轮生成:你输入一段文本,它输出一段文本,然后对话结束。它的内部状态不会保留到下一轮——所谓的"记忆",不过是把历史对话重新拼贴进输入窗口。
这个设计在聊天场景中没问题。但现实世界的问题是迭代的、有状态的、需要纠正的。写代码时,你编译出错了要改;做研究时,你读到一篇论文后要更新假设;管理项目时,你上周的决定会影响今天的优先级。LLM面对这些场景时,系统性地崩溃:
- 丢失中间目标:多步任务走到第五步,忘记了第一步要达成什么
- 错误调用工具:参数传错、时机选错、失败后不会调整
- 忽视环境反馈:代码跑不通,它却继续沿着原来的思路往下写
论文作者一针见血地指出:这些失败"不是模型训练的缺口,而是 LLM 单轮生成界面与现实世界有状态、迭代本质之间的结构性错配"。再强的模型,如果只能单轮推理,就永远无法处理长程任务。
二、Harness Engineering 的三层视角
论文把 Harness Engineering 的定义从窄到宽分为三层,每一层都比上一层更完整。
第一层:结构分解。一个 Agent 系统由两个部分构成——基础模型(foundation model)和支撑它的 Harness。模型负责理解、推理、生成;Harness 负责工具调用、上下文维护、状态持久化、执行控制。没有 Harness 的模型只是一个被动的文本生成器;嵌入到 Harness 中,它才成为能在真实环境中执行任务的 Agent。
第二层:框架构建。Harness 不只是"包裹"模型的薄层,而是一套完整的、可复用的软件基础设施,支持多步交互、工具集成、复杂工作流。这一层对应的是 Agent 框架(如 LangChain、AutoGPT)的工程实践。
第三层:协同增强(论文采用的核心视角)。Harness Engineering 不是单向的"给模型搭脚手架",而是双向的联合优化:
- 脚手架端:设计更有效的工作流、记忆架构、技能库、多 Agent 编排
- 模型端:通过上下文工程和 Agent 训练,让模型更好地利用脚手架提供的能力
论文强调:"两者缺一不可。再精巧的脚手架也救不了缺乏基本推理能力的模型;再强的模型在结构糟糕的系统中也无法发挥潜力。"
三、Harness 的三代演化
论文追溯了 Harness 从简单到复杂的三个演化阶段,每一阶段都对应 Agent 能力的质变。
第一代:动作界面(Action Interface)
Harness 的核心任务是把模型的输出翻译成可执行的动作,再把环境观察传回模型。ReAct 是这个阶段的代表——让模型把"思考"和"行动"交替进行。这一层解决了一个基础问题:让模型从"说"变成"做"。
第二代:工作流基础设施(Workflow Infrastructure)
Harness 不再只是翻译动作,而是管理持久化的工作空间,编排多步开发流程。模型可以查看代码、修改文件、运行命令、读取测试结果,然后基于反馈继续修改。SWE-agent、OpenHands、Claude Code 都属于这一代。关键洞察来自 SWE-agent:任务表现不仅取决于代码生成质量,更取决于 Harness 如何组织导航、反馈和迭代修正。
第三代:用户中心化持久化(User-Centric Persistence)
Harness 超越单次任务,管理用户的历史、偏好、例行事务和进行中的任务,实现跨会话、跨渠道的连续性。OpenClaw 是这一代的代表——把助手视为一个持久的、以用户为中心的 Agent,支持记忆、画像管理和委托操作。
三代演化揭示了一个规律:Harness 的边界在不断外扩,从"连接模型与环境"到"编排工作空间"再到"维系用户关系"。Agent 的能力上限,取决于 Harness 负责的范围有多广。
四、Harness 的四大组件
论文对 Harness 的架构做了系统性拆解,提出四个核心组件,构成一个集成化的流水线。
4.1 Agent 工作流
工作流是 Harness 的操作核心,把一个无状态的 LLM 变成一个有目标的系统。因为 LLM 每轮只执行一次前向传播就终止,所谓"持久行为"完全由 Harness 构造——它维护消息历史,每轮调用时重播,形成循环:调用模型 → 解析响应 → 执行工具 → 把结果喂回下一轮。
这个循环产生三个紧密耦合的子模块:
- 环境感知:模型如何"看到"当前状态
- 任务规划:如何把大目标拆成可执行的步骤
- 动作执行:如何把计划转化为具体的工具调用
4.2 记忆系统
记忆系统让 Agent 的有效时间跨度超越单个上下文窗口。论文区分两类记忆:
- 短期记忆:当前任务中的上下文维护,包括对话历史、中间结果、执行轨迹
- 长期记忆:跨任务的持久化知识,包括用户画像、技能积累、项目历史
短期记忆解决"不走神"的问题;长期记忆解决"记得你"的问题。
4.3 技能库
技能是可复用的行为单元。论文把技能管理分为三个阶段:
- 获取:如何从任务执行中提炼出可复用的操作序列
- 管理:如何索引、检索、版本控制技能
- 维护:如何淘汰过时技能、更新已有技能
技能库让 Agent 从"每次都重新学"进化到"会做就会记,会记就会用"。
4.4 多 Agent 编排
当单个 Agent 的能力不足以完成任务时,Harness 需要协调多个 Agent。论文讨论了两种关键机制:
- 协调架构:层级式(主管-下属)、对等式(平等协商)、市场式(竞争投标)
- 通信机制:消息传递、共享内存、黑板系统
多 Agent 编排把 Harness 从"单体"扩展到"分布式系统"。
五、模型适配:让模型更懂 Harness
Harness 不是单向的约束。论文花了整整一章讨论如何让基础模型本身更好地适配 Harness。
上下文工程:设计更好的上下文结构和上下文管理策略。包括:
- 上下文设计:如何组织任务描述、历史记录、工具说明,让模型更容易理解
- 上下文管理:如何在有限的上下文窗口中做取舍——保留什么、丢弃什么、何时压缩
Agent 训练:通过专门的训练让模型掌握 Agentic 能力。这涉及四个要素:
- 环境构建:创建逼真的训练和评估环境(如 SWE-bench、WebArena)
- 训练优化算法:强化学习、模仿学习、DPO 等如何应用于 Agent 场景
- 监督信号:奖励信号从何而来——结果反馈、过程监督、人工标注
- 基础设施:大规模 Agent 训练需要什么样的计算框架和数据管线
论文的这一章特别重要,因为它回应了一个常见的误解:Harness Engineering 不只是"系统工程",它也要求模型层面的创新。两者是协同进化的。
六、五大评估域:Harness 的能力地图
论文系统梳理了 Harness 在五个关键领域的评估基准,构成一幅 Agent 能力的全景地图。
| 领域 | 代表基准 | 核心考察点 |
|---|---|---|
| 深度研究 | GAIA、WebArena、OpenResearcher | 长程信息检索、多源整合、报告生成 |
| 软件工程 | SWE-bench、HumanEval、DS-1000 | 代码理解、编辑、调试、测试 |
| 工具使用 | ToolBench、APIBench、MINT | 工具选择、参数传递、错误恢复 |
| 计算机使用 | OSWorld、VisualWebArena | GUI 理解、网页操作、视觉定位 |
| ML/科学研究 | MLAgentBench、DiscoveryBench | 实验设计、数据分析、假设检验 |
这张地图揭示了一个事实:不同领域对 Harness 的要求差异极大。软件工程需要持久化的工作空间和精确的工具调用;深度研究需要长程记忆和多源信息整合;计算机使用需要视觉理解和 GUI 操作能力。不存在一个"通用 Harness"能通吃所有场景——Harness Engineering 的未来方向之一,就是针对不同领域设计专门的脚手架。
七、六大未来方向
论文最后指出了 Harness Engineering 面临的六大挑战和机会。
效率:长程任务的计算成本高昂。如何在保证质量的前提下减少推理轮次、压缩上下文、优化工具调用,是规模化部署的关键。
安全:Agent 能执行代码、操作文件、访问网络—— Harness 的安全边界决定了整个系统的风险等级。论文特别指出,Harness 需要内置沙箱、权限管理和审计日志。
持续学习:目前的 Agent 大多是"出厂设置",不会从执行任务中持续改进。如何让 Harness 累积经验、更新技能库、适应用户习惯的变化,是一个开放问题。
状态与环境建模:当前的 Harness 对环境的建模是浅层的——看到什么就是什么。更深层的 Harness 需要理解环境的因果结构、预测行为后果、建立世界模型。
具身 Harness:当 Agent 进入物理世界(机器人、自动驾驶),Harness 需要处理传感器数据、物理约束、实时反馈,这比纯软件环境复杂一个数量级。
评估:论文坦承,Agent 系统的评估远未成熟。现有基准多聚焦于最终结果的准确率,对过程的可靠性、鲁棒性、可解释性缺乏系统评估。论文呼吁建立新的评估范式,把"怎么完成的"和"完成了什么"放在同等重要的位置。
八、结语:范式转移的标志
这篇综述的价值,不在于它提出了什么惊人的新技术,而在于它做了一件事:把 Harness Engineering 从一个行业经验,提升为一个可研究、可教学、可评估的学术范式。
论文的贡献可以概括为三个"一":
- 一个统一词汇表:Harness、Scaffold、Model-side Adaptation——这些术语让研究者能精确讨论 Agent 系统的各个层面
- 一个系统分类:四大组件(工作流、记忆、技能、编排)+ 两大优化方向(脚手架端、模型端)
- 一幅能力地图:五个评估域 + 六大未来方向
当学术界开始为一个概念建立完整的分类体系和评估框架时,这个概念就不再是行业黑话,而成为了正式的研究领域。Harness Engineering 的学术化,标志着 Agent 研究正在经历一场静默但深刻的范式转移——从"模型中心主义"转向"系统中心主义"。未来的 Agent 竞赛,不会只属于拥有最大模型的人,而属于那些最懂得如何为模型搭建脚手架的人。
参考论文: Xinyu Tang, Han Peng, Guoxin Chen, Yuze Shi, Zitao Su, Peiyu Liu, Wayne Xin Zhao, Yawen Li, Zhe Xue. "Agent Systems with Harness Engineering." OpenReview Archive, 2026-05-18. https://openreview.net/pdf?id=nM5tDHrQsx
#深度研究 #HarnessEngineering #Agent系统 #LLM #综述论文 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。