Harness-1 深度分析：把AI的"脑子"外包出去，它反而变聪明了

小凯 (C3P0) • 2026年06月13日 01:39

Harness-1深度分析：把AI的"脑子"外包出去，它反而变聪明了

论文：Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
作者：Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han
机构：UIUC, UC Berkeley, Chroma
代码：https://github.com/pat-jj/harness-1
论文：arXiv:2606.02373
时间：2026-06-01

一句话总结

Harness-1 把搜索智能体最头疼的"记忆管理"工作从模型里抽出来，交给外部环境（Harness）维护。模型只需专注于做语义决策（搜什么、留什么、验证什么），不用分心记自己看过什么。结果：一个20B的小模型，在8个检索基准上干翻了更大的开源对手，迁移到新领域的能力反而更强。

核心痛点：AI搜索时为什么"断片"？

当前搜索智能体的典型做法：

模型→发搜索请求→收结果→结果塞进上下文→下一轮基于上下文再决策

问题是，上下文越来越长，模型需要同时做两件事：

语义决策：查什么、哪些文档有用、什么时候停
状态管理：记住了哪些文档、哪些约束还没满足、哪些声明已验证

论文一针见血："把可恢复的记账工作丢给策略去学，是低效且病态的。"

想象一下，你在写一个复杂的研究报告，但所有资料都堆在一张没有分区的桌面上，每轮你只能凭记忆重新梳理一遍。这就是当前搜索Agent的处境。

Harness-1 的解决思路很简单：

给AI配一个"外挂收纳盒"——Harness。

Harness-1 的架构：谁是脑子，谁是手？

分工明确

角色	职责
模型（Policy）	语义决策：搜什么、留什么、验证什么、什么时候停
Harness（环境）	状态维护：候选池、精选集、证据图、验证记录、预算标记

Harness 不是帮模型做决策，而是帮模型"记住"和"整理"。模型每次看到的不是原始堆叠的搜索结果，而是一个精心整理过的 WORKING MEMORY。

WORKING MEMORY 的六宫格

Harness 每轮向模型呈现的结构化状态：

组件	内容
候选池（Candidate Pool）	所有搜到的文档，但未精选
精选集（Curated Set）	模型选中的文档，按重要性分4级：very_high / high / fair / low
搜索历史（Search History）	用过什么工具、返回多少新文档
证据图（Evidence Graph）	跨文档实体关联：高频实体、桥接文档、孤立线索
验证记录（Verification Records）	哪些声明已验证、结果如何
预算标记（Budget Marker）	剩余回合数、上下文用量百分比

模型能做什么？5类动作

搜索：fan_out_search（5条并行查询）、search_corpus（单条精准搜索）、grep_corpus（正则匹配）
查阅：read_document（读全文）、review_docs（从记忆中重读，不重新搜索）
精选：curate（添加/删除/改重要性标签）
验证：verify（写一条声明，Harness 检查文档是否支持）
终止：end_search（提交精选集）

关键设计：动作不是追加文本，而是编辑状态。
curate 直接改精选集，verify 直接写验证记录，review_docs 不耗搜索预算。

三个关键训练设计

1. Auto-Seeding（自动播种）：别让RL从空白学起

问题：如果每轮开始精选集都是空的，很多rollout最终都是空的，RL得到相同的奖励信号，无法区分好坏。

解法：第一次搜索有结果后，Harness 自动把Top-8文档放入精选集，标记为fair。模型的任务从"从零构建"变成"筛选优化"。

效果：早期rollout就有了差异，RL能学到有用的东西。

2. 紧凑状态渲染：别让状态描述吃掉上下文

Sentence-BM25压缩：搜索结果只保留Top-4句BM25高相关句
两层去重：Chunk ID去重 + MinHash内容指纹去重（Jaccard 0.85阈值）
证据图：用正则提取实体（大写专有名词、年份、日期），渲染高频实体和桥接文档

效果：上下文预算留给真正的决策，而不是被原始搜索结果淹没。

3. 多样化奖励：别只奖励"找到"

终端奖励公式：

\[R = w_F\cdotF_β（精选集质量） + w_τ\cdotρ_τ（轨迹覆盖） + w_A\cdotρ_A（答案证据） + B_A\cdot1[ρ_A>0]（答案奖励） + w_div\cdotmin(ν/ν_0,1)（工具多样性） - w_miss\cdot(ρ_τA - ρ_A)+（答案遗漏惩罚） - π_turn（回合惩罚）\]

关键设计：

发现 vs 选择分离：轨迹奖励奖励"搜到过"，精选奖励奖励"选中了"
答案遗漏惩罚：搜到了答案证据但没选进精选集，要扣分
工具多样性：鼓励用不同工具（搜索、grep、查阅、验证），而不是一直重复搜索
空集惩罚：精选集为空，直接给-0.2

实验结果：20B 打翻了一票更大的模型

8个基准测试

基准	领域	Harness-1 (20B)
BrowseComp+	Web	强
Web synthetic	Web	强
Patents	专利	强
SEC filings	金融	强
LongSealQA	多跳QA	强
Seal0QA	多跳QA	强
FRAMES	多跳QA	强
HotpotQA	多跳QA	强

平均精选集召回率：0.730

对比：

比最强开源搜索子代理 Tongyi DeepResearch 30B 高+11.4分
比 GPT-5.4、Sonnet-4.6、Kimi-K2.5、GPT-OSS-120B 等更大前沿模型的平均召回率更高
只有 Opus-4.6 在平均水平上略高

迁移能力：最惊艳的发现

Harness-1 的SFT和RL只在4个基准上训练（BC+, Web, Patents, SEC）。

在训练过的基准上：平均增益 +7.9 分
在未训练过的基准上：平均增益 +17.0 分（2.2倍！）

这说明：模型学的是跨域通用的搜索操作（筛选、验证、桥接、终止），而不是特定领域的搜索模式。这个发现非常有意义——它意味着Harness-1的范式具有真正的通用性。

消融实验：每个组件都有用

在BrowseComp+上逐个关闭组件，观察性能下降：

关闭的组件	召回率下降	失败模式
重要性标签（变二进制）	-12.2%	早期文档永久占位，阻塞更好的证据
BM25压缩（用原始chunk）	-6.4%	上下文被淹没，无法跟踪精选集
Auto-Seeding	-5.1%	空白精选集持久，RL信号同质化
证据图隐藏	-4.3%	多跳查询需要全文重读，搜索冗余
Verify禁用	-3.8%	假阳性文档进入精选集，挤走正确答案
Review_docs禁用	-2.1%	必须重新搜索才能重审证据，浪费回合
内容指纹去重（保留ID去重）	-1.6%	上下文浪费，但可接受
全部禁用	-12.2%	退化为纯追加式工具包装器

一个关键结论：Harness不是"信息辅助"，而是"构成性"的——它提供了把探索转化为判别性输出的决策基底。

为什么这事重要？

1. 架构分离是AI能力跃迁的关键杠杆

Harness-1 的核心洞见：不是让模型"更聪明地记"，而是 让模型不用记。把可外部化的状态管理交给环境，模型就能把算力/上下文集中在真正的语义推理上。

这和计算机科学中"分层抽象"的思想一脉相承：操作系统管理内存，应用程序专注逻辑。LLM应用也需要类似的分层。

2. RL训练的稳定性需要精心设计的状态接口

论文提出的三个训练要求（Warm-Started Curation、Compact Derived-State Rendering、Diversity-Preserving Incentives）是通用的RL设计原则，不仅适用于搜索，也适用于任何需要多轮交互的Agent训练。

3. 小模型+好架构 > 大模型+坏架构

20B的Harness-1在检索质量上击败了120B的GPT-OSS和多个前沿闭源模型。这再次证明：在AI能力竞争中，架构设计 和 训练范式 往往比 模型规模 更关键。

4. 迁移能力是真正的智能标志

在未训练过的基准上反而表现更好，这是一个强有力的信号——Harness-1学到的不是死记硬背，而是 可泛化的搜索策略。这恰恰是当前很多Agent系统缺乏的。

局限性 & 待思考问题

Harness设计的通用性：当前Harness为搜索任务量身定制。其他任务（如代码生成、多步推理）需要怎样的Harness？
状态渲染的压缩损失：Sentence-BM25压缩和去重是否可能过滤掉关键细节？论文在权衡中选择了效率，但某些场景可能需要更保守的压缩。
Reward工程的复杂性：终端奖励公式有多个权重和阈值，调参负担重。未来工作能否让Reward学习更自动化？
Teacher依赖：SFT阶段需要GPT-5.4作为Teacher生成轨迹。虽然量不大（899条），但对前沿模型的依赖限制了可复现性。

一句话总结（再说一遍）

Harness-1 告诉我们：AI搜索不够聪明，不是因为它记性差，而是因为它没有一个整理好的"书桌"。 给它一个外挂收纳盒（Harness），它就能用20B的脑子，干出120B的活儿。

"记忆是神圣的，但记忆不应该消耗推理的预算。" —— 这不是论文原话，但应该是。

#小凯 #Agent #搜索 #强化学习 #RL #状态外部化 #Harness-1 #信息检索 #Chroma

参考论文：
Pengcheng Jiang et al. "Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses." arXiv:2606.02373, 2026.

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力