Harness-1深度分析:把AI的"脑子"外包出去,它反而变聪明了
论文:Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
作者:Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han
机构:UIUC, UC Berkeley, Chroma
代码:https://github.com/pat-jj/harness-1
论文:arXiv:2606.02373
时间:2026-06-01
一句话总结
Harness-1 把搜索智能体最头疼的"记忆管理"工作从模型里抽出来,交给外部环境(Harness)维护。模型只需专注于做语义决策(搜什么、留什么、验证什么),不用分心记自己看过什么。结果:一个20B的小模型,在8个检索基准上干翻了更大的开源对手,迁移到新领域的能力反而更强。
核心痛点:AI搜索时为什么"断片"?
当前搜索智能体的典型做法:
模型→发搜索请求→收结果→结果塞进上下文→下一轮基于上下文再决策
问题是,上下文越来越长,模型需要同时做两件事:
- 语义决策:查什么、哪些文档有用、什么时候停
- 状态管理:记住了哪些文档、哪些约束还没满足、哪些声明已验证
论文一针见血:"把可恢复的记账工作丢给策略去学,是低效且病态的。"
想象一下,你在写一个复杂的研究报告,但所有资料都堆在一张没有分区的桌面上,每轮你只能凭记忆重新梳理一遍。这就是当前搜索Agent的处境。
Harness-1 的解决思路很简单:
给AI配一个"外挂收纳盒"——Harness。
Harness-1 的架构:谁是脑子,谁是手?
分工明确
| 角色 | 职责 |
|---|---|
| 模型(Policy) | 语义决策:搜什么、留什么、验证什么、什么时候停 |
| Harness(环境) | 状态维护:候选池、精选集、证据图、验证记录、预算标记 |
Harness 不是帮模型做决策,而是帮模型"记住"和"整理"。模型每次看到的不是原始堆叠的搜索结果,而是一个精心整理过的 WORKING MEMORY。
WORKING MEMORY 的六宫格
Harness 每轮向模型呈现的结构化状态:
| 组件 | 内容 |
|---|---|
| 候选池(Candidate Pool) | 所有搜到的文档,但未精选 |
| 精选集(Curated Set) | 模型选中的文档,按重要性分4级:very_high / high / fair / low |
| 搜索历史(Search History) | 用过什么工具、返回多少新文档 |
| 证据图(Evidence Graph) | 跨文档实体关联:高频实体、桥接文档、孤立线索 |
| 验证记录(Verification Records) | 哪些声明已验证、结果如何 |
| 预算标记(Budget Marker) | 剩余回合数、上下文用量百分比 |
模型能做什么?5类动作
- 搜索:
fan_out_search(5条并行查询)、search_corpus(单条精准搜索)、grep_corpus(正则匹配) - 查阅:
read_document(读全文)、review_docs(从记忆中重读,不重新搜索) - 精选:
curate(添加/删除/改重要性标签) - 验证:
verify(写一条声明,Harness 检查文档是否支持) - 终止:
end_search(提交精选集)
关键设计:动作不是追加文本,而是编辑状态。
curate 直接改精选集,verify 直接写验证记录,review_docs 不耗搜索预算。
三个关键训练设计
1. Auto-Seeding(自动播种):别让RL从空白学起
问题:如果每轮开始精选集都是空的,很多rollout最终都是空的,RL得到相同的奖励信号,无法区分好坏。
解法:第一次搜索有结果后,Harness 自动把Top-8文档放入精选集,标记为fair。模型的任务从"从零构建"变成"筛选优化"。
效果:早期rollout就有了差异,RL能学到有用的东西。
2. 紧凑状态渲染:别让状态描述吃掉上下文
- Sentence-BM25压缩:搜索结果只保留Top-4句BM25高相关句
- 两层去重:Chunk ID去重 + MinHash内容指纹去重(Jaccard 0.85阈值)
- 证据图:用正则提取实体(大写专有名词、年份、日期),渲染高频实体和桥接文档
效果:上下文预算留给真正的决策,而不是被原始搜索结果淹没。
3. 多样化奖励:别只奖励"找到"
终端奖励公式:
关键设计:
- 发现 vs 选择分离:轨迹奖励奖励"搜到过",精选奖励奖励"选中了"
- 答案遗漏惩罚:搜到了答案证据但没选进精选集,要扣分
- 工具多样性:鼓励用不同工具(搜索、grep、查阅、验证),而不是一直重复搜索
- 空集惩罚:精选集为空,直接给-0.2
实验结果:20B 打翻了一票更大的模型
8个基准测试
| 基准 | 领域 | Harness-1 (20B) |
|---|---|---|
| BrowseComp+ | Web | 强 |
| Web synthetic | Web | 强 |
| Patents | 专利 | 强 |
| SEC filings | 金融 | 强 |
| LongSealQA | 多跳QA | 强 |
| Seal0QA | 多跳QA | 强 |
| FRAMES | 多跳QA | 强 |
| HotpotQA | 多跳QA | 强 |
平均精选集召回率:0.730
对比:
- 比最强开源搜索子代理 Tongyi DeepResearch 30B 高+11.4分
- 比 GPT-5.4、Sonnet-4.6、Kimi-K2.5、GPT-OSS-120B 等更大前沿模型的平均召回率更高
- 只有 Opus-4.6 在平均水平上略高
迁移能力:最惊艳的发现
Harness-1 的SFT和RL只在4个基准上训练(BC+, Web, Patents, SEC)。
在训练过的基准上:平均增益 +7.9 分
在未训练过的基准上:平均增益 +17.0 分(2.2倍!)
这说明:模型学的是跨域通用的搜索操作(筛选、验证、桥接、终止),而不是特定领域的搜索模式。这个发现非常有意义——它意味着Harness-1的范式具有真正的通用性。
消融实验:每个组件都有用
在BrowseComp+上逐个关闭组件,观察性能下降:
| 关闭的组件 | 召回率下降 | 失败模式 |
|---|---|---|
| 重要性标签(变二进制) | -12.2% | 早期文档永久占位,阻塞更好的证据 |
| BM25压缩(用原始chunk) | -6.4% | 上下文被淹没,无法跟踪精选集 |
| Auto-Seeding | -5.1% | 空白精选集持久,RL信号同质化 |
| 证据图隐藏 | -4.3% | 多跳查询需要全文重读,搜索冗余 |
| Verify禁用 | -3.8% | 假阳性文档进入精选集,挤走正确答案 |
| Review_docs禁用 | -2.1% | 必须重新搜索才能重审证据,浪费回合 |
| 内容指纹去重(保留ID去重) | -1.6% | 上下文浪费,但可接受 |
| 全部禁用 | -12.2% | 退化为纯追加式工具包装器 |
一个关键结论:Harness不是"信息辅助",而是"构成性"的——它提供了把探索转化为判别性输出的决策基底。
为什么这事重要?
1. 架构分离是AI能力跃迁的关键杠杆
Harness-1 的核心洞见:不是让模型"更聪明地记",而是 让模型不用记。把可外部化的状态管理交给环境,模型就能把算力/上下文集中在真正的语义推理上。
这和计算机科学中"分层抽象"的思想一脉相承:操作系统管理内存,应用程序专注逻辑。LLM应用也需要类似的分层。
2. RL训练的稳定性需要精心设计的状态接口
论文提出的三个训练要求(Warm-Started Curation、Compact Derived-State Rendering、Diversity-Preserving Incentives)是通用的RL设计原则,不仅适用于搜索,也适用于任何需要多轮交互的Agent训练。
3. 小模型+好架构 > 大模型+坏架构
20B的Harness-1在检索质量上击败了120B的GPT-OSS和多个前沿闭源模型。这再次证明:在AI能力竞争中,架构设计 和 训练范式 往往比 模型规模 更关键。
4. 迁移能力是真正的智能标志
在未训练过的基准上反而表现更好,这是一个强有力的信号——Harness-1学到的不是死记硬背,而是 可泛化的搜索策略。这恰恰是当前很多Agent系统缺乏的。
局限性 & 待思考问题
- Harness设计的通用性:当前Harness为搜索任务量身定制。其他任务(如代码生成、多步推理)需要怎样的Harness?
- 状态渲染的压缩损失:Sentence-BM25压缩和去重是否可能过滤掉关键细节?论文在权衡中选择了效率,但某些场景可能需要更保守的压缩。
- Reward工程的复杂性:终端奖励公式有多个权重和阈值,调参负担重。未来工作能否让Reward学习更自动化?
- Teacher依赖:SFT阶段需要GPT-5.4作为Teacher生成轨迹。虽然量不大(899条),但对前沿模型的依赖限制了可复现性。
一句话总结(再说一遍)
Harness-1 告诉我们:AI搜索不够聪明,不是因为它记性差,而是因为它没有一个整理好的"书桌"。 给它一个外挂收纳盒(Harness),它就能用20B的脑子,干出120B的活儿。
"记忆是神圣的,但记忆不应该消耗推理的预算。" —— 这不是论文原话,但应该是。
#小凯 #Agent #搜索 #强化学习 #RL #状态外部化 #Harness-1 #信息检索 #Chroma
参考论文:
Pengcheng Jiang et al. "Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses." arXiv:2606.02373, 2026.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。