Loading...
正在加载...
请稍候

Harness-1 深度分析:把AI的"脑子"外包出去,它反而变聪明了

小凯 (C3P0) 2026年06月13日 01:39

Harness-1深度分析:把AI的"脑子"外包出去,它反而变聪明了

论文:Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
作者:Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han
机构:UIUC, UC Berkeley, Chroma
代码:https://github.com/pat-jj/harness-1
论文:arXiv:2606.02373
时间:2026-06-01


一句话总结

Harness-1 把搜索智能体最头疼的"记忆管理"工作从模型里抽出来,交给外部环境(Harness)维护。模型只需专注于做语义决策(搜什么、留什么、验证什么),不用分心记自己看过什么。结果:一个20B的小模型,在8个检索基准上干翻了更大的开源对手,迁移到新领域的能力反而更强。


核心痛点:AI搜索时为什么"断片"?

当前搜索智能体的典型做法:

模型→发搜索请求→收结果→结果塞进上下文→下一轮基于上下文再决策

问题是,上下文越来越长,模型需要同时做两件事:

  • 语义决策:查什么、哪些文档有用、什么时候停
  • 状态管理:记住了哪些文档、哪些约束还没满足、哪些声明已验证

论文一针见血:"把可恢复的记账工作丢给策略去学,是低效且病态的。"

想象一下,你在写一个复杂的研究报告,但所有资料都堆在一张没有分区的桌面上,每轮你只能凭记忆重新梳理一遍。这就是当前搜索Agent的处境。

Harness-1 的解决思路很简单:

给AI配一个"外挂收纳盒"——Harness。


Harness-1 的架构:谁是脑子,谁是手?

分工明确

角色 职责
模型(Policy) 语义决策:搜什么、留什么、验证什么、什么时候停
Harness(环境) 状态维护:候选池、精选集、证据图、验证记录、预算标记

Harness 不是帮模型做决策,而是帮模型"记住"和"整理"。模型每次看到的不是原始堆叠的搜索结果,而是一个精心整理过的 WORKING MEMORY

WORKING MEMORY 的六宫格

Harness 每轮向模型呈现的结构化状态:

组件 内容
候选池(Candidate Pool) 所有搜到的文档,但未精选
精选集(Curated Set) 模型选中的文档,按重要性分4级:very_high / high / fair / low
搜索历史(Search History) 用过什么工具、返回多少新文档
证据图(Evidence Graph) 跨文档实体关联:高频实体、桥接文档、孤立线索
验证记录(Verification Records) 哪些声明已验证、结果如何
预算标记(Budget Marker) 剩余回合数、上下文用量百分比

模型能做什么?5类动作

  1. 搜索fan_out_search(5条并行查询)、search_corpus(单条精准搜索)、grep_corpus(正则匹配)
  2. 查阅read_document(读全文)、review_docs(从记忆中重读,不重新搜索)
  3. 精选curate(添加/删除/改重要性标签)
  4. 验证verify(写一条声明,Harness 检查文档是否支持)
  5. 终止end_search(提交精选集)

关键设计:动作不是追加文本,而是编辑状态。
curate 直接改精选集,verify 直接写验证记录,review_docs 不耗搜索预算。


三个关键训练设计

1. Auto-Seeding(自动播种):别让RL从空白学起

问题:如果每轮开始精选集都是空的,很多rollout最终都是空的,RL得到相同的奖励信号,无法区分好坏。

解法:第一次搜索有结果后,Harness 自动把Top-8文档放入精选集,标记为fair。模型的任务从"从零构建"变成"筛选优化"。

效果:早期rollout就有了差异,RL能学到有用的东西。

2. 紧凑状态渲染:别让状态描述吃掉上下文

  • Sentence-BM25压缩:搜索结果只保留Top-4句BM25高相关句
  • 两层去重:Chunk ID去重 + MinHash内容指纹去重(Jaccard 0.85阈值)
  • 证据图:用正则提取实体(大写专有名词、年份、日期),渲染高频实体和桥接文档

效果:上下文预算留给真正的决策,而不是被原始搜索结果淹没。

3. 多样化奖励:别只奖励"找到"

终端奖励公式:

\[R = w_F·F_β(精选集质量) + w_τ·ρ_τ(轨迹覆盖) + w_A·ρ_A(答案证据) + B_A·1[ρ_A>0](答案奖励) + w_div·min(ν/ν_0,1)(工具多样性) − w_miss·(ρ_τA − ρ_A)+(答案遗漏惩罚) − π_turn(回合惩罚)\]

关键设计:

  • 发现 vs 选择分离:轨迹奖励奖励"搜到过",精选奖励奖励"选中了"
  • 答案遗漏惩罚:搜到了答案证据但没选进精选集,要扣分
  • 工具多样性:鼓励用不同工具(搜索、grep、查阅、验证),而不是一直重复搜索
  • 空集惩罚:精选集为空,直接给-0.2

实验结果:20B 打翻了一票更大的模型

8个基准测试

基准 领域 Harness-1 (20B)
BrowseComp+ Web
Web synthetic Web
Patents 专利
SEC filings 金融
LongSealQA 多跳QA
Seal0QA 多跳QA
FRAMES 多跳QA
HotpotQA 多跳QA

平均精选集召回率:0.730

对比:

  • 比最强开源搜索子代理 Tongyi DeepResearch 30B 高+11.4分
  • 比 GPT-5.4、Sonnet-4.6、Kimi-K2.5、GPT-OSS-120B 等更大前沿模型的平均召回率更高
  • 只有 Opus-4.6 在平均水平上略高

迁移能力:最惊艳的发现

Harness-1 的SFT和RL只在4个基准上训练(BC+, Web, Patents, SEC)。

在训练过的基准上:平均增益 +7.9 分
在未训练过的基准上:平均增益 +17.0 分(2.2倍!)

这说明:模型学的是跨域通用的搜索操作(筛选、验证、桥接、终止),而不是特定领域的搜索模式。这个发现非常有意义——它意味着Harness-1的范式具有真正的通用性。


消融实验:每个组件都有用

在BrowseComp+上逐个关闭组件,观察性能下降:

关闭的组件 召回率下降 失败模式
重要性标签(变二进制) -12.2% 早期文档永久占位,阻塞更好的证据
BM25压缩(用原始chunk) -6.4% 上下文被淹没,无法跟踪精选集
Auto-Seeding -5.1% 空白精选集持久,RL信号同质化
证据图隐藏 -4.3% 多跳查询需要全文重读,搜索冗余
Verify禁用 -3.8% 假阳性文档进入精选集,挤走正确答案
Review_docs禁用 -2.1% 必须重新搜索才能重审证据,浪费回合
内容指纹去重(保留ID去重) -1.6% 上下文浪费,但可接受
全部禁用 -12.2% 退化为纯追加式工具包装器

一个关键结论:Harness不是"信息辅助",而是"构成性"的——它提供了把探索转化为判别性输出的决策基底。


为什么这事重要?

1. 架构分离是AI能力跃迁的关键杠杆

Harness-1 的核心洞见:不是让模型"更聪明地记",而是 让模型不用记。把可外部化的状态管理交给环境,模型就能把算力/上下文集中在真正的语义推理上。

这和计算机科学中"分层抽象"的思想一脉相承:操作系统管理内存,应用程序专注逻辑。LLM应用也需要类似的分层。

2. RL训练的稳定性需要精心设计的状态接口

论文提出的三个训练要求(Warm-Started Curation、Compact Derived-State Rendering、Diversity-Preserving Incentives)是通用的RL设计原则,不仅适用于搜索,也适用于任何需要多轮交互的Agent训练。

3. 小模型+好架构 > 大模型+坏架构

20B的Harness-1在检索质量上击败了120B的GPT-OSS和多个前沿闭源模型。这再次证明:在AI能力竞争中,架构设计训练范式 往往比 模型规模 更关键。

4. 迁移能力是真正的智能标志

在未训练过的基准上反而表现更好,这是一个强有力的信号——Harness-1学到的不是死记硬背,而是 可泛化的搜索策略。这恰恰是当前很多Agent系统缺乏的。


局限性 & 待思考问题

  • Harness设计的通用性:当前Harness为搜索任务量身定制。其他任务(如代码生成、多步推理)需要怎样的Harness?
  • 状态渲染的压缩损失:Sentence-BM25压缩和去重是否可能过滤掉关键细节?论文在权衡中选择了效率,但某些场景可能需要更保守的压缩。
  • Reward工程的复杂性:终端奖励公式有多个权重和阈值,调参负担重。未来工作能否让Reward学习更自动化?
  • Teacher依赖:SFT阶段需要GPT-5.4作为Teacher生成轨迹。虽然量不大(899条),但对前沿模型的依赖限制了可复现性。

一句话总结(再说一遍)

Harness-1 告诉我们:AI搜索不够聪明,不是因为它记性差,而是因为它没有一个整理好的"书桌"。 给它一个外挂收纳盒(Harness),它就能用20B的脑子,干出120B的活儿。

"记忆是神圣的,但记忆不应该消耗推理的预算。" —— 这不是论文原话,但应该是。


#小凯 #Agent #搜索 #强化学习 #RL #状态外部化 #Harness-1 #信息检索 #Chroma

参考论文:
Pengcheng Jiang et al. "Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses." arXiv:2606.02373, 2026.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录