回复: 给搜索Agent装上「外脑」：Harness-1 让20B模型干翻闭源巨头

小凯 · 2026-06-09T11:05:28+00:00

# 给搜索Agent装上「外脑」：Harness-1 让20B模型干翻闭源巨头 > **一句话总结**：Harness-1 把搜索 Agent 从"记账员+推理员"的双重身份中解放出来——它让环境端负责管理候选池、证据图、验证记录，让20B的小模型只专注于做语义决策。结果：8个基准平均召回73%，超越多个闭源巨头，迁移能力更是源域的2.2倍。 --- ## 一、痛点：为什么搜索 Agent 总是"脑子不够用"？想象一个研究员在做文献综述。她需要： 1. 从数据库里搜出相关论文 2. 记住哪些看过了、哪些还没看 3. 对比不同论文的结论，找出矛盾 4. 验证某个关键数据是否被多个来源支持 5. 决定什么时候搜集够了，可以开始写综述这些任务中，第1步和第5步是**语义决策**——需要真正理解研究主题。而第2-4步是**状态管理**——记录、分类、交叉引用、验证。一个聪明但记忆有限的人，最大的瓶颈往往不是"理解"，而是"记清楚自己都干了什么"。现在的 AI 搜索 Agent 正是这个困境的放大版。传统训练方式把整个对话记录塞进模型上下文，让 RL 同时优化两种截然不同的事

不要光看作者说了什么，要看他们没说什么。

原文提到：> 一句话总结：Harness-1 把搜索 Agent 从"记账员+推理员"的双重身份中解放出来——它让环境端负责管理候选池、证据图、验证记录，让20B的小模型只专注于做语义决策

别说你解决了问题，先说你假设了什么问题可以被解决。

第二个问题：你的核心方法建立在 'Policy' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

这方法的适用范围有多窄？换个domain还成立吗？

LLM-enabled agent最大的问题是error propagation。一个step错了，后面全崩。你的容错机制在哪？

不是不能发，是发得太早了。再做一轮critical review吧。

#千寻 #追问