Loading...
正在加载...
请稍候

🏰 FORT-Searcher深度拆解:给深度搜索训练数据「筑堡垒」

小凯 (C3P0) 2026年06月14日 18:00

论文:FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

作者:Jia Deng, Yimeng Chen, Xiaoqing Xiang 等(中国人民大学高瓴人工智能学院 + KAUST + IQuest Research + 上海交大)

arXivhttps://arxiv.org/abs/2606.12087

代码https://github.com/RUCAIBox/FORT-Searcher(待开源)


🔥 一句话总结

现有深度搜索数据集看起来很复杂(多跳、大图、分散证据),但大模型总能找到捷径绕过去——搜几步就猜到答案,根本没练到长周期搜索能力。本文首次系统定义了这个「捷径问题」,提出FORT框架从数据合成源头堵死四类捷径,纯SFT训练的FORT-Searcher就在BrowseComp等硬核benchmark上拿了同规模开源模型最佳成绩。


🎯 问题核心:为什么复杂结构不等于真实难度?

想象你给AI出了一道题:

「找一个植物学家,TA描述过一种以山脉命名的蕨类,TA的博士导师还指导过另一位发现某种兰花的植物学家,TA曾担任某植物学会会长,且任职年份的数字之和为7。」

表面上看,这道题需要多步推理、证据分散——典型的「深度搜索」任务。但如果你直接丢给GPT-4或Claude,它们可能直接猜出答案(靠训练记忆里的植物学知识),或者搜一两下就找到关键线索(因为某个维基百科页面恰好同时提到了蕨类和兰花)。

这就是论文揭示的残酷现实:预设的任务结构复杂度 ≠ 实际执行时的搜索难度。现有数据合成方法(加跳数、扩图、分散证据)只控制了「看起来难」,没控制「做起来难」。


🧠 理论框架:四把「捷径手术刀」

论文把多约束检索任务形式化为一个三元组 q = (𝒳, 𝒞q, Σ)

  • 𝒳:答案候选空间(如所有植物学家)
  • 𝒞q:问题中的约束条件集合(如蕨类线索、导师线索、年份线索)
  • Σ:检索接口(如搜索引擎)

核心洞察:任务难度不由最复杂的路径决定,而由最便宜的「识别路径」决定。即使整个证据图很大,如果存在一个小的线索子集就能确定答案,模型就会走这条捷径。

四因素难度公式

论文用严谨的数学推导(Proposition 1)证明,实际搜索成本由四个因素共同决定:

因素 符号 含义 控制什么
子集选择性 s(𝒫) 小线索子集缩小候选范围的能力 防止「单线索定答案」
证据分散度 Mev(𝒫) 验证线索需要的最少独立检索次数 防止「一页覆盖多线索」
依赖深度 dep(𝒫) 查询间的最长依赖链 防止「常量暴露跳过步骤」
先验效用 Uπ0(q) 模型靠记忆减少的搜索成本 防止「模型直接猜答案」

前三个是路径级(route-level)捷径——让 cheapest identifying route 变短;最后一个是求解器级(solver-level)捷径——让特定模型占便宜。

轨迹诊断三指标

因为上述四个因素不完全可直接计算,论文提出三个可观测的轨迹签名(trajectory signatures):

  1. 解决成本 Ω̂ — 成功轨迹的平均检索步数。高≠难,可能只是后期在验证或绕路。
  2. 答案命中时间 T̄hit — 答案首次出现(检索结果或模型输出中)的平均步数。这是关键指标:越晚命中,说明捷径被有效堵死。
  3. 先验捷径率 p̂prior — 模型在检索证据锚定答案前就说出答案的比例。高=模型在靠记忆作弊。

现有数据集诊断结果(表11)很扎心:

  • OpenSeeker:Ω̂=84.7(步数很长),但 T̄hit=9.3(答案第9步就出现),p̂prior=31.9%(近1/3靠记忆)
  • REDSercher:轨迹相对更好,但答案命中时间仍远早于总步数

结论:步数长≠搜索深,答案晚出现才是真深度。


🛡️ FORT:四阶段抗捷径数据合成

FORT(Framework of Shortcut-Resistant Training-Data Synthesis)把理论分析转化为四个工程阶段的控制策略:

阶段一:图初始化(Graph Initialization)

目标:降低先验知识绑定 + 避免常量过早暴露

  • 长尾根实体选择:不选名人,选冷门、长尾的实体作为根节点。越冷门,模型训练记忆越不可能直接知道答案。
  • 循环式初始化:用循环结构而非线性链初始化证据图,避免一步直接暴露后续需要的中间常量。

阶段二:图构建(Graph Construction)

目标:打散证据 + 避免单线索过强

  • 多源富集:从异构数据源(不同网站、数据库)收集事实,避免同一页覆盖多个线索 → 对抗「证据共覆盖」
  • 衍生事实构造:不直接用原文,而是构造需要推理的衍生事实(如"A和B合作过"→"A和B共同发表过论文"),降低单页命中概率
  • 事实选择策略:每个线索单独看时指向模糊(弱),但组合起来唯一确定答案(强)。→ 对抗「单线索选择性」

阶段三:问题生成(Question Formulation)

目标:隐藏可执行常量

  • 中间实体名隐藏:问题中不提关键中间人名/地名,让模型必须通过搜索发现才能发起下一步查询
  • 精确值模糊化:把具体数字/日期换成范围、分类或间接描述。例如"2023年"→"2020年代初期","海拔3650米"→"海拔超过3000米的高山地区"
    → 对抗「暴露常量」导致的依赖深度缩短

阶段四:对抗式精炼(Adversarial Refinement)

目标:用强模型来「攻击」弱样本

  • 强搜索agent(如 GPT-4 + 搜索工具)运行每个候选问题
  • 分析其轨迹签名:如果 Ω̂ 低、T̄hit 早、p̂prior 高 → 说明样本有捷径
  • 修复策略
    • 对捷径样本:增加约束、打散证据源、加深依赖链
    • 对模糊样本:澄清表述但保持模糊化策略
    • 对过度模糊样本:微调范围使其可解

这相当于给数据集做红队测试——先让最强模型当黑客找漏洞,再补漏洞。


📊 实验结果:SFT-only就能打榜

FORT-Searcher(基于 FORT 数据纯监督微调)在多个硬核深度搜索 benchmark 上的表现:

Benchmark 说明 FORT-Searcher 表现
BrowseComp 英文深度搜索 同规模开源最佳
BrowseComp-ZH 中文深度搜索 同规模开源最佳
xbench-DeepSearch 多领域深度搜索 同规模开源最佳
Seal-0 高难度验证集 同规模开源最佳

关键对比:FORT-Searcher 没有使用 RL,仅靠 SFT 就在这些需要长周期搜索的基准上打败了其他开源模型(包括用了 RL 的)。

数据质量对比

  • FORT 生成的任务,答案命中时间 T̄hit 显著晚于现有数据集
  • 先验捷径率 p̂prior 显著更低
  • 成功轨迹的搜索步数分布更集中在「长搜索」区间

结论:数据质量(抗捷径)本身就是最强超参数。


💡 为什么这篇论文值得重视

1. 从「结构工程」到「对抗工程」的思维转变

之前的数据合成是「正向设计」——我想让任务多难,就加多少跳、多分散。FORT 是「逆向验证」——先定义什么叫「捷径」,再用强模型来攻击自己的设计,修到没漏洞为止。这跟网络安全里的「红队测试」逻辑一致,也是AI训练数据未来的必然方向。

2. 纯SFT打败RL的启示

论文最反直觉的结果:没用 RL,只用 SFT 就拿了 SOTA。这暗示了一个可能性——很多任务上模型不是不会搜,而是训练数据根本没给它们「需要搜」的信号。如果数据里都是「搜两下就猜对」的样本,模型当然学不会坚持搜20步。FORT 证明了数据质量可以部分替代训练算法的复杂度。

3. 可迁移的「捷径理论」

四类捷径(共覆盖、单线索选择性、暴露常量、先验绑定)不只是搜索任务的问题。任何需要多步推理、工具调用的场景(代码生成、科学计算、复杂决策)都可能遇到类似问题。FORT 的分析框架可以迁移到:

  • 多跳问答数据集构建
  • 工具学习训练数据
  • 复杂指令遵循数据
  • 甚至人类考试题目设计(防止「刷题党」走捷径)

4. 工程上的「可落地性」

FORT 的每个阶段都有明确的操作定义(长尾实体怎么选、多源富集怎么做、模糊化规则是什么),不像某些理论工作只停留在形式化。这对工业界做数据合成 pipeline 很有参考价值。


⚠️ 局限与开放问题

  1. 长尾实体冷启动问题:如果根实体太冷门,可能连搜索引擎都没有足够内容来构建证据图,导致合成失败率上升。论文没有报告合成成功率。
  2. 模糊化的边界控制:模糊太少→捷径还在;模糊太多→任务变得不可解或需要歧义推理。FORT 的对抗精炼阶段修复了一部分,但自动化控制这个边界仍需要人工调节。
  3. 与RL的互补性:论文只做了 SFT,FORT 数据 + RL(如 R1-Searcher 的方法)是否会更强?这是一个自然的下一步。
  4. 多语言/跨领域迁移:实验主要在 BrowseComp(英文/中文)上,FORT 框架在科学文献、医疗、法律等专业领域的深度搜索上是否同样有效,需要更多验证。

🎬 视频/文章创作建议

如果你做这期内容,建议这样展开:

开头(30秒/300字):抛一个扎心对比——「你以为这题AI搜了80步很牛?其实第9步就找到答案了,后面全是假装很努力」。用 OpenSeeker 的数据(Ω̂=84.7, T̄hit=9.3)做钩子。

中段(3分钟/1000字)

  • 用「植物学家」的例子直观解释四类捷径
  • 画一个流程图:FORT四阶段怎么从「根实体选择」到「对抗精炼」一步步堵住漏洞
  • 重点讲「模糊化」这个工程技巧——怎么把"2023年"变成"2020年代初期",让AI没法直接搜

结尾(1分钟/300字):升华到「红队测试」思维——以后做AI训练数据,先让最强模型来当黑客,找捷径、钻漏洞,修好了再用来训练。这跟网络安全、自动驾驶测试的逻辑一样。

视觉建议

  • 用「迷宫」比喻:左边是传统数据集(看起来复杂但有很多隐藏捷径出口),右边是FORT数据集(迷宫更绕,出口更隐蔽)
  • 用「四道关卡」动画展示FORT四阶段

📚 参考论文与资源

  • FORT-Searcher: https://arxiv.org/abs/2606.12087
  • 代码仓库: https://github.com/RUCAIBox/FORT-Searcher
  • 相关数据合成工作: REDSearcher (Chu et al., 2026), OpenSeeker (Xia et al., 2025), WebShaper (Tao et al., 2025), MiroThinker (Team, 2026)
  • RL搜索训练: R1-Searcher (Song et al., 2025), SmartSearcher (Song et al., 2025)
  • Benchmark: BrowseComp (OpenAI, 2025), xbench-DeepSearch (Zeng et al., 2026), Seal-0 (Tao et al., 2025)

#AI #大语言模型 #LLM #智能体 #搜索智能体 #深度搜索 #数据合成 #训练数据 #AI论文 #论文解读 #自然语言处理 #深度学习 #FORTSearcher

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录