🏰 FORT-Searcher深度拆解:给深度搜索训练数据「筑堡垒」
论文:FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents
作者:Jia Deng, Yimeng Chen, Xiaoqing Xiang 等(中国人民大学高瓴人工智能学院 + KAUST + IQuest Research + 上海交大)
arXiv:https://arxiv.org/abs/2606.12087
代码:https://github.com/RUCAIBox/FORT-Searcher(待开源)
---
🔥 一句话总结
现有深度搜索数据集看起来很复杂(多跳、大图、分散证据),但大模型总能找到捷径绕过去——搜几步就猜到答案,根本没练到长周期搜索能力。本文首次系统定义了这个「捷径问题」,提出FORT框架从数据合成源头堵死四类捷径,纯SFT训练的FORT-Searcher就在BrowseComp等硬核benchmark上拿了同规模开源模型最佳成绩。
---
🎯 问题核心:为什么复杂结构不等于真实难度?
想象你给AI出了一道题:
> 「找一个植物学家,TA描述过一种以山脉命名的蕨类,TA的博士导师还指导过另一位发现某种兰花的植物学家,TA曾担任某植物学会会长,且任职年份的数字之和为7。」
表面上看,这道题需要多步推理、证据分散——典型的「深度搜索」任务。但如果你直接丢给GPT-4或Claude,它们可能直接猜出答案(靠训练记忆里的植物学知识),或者搜一两下就找到关键线索(因为某个维基百科页面恰好同时提到了蕨类和兰花)。
这就是论文揭示的残酷现实:预设的任务结构复杂度 ≠ 实际执行时的搜索难度。现有数据合成方法(加跳数、扩图、分散证据)只控制了「看起来难」,没控制「做起来难」。
---
🧠 理论框架:四把「捷径手术刀」
论文把多约束检索任务形式化为一个三元组 q = (𝒳, 𝒞q, Σ):
- 𝒳:答案候选空间(如所有植物学家)
- 𝒞q:问题中的约束条件集合(如蕨类线索、导师线索、年份线索)
- Σ:检索接口(如搜索引擎)
四因素难度公式
论文用严谨的数学推导(Proposition 1)证明,实际搜索成本由四个因素共同决定:
| 因素 | 符号 | 含义 | 控制什么 |
|---|---|---|---|
| 子集选择性 | s(𝒫) | 小线索子集缩小候选范围的能力 | 防止「单线索定答案」 |
| 证据分散度 | Mev(𝒫) | 验证线索需要的最少独立检索次数 | 防止「一页覆盖多线索」 |
| 依赖深度 | dep(𝒫) | 查询间的最长依赖链 | 防止「常量暴露跳过步骤」 |
| 先验效用 | Uπ0(q) | 模型靠记忆减少的搜索成本 | 防止「模型直接猜答案」 |
轨迹诊断三指标
因为上述四个因素不完全可直接计算,论文提出三个可观测的轨迹签名(trajectory signatures):
1. 解决成本 Ω̂ — 成功轨迹的平均检索步数。高≠难,可能只是后期在验证或绕路。 2. 答案命中时间 T̄hit — 答案首次出现(检索结果或模型输出中)的平均步数。这是关键指标:越晚命中,说明捷径被有效堵死。 3. 先验捷径率 p̂prior — 模型在检索证据锚定答案前就说出答案的比例。高=模型在靠记忆作弊。
现有数据集诊断结果(表11)很扎心:
- OpenSeeker:Ω̂=84.7(步数很长),但 T̄hit=9.3(答案第9步就出现),p̂prior=31.9%(近1/3靠记忆)
- REDSercher:轨迹相对更好,但答案命中时间仍远早于总步数
---
🛡️ FORT:四阶段抗捷径数据合成
FORT(Framework of Shortcut-Resistant Training-Data Synthesis)把理论分析转化为四个工程阶段的控制策略:
阶段一:图初始化(Graph Initialization)
目标:降低先验知识绑定 + 避免常量过早暴露- 长尾根实体选择:不选名人,选冷门、长尾的实体作为根节点。越冷门,模型训练记忆越不可能直接知道答案。
- 循环式初始化:用循环结构而非线性链初始化证据图,避免一步直接暴露后续需要的中间常量。
阶段二:图构建(Graph Construction)
目标:打散证据 + 避免单线索过强- 多源富集:从异构数据源(不同网站、数据库)收集事实,避免同一页覆盖多个线索 → 对抗「证据共覆盖」
- 衍生事实构造:不直接用原文,而是构造需要推理的衍生事实(如"A和B合作过"→"A和B共同发表过论文"),降低单页命中概率
- 事实选择策略:每个线索单独看时指向模糊(弱),但组合起来唯一确定答案(强)。→ 对抗「单线索选择性」
阶段三:问题生成(Question Formulation)
目标:隐藏可执行常量- 中间实体名隐藏:问题中不提关键中间人名/地名,让模型必须通过搜索发现才能发起下一步查询
- 精确值模糊化:把具体数字/日期换成范围、分类或间接描述。例如"2023年"→"2020年代初期","海拔3650米"→"海拔超过3000米的高山地区"
阶段四:对抗式精炼(Adversarial Refinement)
目标:用强模型来「攻击」弱样本- 用强搜索agent(如 GPT-4 + 搜索工具)运行每个候选问题
- 分析其轨迹签名:如果 Ω̂ 低、T̄hit 早、p̂prior 高 → 说明样本有捷径
- 修复策略:
- 对捷径样本:增加约束、打散证据源、加深依赖链
- 对模糊样本:澄清表述但保持模糊化策略
- 对过度模糊样本:微调范围使其可解
---
📊 实验结果:SFT-only就能打榜
FORT-Searcher(基于 FORT 数据纯监督微调)在多个硬核深度搜索 benchmark 上的表现:
| Benchmark | 说明 | FORT-Searcher 表现 |
|---|---|---|
| BrowseComp | 英文深度搜索 | 同规模开源最佳 |
| BrowseComp-ZH | 中文深度搜索 | 同规模开源最佳 |
| xbench-DeepSearch | 多领域深度搜索 | 同规模开源最佳 |
| Seal-0 | 高难度验证集 | 同规模开源最佳 |
数据质量对比:
- FORT 生成的任务,答案命中时间 T̄hit 显著晚于现有数据集
- 先验捷径率 p̂prior 显著更低
- 成功轨迹的搜索步数分布更集中在「长搜索」区间
---
💡 为什么这篇论文值得重视
1. 从「结构工程」到「对抗工程」的思维转变
之前的数据合成是「正向设计」——我想让任务多难,就加多少跳、多分散。FORT 是「逆向验证」——先定义什么叫「捷径」,再用强模型来攻击自己的设计,修到没漏洞为止。这跟网络安全里的「红队测试」逻辑一致,也是AI训练数据未来的必然方向。
2. 纯SFT打败RL的启示
论文最反直觉的结果:没用 RL,只用 SFT 就拿了 SOTA。这暗示了一个可能性——很多任务上模型不是不会搜,而是训练数据根本没给它们「需要搜」的信号。如果数据里都是「搜两下就猜对」的样本,模型当然学不会坚持搜20步。FORT 证明了数据质量可以部分替代训练算法的复杂度。
3. 可迁移的「捷径理论」
四类捷径(共覆盖、单线索选择性、暴露常量、先验绑定)不只是搜索任务的问题。任何需要多步推理、工具调用的场景(代码生成、科学计算、复杂决策)都可能遇到类似问题。FORT 的分析框架可以迁移到:
- 多跳问答数据集构建
- 工具学习训练数据
- 复杂指令遵循数据
- 甚至人类考试题目设计(防止「刷题党」走捷径)
4. 工程上的「可落地性」
FORT 的每个阶段都有明确的操作定义(长尾实体怎么选、多源富集怎么做、模糊化规则是什么),不像某些理论工作只停留在形式化。这对工业界做数据合成 pipeline 很有参考价值。
---
⚠️ 局限与开放问题
1. 长尾实体冷启动问题:如果根实体太冷门,可能连搜索引擎都没有足够内容来构建证据图,导致合成失败率上升。论文没有报告合成成功率。 2. 模糊化的边界控制:模糊太少→捷径还在;模糊太多→任务变得不可解或需要歧义推理。FORT 的对抗精炼阶段修复了一部分,但自动化控制这个边界仍需要人工调节。 3. 与RL的互补性:论文只做了 SFT,FORT 数据 + RL(如 R1-Searcher 的方法)是否会更强?这是一个自然的下一步。 4. 多语言/跨领域迁移:实验主要在 BrowseComp(英文/中文)上,FORT 框架在科学文献、医疗、法律等专业领域的深度搜索上是否同样有效,需要更多验证。
---
🎬 视频/文章创作建议
如果你做这期内容,建议这样展开:
开头(30秒/300字):抛一个扎心对比——「你以为这题AI搜了80步很牛?其实第9步就找到答案了,后面全是假装很努力」。用 OpenSeeker 的数据(Ω̂=84.7, T̄hit=9.3)做钩子。
中段(3分钟/1000字):
- 用「植物学家」的例子直观解释四类捷径
- 画一个流程图:FORT四阶段怎么从「根实体选择」到「对抗精炼」一步步堵住漏洞
- 重点讲「模糊化」这个工程技巧——怎么把"2023年"变成"2020年代初期",让AI没法直接搜
视觉建议:
- 用「迷宫」比喻:左边是传统数据集(看起来复杂但有很多隐藏捷径出口),右边是FORT数据集(迷宫更绕,出口更隐蔽)
- 用「四道关卡」动画展示FORT四阶段
📚 参考论文与资源
- FORT-Searcher: https://arxiv.org/abs/2606.12087
- 代码仓库: https://github.com/RUCAIBox/FORT-Searcher
- 相关数据合成工作: REDSearcher (Chu et al., 2026), OpenSeeker (Xia et al., 2025), WebShaper (Tao et al., 2025), MiroThinker (Team, 2026)
- RL搜索训练: R1-Searcher (Song et al., 2025), SmartSearcher (Song et al., 2025)
- Benchmark: BrowseComp (OpenAI, 2025), xbench-DeepSearch (Zeng et al., 2026), Seal-0 (Tao et al., 2025)
#AI #大语言模型 #LLM #智能体 #搜索智能体 #深度搜索 #数据合成 #训练数据 #AI论文 #论文解读 #自然语言处理 #深度学习 #FORTSearcher
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens