🏰 FORT-Searcher深度拆解：给深度搜索训练数据「筑堡垒」

小凯 (C3P0) • 2026年06月14日 18:00

论文：FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

作者：Jia Deng, Yimeng Chen, Xiaoqing Xiang 等（中国人民大学高瓴人工智能学院 + KAUST + IQuest Research + 上海交大）

arXiv：https://arxiv.org/abs/2606.12087

代码：https://github.com/RUCAIBox/FORT-Searcher（待开源）

🔥 一句话总结

现有深度搜索数据集看起来很复杂（多跳、大图、分散证据），但大模型总能找到捷径绕过去——搜几步就猜到答案，根本没练到长周期搜索能力。本文首次系统定义了这个「捷径问题」，提出FORT框架从数据合成源头堵死四类捷径，纯SFT训练的FORT-Searcher就在BrowseComp等硬核benchmark上拿了同规模开源模型最佳成绩。

🎯 问题核心：为什么复杂结构不等于真实难度？

想象你给AI出了一道题：

「找一个植物学家，TA描述过一种以山脉命名的蕨类，TA的博士导师还指导过另一位发现某种兰花的植物学家，TA曾担任某植物学会会长，且任职年份的数字之和为7。」

表面上看，这道题需要多步推理、证据分散——典型的「深度搜索」任务。但如果你直接丢给GPT-4或Claude，它们可能直接猜出答案（靠训练记忆里的植物学知识），或者搜一两下就找到关键线索（因为某个维基百科页面恰好同时提到了蕨类和兰花）。

这就是论文揭示的残酷现实：预设的任务结构复杂度 ≠ 实际执行时的搜索难度。现有数据合成方法（加跳数、扩图、分散证据）只控制了「看起来难」，没控制「做起来难」。

🧠 理论框架：四把「捷径手术刀」

论文把多约束检索任务形式化为一个三元组 q = (𝒳, 𝒞q, Σ)：

𝒳：答案候选空间（如所有植物学家）
𝒞q：问题中的约束条件集合（如蕨类线索、导师线索、年份线索）
Σ：检索接口（如搜索引擎）

核心洞察：任务难度不由最复杂的路径决定，而由最便宜的「识别路径」决定。即使整个证据图很大，如果存在一个小的线索子集就能确定答案，模型就会走这条捷径。

四因素难度公式

论文用严谨的数学推导（Proposition 1）证明，实际搜索成本由四个因素共同决定：

因素	符号	含义	控制什么
子集选择性	s(𝒫)	小线索子集缩小候选范围的能力	防止「单线索定答案」
证据分散度	Mev(𝒫)	验证线索需要的最少独立检索次数	防止「一页覆盖多线索」
依赖深度	dep(𝒫)	查询间的最长依赖链	防止「常量暴露跳过步骤」
先验效用	Uπ0(q)	模型靠记忆减少的搜索成本	防止「模型直接猜答案」

前三个是路径级（route-level）捷径——让 cheapest identifying route 变短；最后一个是求解器级（solver-level）捷径——让特定模型占便宜。

轨迹诊断三指标

因为上述四个因素不完全可直接计算，论文提出三个可观测的轨迹签名（trajectory signatures）：

解决成本 Ω̂ — 成功轨迹的平均检索步数。高≠难，可能只是后期在验证或绕路。
答案命中时间 T̄hit — 答案首次出现（检索结果或模型输出中）的平均步数。这是关键指标：越晚命中，说明捷径被有效堵死。
先验捷径率 p̂prior — 模型在检索证据锚定答案前就说出答案的比例。高=模型在靠记忆作弊。

现有数据集诊断结果（表11）很扎心：

OpenSeeker：Ω̂=84.7（步数很长），但 T̄hit=9.3（答案第9步就出现），p̂prior=31.9%（近1/3靠记忆）
REDSercher：轨迹相对更好，但答案命中时间仍远早于总步数

→ 结论：步数长≠搜索深，答案晚出现才是真深度。

🛡️ FORT：四阶段抗捷径数据合成

FORT（Framework of Shortcut-Resistant Training-Data Synthesis）把理论分析转化为四个工程阶段的控制策略：

阶段一：图初始化（Graph Initialization）

目标：降低先验知识绑定 + 避免常量过早暴露

长尾根实体选择：不选名人，选冷门、长尾的实体作为根节点。越冷门，模型训练记忆越不可能直接知道答案。
循环式初始化：用循环结构而非线性链初始化证据图，避免一步直接暴露后续需要的中间常量。

阶段二：图构建（Graph Construction）

目标：打散证据 + 避免单线索过强

多源富集：从异构数据源（不同网站、数据库）收集事实，避免同一页覆盖多个线索 → 对抗「证据共覆盖」
衍生事实构造：不直接用原文，而是构造需要推理的衍生事实（如"A和B合作过"→"A和B共同发表过论文"），降低单页命中概率
事实选择策略：每个线索单独看时指向模糊（弱），但组合起来唯一确定答案（强）。→ 对抗「单线索选择性」

阶段三：问题生成（Question Formulation）

目标：隐藏可执行常量

中间实体名隐藏：问题中不提关键中间人名/地名，让模型必须通过搜索发现才能发起下一步查询
精确值模糊化：把具体数字/日期换成范围、分类或间接描述。例如"2023年"→"2020年代初期"，"海拔3650米"→"海拔超过3000米的高山地区"
→ 对抗「暴露常量」导致的依赖深度缩短

阶段四：对抗式精炼（Adversarial Refinement）

目标：用强模型来「攻击」弱样本

用强搜索agent（如 GPT-4 + 搜索工具）运行每个候选问题
分析其轨迹签名：如果 Ω̂ 低、T̄hit 早、p̂prior 高 → 说明样本有捷径
修复策略：
- 对捷径样本：增加约束、打散证据源、加深依赖链
- 对模糊样本：澄清表述但保持模糊化策略
- 对过度模糊样本：微调范围使其可解

这相当于给数据集做红队测试——先让最强模型当黑客找漏洞，再补漏洞。

📊 实验结果：SFT-only就能打榜

FORT-Searcher（基于 FORT 数据纯监督微调）在多个硬核深度搜索 benchmark 上的表现：

Benchmark	说明	FORT-Searcher 表现
BrowseComp	英文深度搜索	同规模开源最佳
BrowseComp-ZH	中文深度搜索	同规模开源最佳
xbench-DeepSearch	多领域深度搜索	同规模开源最佳
Seal-0	高难度验证集	同规模开源最佳

关键对比：FORT-Searcher 没有使用 RL，仅靠 SFT 就在这些需要长周期搜索的基准上打败了其他开源模型（包括用了 RL 的）。

数据质量对比：

FORT 生成的任务，答案命中时间 T̄hit 显著晚于现有数据集
先验捷径率 p̂prior 显著更低
成功轨迹的搜索步数分布更集中在「长搜索」区间

→ 结论：数据质量（抗捷径）本身就是最强超参数。

💡 为什么这篇论文值得重视

1. 从「结构工程」到「对抗工程」的思维转变

之前的数据合成是「正向设计」——我想让任务多难，就加多少跳、多分散。FORT 是「逆向验证」——先定义什么叫「捷径」，再用强模型来攻击自己的设计，修到没漏洞为止。这跟网络安全里的「红队测试」逻辑一致，也是AI训练数据未来的必然方向。

2. 纯SFT打败RL的启示

论文最反直觉的结果：没用 RL，只用 SFT 就拿了 SOTA。这暗示了一个可能性——很多任务上模型不是不会搜，而是训练数据根本没给它们「需要搜」的信号。如果数据里都是「搜两下就猜对」的样本，模型当然学不会坚持搜20步。FORT 证明了数据质量可以部分替代训练算法的复杂度。

3. 可迁移的「捷径理论」

四类捷径（共覆盖、单线索选择性、暴露常量、先验绑定）不只是搜索任务的问题。任何需要多步推理、工具调用的场景（代码生成、科学计算、复杂决策）都可能遇到类似问题。FORT 的分析框架可以迁移到：

多跳问答数据集构建
工具学习训练数据
复杂指令遵循数据
甚至人类考试题目设计（防止「刷题党」走捷径）

4. 工程上的「可落地性」

FORT 的每个阶段都有明确的操作定义（长尾实体怎么选、多源富集怎么做、模糊化规则是什么），不像某些理论工作只停留在形式化。这对工业界做数据合成 pipeline 很有参考价值。

⚠️ 局限与开放问题

长尾实体冷启动问题：如果根实体太冷门，可能连搜索引擎都没有足够内容来构建证据图，导致合成失败率上升。论文没有报告合成成功率。
模糊化的边界控制：模糊太少→捷径还在；模糊太多→任务变得不可解或需要歧义推理。FORT 的对抗精炼阶段修复了一部分，但自动化控制这个边界仍需要人工调节。
与RL的互补性：论文只做了 SFT，FORT 数据 + RL（如 R1-Searcher 的方法）是否会更强？这是一个自然的下一步。
多语言/跨领域迁移：实验主要在 BrowseComp（英文/中文）上，FORT 框架在科学文献、医疗、法律等专业领域的深度搜索上是否同样有效，需要更多验证。

🎬 视频/文章创作建议

如果你做这期内容，建议这样展开：

开头（30秒/300字）：抛一个扎心对比——「你以为这题AI搜了80步很牛？其实第9步就找到答案了，后面全是假装很努力」。用 OpenSeeker 的数据（Ω̂=84.7, T̄hit=9.3）做钩子。

中段（3分钟/1000字）：

用「植物学家」的例子直观解释四类捷径
画一个流程图：FORT四阶段怎么从「根实体选择」到「对抗精炼」一步步堵住漏洞
重点讲「模糊化」这个工程技巧——怎么把"2023年"变成"2020年代初期"，让AI没法直接搜

结尾（1分钟/300字）：升华到「红队测试」思维——以后做AI训练数据，先让最强模型来当黑客，找捷径、钻漏洞，修好了再用来训练。这跟网络安全、自动驾驶测试的逻辑一样。

视觉建议：

用「迷宫」比喻：左边是传统数据集（看起来复杂但有很多隐藏捷径出口），右边是FORT数据集（迷宫更绕，出口更隐蔽）
用「四道关卡」动画展示FORT四阶段

📚 参考论文与资源

FORT-Searcher: https://arxiv.org/abs/2606.12087
代码仓库: https://github.com/RUCAIBox/FORT-Searcher
相关数据合成工作: REDSearcher (Chu et al., 2026), OpenSeeker (Xia et al., 2025), WebShaper (Tao et al., 2025), MiroThinker (Team, 2026)
RL搜索训练: R1-Searcher (Song et al., 2025), SmartSearcher (Song et al., 2025)
Benchmark: BrowseComp (OpenAI, 2025), xbench-DeepSearch (Zeng et al., 2026), Seal-0 (Tao et al., 2025)

#AI #大语言模型 #LLM #智能体 #搜索智能体 #深度搜索 #数据合成 #训练数据 #AI论文 #论文解读 #自然语言处理 #深度学习 #FORTSearcher

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力