OSU NLP Group 联合 Amazon AGI SF Lab 放出了 QUEST——一个从 2B 到 35B 全尺寸开源的深度研究 Agent 家族。8 个跨类型基准上，它的表现接近甚至超过了 OpenAI DeepResearch、Kimi Researcher 等闭源前沿系统。

关键数字：只用了 8000 条合成训练数据。

---

为什么这事重要：闭源围墙正在被推倒

深度研究 Agent 是 2025-2026 年最热的赛道之一。OpenAI DeepResearch、Kimi Researcher、Manus Wide Research、Anthropic Multi-Agent Research——这些系统把搜索引擎从"返回关键词匹配的页面"推进到"自主调研并生成引用完整的报告"。

但它们全是闭源的。模型权重不公开，训练数据不公开，训练配方不公开。

开源侧也在追赶：Tongyi-DR、OpenResearcher、SFR-DeepResearch、OpenSeeker……但各自只覆盖特定场景。有的专精事实检索，有的只擅长报告生成，没有一个统一的、跨任务类型都强的开源方案。

QUEST 想做的就是这个：一个通用目的、全尺寸开源、跨任务类型都强的深度研究 Agent。

---

核心武器一：统一评分树（Rubric Tree）——把"好答案"的定义结构化

深度研究任务的评估方式天然分裂为两种：

客观任务：答案可外部验证，对错分明（BrowseComp、GAIA）
开放任务：答案需要多维度主观评判（DeepResearch Bench——覆盖度、组织结构、清晰度、洞察力）

现有开源 Agent 的训练数据大多是"复杂问题 + 单一可验证答案"的格式。这种格式有两个致命缺陷：

1. 泛化差：只在事实检索类任务上有效，报告生成类任务完全无法覆盖 2. 奖励稀疏：RL 训练时只有二元对错信号，无法进行细粒度的信用分配

QUEST 的解法：Rubric Tree（评分树）。

这不是一个评估工具，而是整个训练框架的元结构。

评分树是一个层次化的约束分解：

根节点：最终总分
内部节点：高层约束（如"技术对比分析"），递归分解为子约束
叶节点：可直接验证的细粒度标准（如"引用了 Apple 官方折叠屏专利"），每个叶节点给二元分数

图 3 展示了两个例子：

客观任务："找出 2024 年美国两起李斯特菌爆发中死亡人数更多的一起"——评分树分解为"爆发 1 识别"→"Boar's Head 熟食肉/10人死亡"，"爆发 2 识别"→"Rizo-Lopez 奶酪/2人死亡"，最终"对比死亡数得出结论"。每个节点可独立验证。

开放任务："评估 Apple 进入折叠屏手机市场"——根节点下固定四个共享标准：Instruction Following、Comprehensiveness、Readability、Insight。每个标准下有自适应的细分子节点。

这个设计的威力在于：

统一框架：同一套结构同时覆盖客观任务和开放任务
细粒度奖励：RL 训练时，根节点的部分分数提供了比二元对错更丰富的优化信号
自动可扩展：不需要人工写评估脚本，GPT-5 自动把评分树翻译成 Python 验证代码

---

核心武器二：全合成数据流水线——8000 条任务从哪来

QUEST 的训练数据叫 QUEST-8K，全部合成，零人工标注。

客观任务合成： 1. 从 Google Trends 采样 trending keywords 作为主题种子 2. 用 Claude Sonnet 4.5 自主浏览网页、收集信息、提取可验证约束 3. 组织成评分树 4. 迭代精炼和验证——Claude 自己判断评分树是否一致、可靠 5. 通过验证后，用 GPT-5 生成对应的 Python 评估脚本

开放任务合成： 1. 同样从关键词开始，Claude Sonnet 4.5 做网页探索 2. 评分树的根节点固定四个共享标准（instruction following, comprehensiveness, readability, insight） 3. 子节点自适应生成，由 GPT-5 分配权重（取三次生成的平均以提高稳定性） 4. 用 Claude Sonnet 4.5 生成参考报告 5. 评估时，Judge Model 同时看候选报告和参考报告，分别给 0-10 分，最终分数 = J(候选) / (J(候选) + J(参考))。超过 0.5 表示候选优于参考

注意一个细节：开放任务的评估用了 pairwise normalization——候选报告的质量不是绝对打分，而是相对于参考报告的比例。这避免了不同任务难度不同导致的评分尺度漂移。

---

核心武器三：三段式训练配方——从适应到模仿到优化

QUEST 的训练不是一次性 SFT 或一次性 RL，而是三个阶段接力：

阶段一：中期训练（Mid-Training）

目标：让基础模型适应长程搜索交互的格式和节奏。

基础模型（Qwen3-30B-A3B 或 Qwen3-35B-A3B）预训练时主要接触的是纯文本，没有多轮工具调用（搜索→阅读→推理→再搜索）的经验。MT 阶段用合成数据让模型熟悉这种交互模式。

阶段二：监督微调（SFT）

目标：教会 Agent 模仿高质量的工具使用轨迹。

SFT 数据包括：

客观任务：query + rubric tree + 合成的高质量回答轨迹
开放任务：query + rubric tree + 参考报告

论文做了控制实验：仅 SFT 的小模型（2B-35B）在事实检索基准上表现意外强劲——QUEST-2B-SFT 在 HLE 上达到 30.3，GAIA 上 72.8。这说明深度研究能力的很大一部分可以仅通过高质量模仿数据注入，不需要 RL。但开放任务的报告合成对小模型仍较困难。

阶段三：强化学习（RL）

目标：用 rubric-based 信号 优化策略，超越模仿上限。

RL 的奖励不是二元对错，而是评分树根节点的部分分数。这让模型在多维约束下学习权衡：引用完整性和洞察力之间可能有张力，模型需要在 RL 中找到最优平衡。

消融实验（Figure 2 的补充分析）显示：

Vanilla（无训练）：基线
+SFT：显著提升
+MT：在 SFT 基础上进一步提升长程交互能力
+RL：在 MT+SFT 基础上进一步逼近闭源系统

---

核心武器四：上下文管理——给 Agent 装上"认知过滤器"

深度研究 Agent 的核心挑战之一是长程信息遗忘。搜索 20 轮后，前面的结论可能淹没在上下文中，Agent 开始"失忆"或"混乱"。

现有开源方案的解法很粗糙：要么限制搜索轮数（牺牲深度），要么依赖超大上下文窗口（成本高、注意力稀释）。

QUEST 的 Context Management 是一个结构化的认知状态机：

Context State（JSON 对象）把积累的知识分三个桶：

1. Trusted（可信）：Agent 已通过来源 URL 验证过的事实。可直接复用，不需要再次验证。 2. Untrusted（不可信）：与其他来源矛盾的声明，附带不信任的原因。被降级处理，除非有新证据要求重新验证。 3. Uncertain（存疑）：部分支持但不够充分的声明，每个都标注了需要跟进访问的 URL 或需要重新查询的关键词。

当上下文窗口超过阈值时，Context Condenser（GPT-5-mini）介入：

输入：完整原始历史（搜索查询、结果、访问过的 URL 和内容、推理轨迹、之前的摘要记忆）
输出：更新后的 Context State

Condensation 之后，Agent 在一个全新的上下文窗口中继续，只带着结构化的 Context State 作为"记忆"。

这个设计的精妙之处：

Uncertain entries 直接指导后续行动：Agent 知道哪些线索还需要挖
Trusted entries 避免重复查询：已验证的事实不再浪费 API 调用
Untrusted entries 防止循环：Agent 不会反复验证同一个已被证伪的声明

论文在 BrowseComp 和 BrowseComp-Plus 上用了"discard-all"策略（Figure 1 注释），这意味着在长程检索中，QUEST 完全依赖 Context State 来维持认知连贯性，而不是靠上下文窗口硬撑。

---

实验结果：8 个基准上的全景对比

QUEST-35B 在 8 个基准上的表现：

基准	类型	QUEST-35B	对比闭源
BrowseComp	事实检索	64.6%	接近 OpenAI DeepResearch
BrowseComp-Plus	事实检索（更难）	—	—
Mind2Web 2	引用验证	30.7%	突出
HLE	高难度事实	—	—
GAIA	多步推理	—	—
DeepResearch Bench	报告合成	48.2%	接近甚至超过闭源
WideSearch	宽域搜索	—	—
LiveResearchBench	实时研究	—	—

Figure 1 的全景图更直观：QUEST-35B 在 8 个基准上整体最优（开源侧），部分基准超过闭源系统。

30B 规模的控制实验（QUEST-30B vs Tongyi-DR vs OpenResearcher）：

Tongyi-DR 在事实检索类基准（BrowseComp、HLE、GAIA）上很强——这和它的单答案合成数据训练方式一致
OpenResearcher 在 BrowseComp-Plus 上最强
QUEST-30B 在 Mind2Web 2 和 DeepResearch Bench 上表现最好——说明跨基准的均衡性来自训练配方，而非单纯的参数规模

Scaling 趋势：2B→4B→9B→35B，所有基准上的性能单调递增。这验证了训练配方的可扩展性。

---

为什么只用 8000 条任务就够了

这是论文中最反直觉的数字。

深度研究 Agent 的训练通常被认为需要海量数据。QUEST-8K 只有 8000 条合成任务，却能支撑从 2B 到 35B 模型的训练。

论文没有明确解释这个数字，但从技术设计可以推断：

1. Rubric Tree 提供了高密度监督信号：每个任务不是单一答案，而是一棵 10-30 个节点的约束树。8000 条任务 = 数十万条细粒度训练信号。 2. 任务本身足够复杂：每条任务都需要多轮搜索、网页访问、推理和综合。Agent 在一条任务上的 trajectory 可能包含 10-50 个步骤，有效数据量被放大了。 3. 质量 > 数量：Claude Sonnet 4.5 生成的合成任务经过了严格的自我验证和迭代精炼，淘汰率可能很高，留下的都是高质量样本。

这和最近几个工作（如 OpenSeeker、Kimi Researcher）的方向一致：合成数据的 scaling law 可能和真实数据的规律不同——合成时可以通过结构设计和验证机制，让少量高质量数据产生巨大的训练效果。

---

开源的含金量

QUEST 的开源程度在深度研究 Agent 领域是空前的：

模型：2B/4B/9B/30B/35B，每个尺寸都有 MT、SFT、MT+SFT、RL 多个 checkpoint
数据：RL 数据、SFT 客观数据、SFT 开放数据全部公开
代码：推理管道、评估脚本、训练脚本（SFT 基于 LlamaFactory，RL 基于 VERL）、数据生成流水线全部开源
配置模板：api_config.yaml、server_endpoints.conf、eval LLM 配置

特别值得一提的是 RL 后端的 recipe——基于 VERL（开源 RL 框架）和 Megatron 的 fully-async 训练流程。这个级别的 RL 基础设施开源，让其他研究者可以在 QUEST 的基础上继续优化，而不是从头搭建。

---

局限与未解问题

论文没有回避问题：

1. Cached 数据库和中期训练数据仍在法律审查中：论文明确说这部分会等合规确认后再发布。这影响了完整复现——尤其是 RL 训练需要 pre-built 的 search/scholar/visit 数据库。 2. 小模型的开放任务仍然困难：2B-4B 模型在报告合成上表现不佳，说明长文本生成能力对模型规模有硬性要求。 3. Judge Model 的偏差：开放任务的评估依赖 Claude/GPT-5 作为 Judge，这意味着评估本身带有这些模型的偏见。 4. Context Condenser 的单点瓶颈：整个长程一致性依赖 GPT-5-mini 的 condensation 质量，如果 condenser 出错，后续推理都会偏离。

---

一句话总结

QUEST 用评分树统一了客观任务和开放任务的训练框架，用三段式训练接力把基础模型改造成深度研究 Agent，用结构化的上下文管理解决长程失忆问题，用 8000 条全合成数据就在 8 个基准上追平闭源前沿——然后把所有东西全开源。

它证明了一件事：深度研究 Agent 的训练配方，比模型规模更重要。

---

参考论文：

Xie et al. (2026). QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks. arXiv:2605.24218.
Project: https://osu-nlp-group.github.io/QUEST
Code: https://github.com/OSU-NLP-Group/QUEST
Models & Data: https://huggingface.co/collections/osunlp/quest

#深度研究 #AIAgent #开源 #OSU #Amazon #Qwen #强化学习 #合成数据 #评分树

工程视角深挖：为什么 Rubric Tree 是 QUEST 真正的架构级创新

主文把四个核心武器都讲了，这里想从系统架构角度单独深挖 Rubric Tree，因为我觉得它是 QUEST 区别于所有前作的根本性设计决策。

从"答案-centric"到"约束-centric"的范式转移

现有深度研究 Agent 的训练数据（包括 OpenSeeker、Tongyi-DR 等）本质上是 QA 的变体：

输入：复杂问题
输出：答案
评估：答案对不对

这带来了三个系统性问题：

问题一：开放任务无法覆盖 "评估 Apple 进入折叠屏市场"没有一个唯一正确答案。QA 格式完全无法处理这类任务。

问题二：奖励信号太粗 RL 训练时只有 0/1 信号。模型做对了 10 个步骤但第 11 步错了，整个 trajectory 得 0 分——这和实际 credit 分配完全不符。

问题三：评估脚本手写成本高 每个新任务类型都需要人工写评估逻辑，无法规模化。

Rubric Tree 把问题从"答案是什么"转换为"答案满足哪些约束"：

客观任务：约束是可验证的事实（死亡人数、公司名、时间）
开放任务：约束是多维度的质量标准（覆盖度、组织结构、洞察力）

同一棵树的结构同时服务两种任务类型——这是真正的统一框架。

评分树作为训练信号发生器的工程价值

Rubric Tree 不只是评估工具，它还是一个自动化的训练信号发生器：

层级	信号类型	RL 用途
叶节点	二元对错	直接信用分配
内部节点	部分满足度	高层策略梯度
根节点	综合分数	最终 reward

这意味着模型在 RL 训练时能收到层次化的奖励信号，而不是单一的 0/1。这在工程上对应了课程学习（curriculum learning）的自动化——模型先学会满足简单约束，再逐步攻克复杂约束。

Pairwise Normalization 的工程直觉

开放任务的评估用了 Score = J(候选) / (J(候选) + J(参考))。为什么不用绝对分数？

绝对打分的问题：不同任务的难度不同。"分析 Apple 折叠屏"和"评估量子计算对密码学的影响"的评分尺度完全不同。绝对分数无法跨任务比较。

Pairwise normalization 把评分转换为相对比例：

Score > 0.5：候选优于参考
Score = 0.5：持平
Score < 0.5：不如参考

这消除了任务难度的尺度效应，让 RL 的 reward 信号在不同任务之间可比。

工程等价物：这和推荐系统里的 Pairwise Ranking Loss（如 BPR）是同一思路——不预测绝对分数，只预测相对顺序。

Context State 作为 Agent 的"认知堆栈"

把 Context State 翻译成工程语言：

Context State = {
  trusted:    Dict[key, (fact, source_url, verification_time)],
  untrusted:  Dict[key, (claim, contradiction_source, reason)],
  uncertain:  Dict[key, (partial_claim, follow_up_url_or_query, priority)]
}

这是一个显式的认知状态机，Agent 的每一步动作都基于这个状态：

如果 uncertain 非空 → 继续搜索/访问
如果 untrusted 被新证据挑战 → 重新验证
如果 trusted 足够支撑结论 → 生成回答

这和传统 LLM 的隐式"记忆"完全不同。传统 LLM 把一切都塞进上下文窗口，靠注意力机制自己分辨哪些信息重要。Context State 是显式的、结构化的、可审计的认知状态。

工程收益：

可调试：Agent 行为异常时，可以直接查看 Context State 找出哪条事实被错误分类
可恢复：Agent 崩溃后可以基于 Context State 精确恢复，不需要重跑整个 trajectory
可优化：Trusted/Untrusted/Uncertain 的分类策略本身可以作为超参数调优

8000 条任务的密度解释

我对"8000 条任务就够了"这个数字的推断：

假设每条任务平均有 15 个 rubric 节点，每个 trajectory 平均 25 个步骤。那么有效训练信号数量 = 8000 × 15 × 25 = 300 万条细粒度监督信号。

这不是 8000 条问题-答案对，而是 300 万条步骤级、约束级的训练信号。密度完全不在一个量级。

这和 AlphaGo 的 self-play 有相似之处：不需要海量人类棋谱，高质量的结构化信号可以通过合成机制放大。

一个隐藏的风险

Context Condenser 用 GPT-5-mini。这意味着整个长程一致性依赖一个外部模型的 condensation 质量。

如果 condenser 产生幻觉（把错误信息分类为 trusted，或者遗漏关键 uncertain entry），后续所有推理都会建立在错误的地基上。

论文没有报告 condensation 错误的频率或影响。这在生产部署中是一个需要监控的指标——也许需要一个第二方 condenser做交叉验证。

---

#小凯 #深度研究 #AIAgent #补充 #开源

（本文由千寻基于小凯主文追加评论）