OSU NLP Group 联合 Amazon AGI SF Lab 放出了 QUEST——一个从 2B 到 35B 全尺寸开源的深度研究 Agent 家族。8 个跨类型基准上,它的表现接近甚至超过了 OpenAI DeepResearch、Kimi Researcher 等闭源前沿系统。
关键数字:只用了 8000 条合成训练数据。
为什么这事重要:闭源围墙正在被推倒
深度研究 Agent 是 2025-2026 年最热的赛道之一。OpenAI DeepResearch、Kimi Researcher、Manus Wide Research、Anthropic Multi-Agent Research——这些系统把搜索引擎从"返回关键词匹配的页面"推进到"自主调研并生成引用完整的报告"。
但它们全是闭源的。模型权重不公开,训练数据不公开,训练配方不公开。
开源侧也在追赶:Tongyi-DR、OpenResearcher、SFR-DeepResearch、OpenSeeker……但各自只覆盖特定场景。有的专精事实检索,有的只擅长报告生成,没有一个统一的、跨任务类型都强的开源方案。
QUEST 想做的就是这个:一个通用目的、全尺寸开源、跨任务类型都强的深度研究 Agent。
核心武器一:统一评分树(Rubric Tree)——把"好答案"的定义结构化
深度研究任务的评估方式天然分裂为两种:
- 客观任务:答案可外部验证,对错分明(BrowseComp、GAIA)
- 开放任务:答案需要多维度主观评判(DeepResearch Bench——覆盖度、组织结构、清晰度、洞察力)
现有开源 Agent 的训练数据大多是"复杂问题 + 单一可验证答案"的格式。这种格式有两个致命缺陷:
- 泛化差:只在事实检索类任务上有效,报告生成类任务完全无法覆盖
- 奖励稀疏:RL 训练时只有二元对错信号,无法进行细粒度的信用分配
QUEST 的解法:Rubric Tree(评分树)。
这不是一个评估工具,而是整个训练框架的元结构。
评分树是一个层次化的约束分解:
- 根节点:最终总分
- 内部节点:高层约束(如"技术对比分析"),递归分解为子约束
- 叶节点:可直接验证的细粒度标准(如"引用了 Apple 官方折叠屏专利"),每个叶节点给二元分数
图 3 展示了两个例子:
客观任务:"找出 2024 年美国两起李斯特菌爆发中死亡人数更多的一起"——评分树分解为"爆发 1 识别"→"Boar's Head 熟食肉/10人死亡","爆发 2 识别"→"Rizo-Lopez 奶酪/2人死亡",最终"对比死亡数得出结论"。每个节点可独立验证。
开放任务:"评估 Apple 进入折叠屏手机市场"——根节点下固定四个共享标准:Instruction Following、Comprehensiveness、Readability、Insight。每个标准下有自适应的细分子节点。
这个设计的威力在于:
- 统一框架:同一套结构同时覆盖客观任务和开放任务
- 细粒度奖励:RL 训练时,根节点的部分分数提供了比二元对错更丰富的优化信号
- 自动可扩展:不需要人工写评估脚本,GPT-5 自动把评分树翻译成 Python 验证代码
核心武器二:全合成数据流水线——8000 条任务从哪来
QUEST 的训练数据叫 QUEST-8K,全部合成,零人工标注。
客观任务合成:
- 从 Google Trends 采样 trending keywords 作为主题种子
- 用 Claude Sonnet 4.5 自主浏览网页、收集信息、提取可验证约束
- 组织成评分树
- 迭代精炼和验证——Claude 自己判断评分树是否一致、可靠
- 通过验证后,用 GPT-5 生成对应的 Python 评估脚本
开放任务合成:
- 同样从关键词开始,Claude Sonnet 4.5 做网页探索
- 评分树的根节点固定四个共享标准(instruction following, comprehensiveness, readability, insight)
- 子节点自适应生成,由 GPT-5 分配权重(取三次生成的平均以提高稳定性)
- 用 Claude Sonnet 4.5 生成参考报告
- 评估时,Judge Model 同时看候选报告和参考报告,分别给 0-10 分,最终分数 = J(候选) / (J(候选) + J(参考))。超过 0.5 表示候选优于参考
注意一个细节:开放任务的评估用了 pairwise normalization——候选报告的质量不是绝对打分,而是相对于参考报告的比例。这避免了不同任务难度不同导致的评分尺度漂移。
核心武器三:三段式训练配方——从适应到模仿到优化
QUEST 的训练不是一次性 SFT 或一次性 RL,而是三个阶段接力:
阶段一:中期训练(Mid-Training)
目标:让基础模型适应长程搜索交互的格式和节奏。
基础模型(Qwen3-30B-A3B 或 Qwen3-35B-A3B)预训练时主要接触的是纯文本,没有多轮工具调用(搜索→阅读→推理→再搜索)的经验。MT 阶段用合成数据让模型熟悉这种交互模式。
阶段二:监督微调(SFT)
目标:教会 Agent 模仿高质量的工具使用轨迹。
SFT 数据包括:
- 客观任务:query + rubric tree + 合成的高质量回答轨迹
- 开放任务:query + rubric tree + 参考报告
论文做了控制实验:仅 SFT 的小模型(2B-35B)在事实检索基准上表现意外强劲——QUEST-2B-SFT 在 HLE 上达到 30.3,GAIA 上 72.8。这说明深度研究能力的很大一部分可以仅通过高质量模仿数据注入,不需要 RL。但开放任务的报告合成对小模型仍较困难。
阶段三:强化学习(RL)
目标:用 rubric-based 信号 优化策略,超越模仿上限。
RL 的奖励不是二元对错,而是评分树根节点的部分分数。这让模型在多维约束下学习权衡:引用完整性和洞察力之间可能有张力,模型需要在 RL 中找到最优平衡。
消融实验(Figure 2 的补充分析)显示:
- Vanilla(无训练):基线
- +SFT:显著提升
- +MT:在 SFT 基础上进一步提升长程交互能力
- +RL:在 MT+SFT 基础上进一步逼近闭源系统
核心武器四:上下文管理——给 Agent 装上"认知过滤器"
深度研究 Agent 的核心挑战之一是长程信息遗忘。搜索 20 轮后,前面的结论可能淹没在上下文中,Agent 开始"失忆"或"混乱"。
现有开源方案的解法很粗糙:要么限制搜索轮数(牺牲深度),要么依赖超大上下文窗口(成本高、注意力稀释)。
QUEST 的 Context Management 是一个结构化的认知状态机:
Context State(JSON 对象)把积累的知识分三个桶:
- Trusted(可信):Agent 已通过来源 URL 验证过的事实。可直接复用,不需要再次验证。
- Untrusted(不可信):与其他来源矛盾的声明,附带不信任的原因。被降级处理,除非有新证据要求重新验证。
- Uncertain(存疑):部分支持但不够充分的声明,每个都标注了需要跟进访问的 URL 或需要重新查询的关键词。
当上下文窗口超过阈值时,Context Condenser(GPT-5-mini)介入:
- 输入:完整原始历史(搜索查询、结果、访问过的 URL 和内容、推理轨迹、之前的摘要记忆)
- 输出:更新后的 Context State
Condensation 之后,Agent 在一个全新的上下文窗口中继续,只带着结构化的 Context State 作为"记忆"。
这个设计的精妙之处:
- Uncertain entries 直接指导后续行动:Agent 知道哪些线索还需要挖
- Trusted entries 避免重复查询:已验证的事实不再浪费 API 调用
- Untrusted entries 防止循环:Agent 不会反复验证同一个已被证伪的声明
论文在 BrowseComp 和 BrowseComp-Plus 上用了"discard-all"策略(Figure 1 注释),这意味着在长程检索中,QUEST 完全依赖 Context State 来维持认知连贯性,而不是靠上下文窗口硬撑。
实验结果:8 个基准上的全景对比
QUEST-35B 在 8 个基准上的表现:
| 基准 | 类型 | QUEST-35B | 对比闭源 |
|---|---|---|---|
| BrowseComp | 事实检索 | 64.6% | 接近 OpenAI DeepResearch |
| BrowseComp-Plus | 事实检索(更难) | — | — |
| Mind2Web 2 | 引用验证 | 30.7% | 突出 |
| HLE | 高难度事实 | — | — |
| GAIA | 多步推理 | — | — |
| DeepResearch Bench | 报告合成 | 48.2% | 接近甚至超过闭源 |
| WideSearch | 宽域搜索 | — | — |
| LiveResearchBench | 实时研究 | — | — |
Figure 1 的全景图更直观:QUEST-35B 在 8 个基准上整体最优(开源侧),部分基准超过闭源系统。
30B 规模的控制实验(QUEST-30B vs Tongyi-DR vs OpenResearcher):
- Tongyi-DR 在事实检索类基准(BrowseComp、HLE、GAIA)上很强——这和它的单答案合成数据训练方式一致
- OpenResearcher 在 BrowseComp-Plus 上最强
- QUEST-30B 在 Mind2Web 2 和 DeepResearch Bench 上表现最好——说明跨基准的均衡性来自训练配方,而非单纯的参数规模
Scaling 趋势:2B→4B→9B→35B,所有基准上的性能单调递增。这验证了训练配方的可扩展性。
为什么只用 8000 条任务就够了
这是论文中最反直觉的数字。
深度研究 Agent 的训练通常被认为需要海量数据。QUEST-8K 只有 8000 条合成任务,却能支撑从 2B 到 35B 模型的训练。
论文没有明确解释这个数字,但从技术设计可以推断:
- Rubric Tree 提供了高密度监督信号:每个任务不是单一答案,而是一棵 10-30 个节点的约束树。8000 条任务 = 数十万条细粒度训练信号。
- 任务本身足够复杂:每条任务都需要多轮搜索、网页访问、推理和综合。Agent 在一条任务上的 trajectory 可能包含 10-50 个步骤,有效数据量被放大了。
- 质量 > 数量:Claude Sonnet 4.5 生成的合成任务经过了严格的自我验证和迭代精炼,淘汰率可能很高,留下的都是高质量样本。
这和最近几个工作(如 OpenSeeker、Kimi Researcher)的方向一致:合成数据的 scaling law 可能和真实数据的规律不同——合成时可以通过结构设计和验证机制,让少量高质量数据产生巨大的训练效果。
开源的含金量
QUEST 的开源程度在深度研究 Agent 领域是空前的:
- 模型:2B/4B/9B/30B/35B,每个尺寸都有 MT、SFT、MT+SFT、RL 多个 checkpoint
- 数据:RL 数据、SFT 客观数据、SFT 开放数据全部公开
- 代码:推理管道、评估脚本、训练脚本(SFT 基于 LlamaFactory,RL 基于 VERL)、数据生成流水线全部开源
- 配置模板:api_config.yaml、server_endpoints.conf、eval LLM 配置
特别值得一提的是 RL 后端的 recipe——基于 VERL(开源 RL 框架)和 Megatron 的 fully-async 训练流程。这个级别的 RL 基础设施开源,让其他研究者可以在 QUEST 的基础上继续优化,而不是从头搭建。
局限与未解问题
论文没有回避问题:
- Cached 数据库和中期训练数据仍在法律审查中:论文明确说这部分会等合规确认后再发布。这影响了完整复现——尤其是 RL 训练需要 pre-built 的 search/scholar/visit 数据库。
- 小模型的开放任务仍然困难:2B-4B 模型在报告合成上表现不佳,说明长文本生成能力对模型规模有硬性要求。
- Judge Model 的偏差:开放任务的评估依赖 Claude/GPT-5 作为 Judge,这意味着评估本身带有这些模型的偏见。
- Context Condenser 的单点瓶颈:整个长程一致性依赖 GPT-5-mini 的 condensation 质量,如果 condenser 出错,后续推理都会偏离。
一句话总结
QUEST 用评分树统一了客观任务和开放任务的训练框架,用三段式训练接力把基础模型改造成深度研究 Agent,用结构化的上下文管理解决长程失忆问题,用 8000 条全合成数据就在 8 个基准上追平闭源前沿——然后把所有东西全开源。
它证明了一件事:深度研究 Agent 的训练配方,比模型规模更重要。
参考论文:
- Xie et al. (2026). QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks. arXiv:2605.24218.
- Project: https://osu-nlp-group.github.io/QUEST
- Code: https://github.com/OSU-NLP-Group/QUEST
- Models & Data: https://huggingface.co/collections/osunlp/quest
#深度研究 #AIAgent #开源 #OSU #Amazon #Qwen #强化学习 #合成数据 #评分树
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。