WebResearcher：释放长时程代理的无界推理能力

1. 引言

通用人工智能(AGI)的追求历来专注于扩展模型以获取大量被动知识。然而，这种以知识为中心的方法可能达到一个关键限制：虽然模型可以记忆和回忆信息，但它们难以主动发现、验证和综合来自外部来源的新知识——这是人类智能的基本能力。这一限制催化了向主动自主代理系统的范式转变，这些系统模拟人类研究工作流程。这些系统不是仅仅依赖预训练的知识，而是通过自主分解复杂问题、协调复杂的工具使用以及将不同的发现综合成连贯的、基于证据的叙述来动态构建理解。这类新兴系统，通常被称为深度研究，代表了AGI的关键一步，弥合了被动知识库和主动知识构建者之间的差距。

最近的深度研究系统，如OpenAI的Deep Research、Google的Gemini Deep Research、Grok DeepSearch和Kimi-Researcher，已经在包括Humanity's Last Exam (HLE)和BrowseComp在内的具有挑战性的基准测试中展示了突破性性能。这些专有系统的成功推动了显著的开源开发。最近的开源努力，包括WebThinker、WebShaper和WebSailor，在深度研究任务中表现出竞争力。值得注意的是，这些开源实现已经收敛到一个非常相似的架构模式：单上下文范式，它将所有检索到的信息和中间推理步骤连续累积到一个单一的、不断扩展的上下文窗口中。虽然这种线性累积策略看起来直观且已显示出初步成功，但更深入的分析揭示它从根本上限制了深度研究代理的潜力。具体来说，这种普遍范式存在两个关键限制，随着研究复杂性的增长，这些限制变得越来越严重：

认知工作空间窒息：不断扩展的上下文逐渐限制了模型进行深度推理的能力，因为固定的上下文窗口被累积的数据主导，而不是主动思考空间，迫使过早得出结论。
不可逆的噪声污染：没有过滤或修订早期内容的机制，不相关的信息和初始错误在整个过程中持续存在，稀释信号质量并传播随时间复合的偏见。

这些限制揭示了一个悖论：随着深度研究代理收集更多信息来解决复杂问题，它们的单上下文架构在处理和推理这些信息方面变得越来越无效。

2. WebResearcher概述

WebResearcher是一个用于构建长时程代理的新型框架，通过两个关键组件实现：

IterResearch：迭代深度研究范式

IterResearch将深度研究重新表述为马尔可夫决策过程(MDP)，与遭受无界状态扩展和噪声污染的单上下文方法不同，IterResearch定期将其发现整合到综合报告中并重建其工作空间，在任意研究深度下保持知识的连续性和推理的清晰度。具体来说，IterResearch通过离散的轮次运行，其中每个状态只包含基本组件：研究问题、综合所有先前发现和当前研究进展的不断发展的报告，以及最近工具交互的即时上下文。这个不断发展的报告作为代理的中央记忆——通过每一轮新见解与现有知识的整合而逐步完善。在轮次之间，状态转换函数保留这个更新的报告，同时丢弃短暂信息，确保马尔可夫性质同时防止信息丢失。这种周期性综合是我们范式的核心：它不仅保留基本知识以指导后续推理，还为每个阶段保持专注的认知工作空间，有效防止窒息和噪声传播。因此，IterResearch实现了单上下文系统无法实现的——在整个研究过程中持续高质量的推理，使代理能够通过迭代细化而不是详尽的单次累积来追求任意复杂的调查。

WebFrontier：可扩展数据合成引擎

为了解决训练深度研究代理的关键数据稀缺瓶颈，我们开发了WebFrontier，一个可扩展的数据合成引擎，利用增强多样化外部工具的大型语言模型，为复杂研究任务系统性地生成高质量训练数据。WebFrontier解决了代理AI开发中的一个基本挑战：如何在保持事实准确性和可验证性的同时创建高质量和大规模的训练数据。我们的方法采用三阶段迭代工作流程——从多样化语料库生成种子、工具增强的复杂性升级和严格的质量控制——产生有效弥合基线模型与其工具增强对应物之间能力差距的任务。该引擎的核心机制涉及一个自引导过程，其中工具增强代理逐步将简单问题精炼为需要多源综合、跨领域推理和计算验证的研究问题。这种系统方法使得能够生成探索不同复杂性水平的大规模数据集，同时确保事实基础。合成数据作为通过多阶段训练IterResearch的基础，使模型能够获得强大的工具使用能力和复杂的推理技能。

研究-合成框架

在推理时间，我们引入了基于IterResearch范式的研究-合成框架。该框架由两个阶段组成：并行研究和集成合成。在并行研究阶段，多个研究代理按照IterResearch方法并发解决目标问题，每个代理得出最终报告和预测答案。随后，在集成合成阶段，单个合成代理整合这些发现，产生更全面和稳健的结论。通过从最终报告而不是整个研究轨迹合成，合成代理可以在受限上下文中处理更多样化的研究路径。这种方法有效地利用了测试时间扩展，最大化了复杂深度研究场景中发散探索的收益。

3. IterResearch：迭代深度研究范式

深度研究代理旨在在几分钟内完成人类研究人员需要数小时才能完成的工作。这种长时程任务需要导航异构证据源，协调多轮工具使用，并在不断扩展的信息体中保持连贯的推理链。然而，这种复杂性直接挑战了当前研究代理采用的单上下文、线性累积范式，它受到两个基本限制：

认知工作空间窒息：随着上下文窗口充满累积数据，模型进行主动推理的能力减弱。固定的上下文预算被历史信息主导，而不是为深度思考提供空间，当窗口接近其限制时迫使过早得出结论。
不可逆的噪声污染：没有过滤或修订早期内容的机制，不相关的信息和初始错误在整个过程中持续存在。这种噪声累积稀释信号质量并传播随时间复合的偏见，降低整体研究质量。

为了克服这些限制，我们提出了IterResearch，它将深度研究重新表述为具有周期性状态重建的马尔可夫决策过程。IterResearch不是维护不断扩展的上下文，而是通过离散的轮次运行，其中每个状态只包含基本组件。IterResearch的关键见解是用迭代综合和重建替代线性累积。每个研究轮次在一个专注的工作空间上运行，该工作空间通过不断发展的报告保持清晰性，该报告作为代理的中央记忆。在每个轮次i中，代理的状态si由三个组件组成：(1) 原始研究问题q，(2) 来自前一轮的不断发展的报告Reporti-1（i=1时为空），(3) 最近的Actioni-1及其Tool Responsei-1（如果i>1）。这种紧凑的状态表示确保马尔可夫性质，同时保持决策所需的所有基本信息。

为了有效实现这种迭代范式，我们定义了三个结构化的元信息类别——Think、Report和Action——指导代理在每一轮中的决策：

Python

# IterResearch状态结构
class IterResearchState:
    def __init__(self, question, previous_report=None, last_action=None, last_tool_response=None):
        self.question = question  # 原始研究问题
        self.report = previous_report or ""  # 不断发展的报告
        self.last_action = last_action  # 最近的行动
        self.last_tool_response = last_tool_response  # 最近的工具响应

# 代理响应结构
class AgentResponse:
    def __init__(self, think, report, action):
        self.think = think  # 思考过程
        self.report = report  # 综合报告
        self.action = action  # 行动（工具调用或最终答案）

Think：这个组件作为代理的认知草稿板，代理在其中阐述其内部推理过程。代理分析当前状态（工作空间），评估其先前行动的结果，反思研究进展，并为其下一个行动制定计划。这个组件确保代理的决策对当前状态是透明和可解释的，并且不直接用于后续轮次以防止混乱。
Report：我们范式的核心，这个组件代表代理不断发展的中央记忆。代理不是附加原始数据，而是将新发现与现有知识综合，产生连贯的、高密度的摘要。这个更新的报告捕获迄今为止发现的所有关键信息，并用作构建下一轮工作空间的主要组件。
Action：代理在当前轮次的具体行动，采用两种形式之一：
- 工具调用：与外部环境交互的特定命令，如调用搜索引擎或代码解释器，以收集新信息。
- 最终答案：终端行动，当代理确定它有足够的证据解决初始问题时生成。这结束了研究过程。

我们的IterResearch范式从根本上将深度研究重新构想为迭代综合过程而不是线性累积。完整的研究通过离散的轮次展开：从研究问题开始，代理生成其初始Think-Report-Action三元组；在后续轮次中，它从问题、先前报告和最新工具响应重建专注的工作空间，然后产生更新的综合。这种报告综合是我们方法的基石——代理不仅附加新发现，而且主动将它们与现有知识整合，解决冲突并更新结论，以保持连贯的、高密度的摘要，捕获所有关键发现同时过滤掉噪声。过程持续进行，直到代理确定已收集足够的证据，产生最终答案。

这种迭代范式提供了在长时程研究中复合的结构优势。通过保持恒定大小的工作空间而不管研究深度如何，IterResearch在整个过程中保持完整的推理能力——当单上下文系统因上下文膨胀而收益递减时，我们的方法无论进行十轮还是百轮调查都保持一致的性能。周期性综合充当智能过滤器，保留信号同时消除噪声，通过报告修订实现错误恢复，并确保单调信息增益。通过这种以不断发展的报告为中心的纪律性状态维护，IterResearch将深度研究从详尽的单次累积转变为迭代细化，实现理论上无界的研究深度，同时保持效率和质量——这些能力在单上下文范式下是根本不可能的。

4. WebFrontier：用于推进代理智能的可扩展数据引擎

代理智能的进步，以复杂推理和自主工具使用能力为特征，受到其训练数据质量和复杂性的根本限制。为了解决这一限制，我们引入了一个可扩展的数据引擎，旨在合成大规模、高质量的数据集，系统地探测和扩展当前模型的能力。我们的引擎利用一个协作的多代理框架，组织成一个三阶段迭代工作流程：(1) 种子数据生成，(2) 迭代复杂性升级，(3) 严格的质量控制。这个过程协调一组专门的代理来生成逐渐更具挑战性的任务。

4.1 阶段1：种子数据生成

该过程从多样化的、多学科的当代文档语料库开始，包括网页、学术论文和电子书。摘要代理通过释义内容、去除伪影（如HTML标签）并将文本提炼成信息密集的块来预处理这个语料库。为了生成需要非平凡推理的初始任务，我们通过组合性地分组这些主题相关的块来形成复合单元。然后，项目编写代理被提示使用这些复合单元生成种子问题-答案(QA)对。这些初始对被设计为需要多源信息综合，从而为后续的复杂性升级阶段提供基础。

4.2 阶段2：迭代复杂性升级

数据引擎的核心是由项目编写代理协调的自引导精炼循环。在这个阶段，代理配备了一套外部工具：(i) 通用网络搜索，(ii) 学术文献搜索，(iii) 网页浏览器，和(iv) Python代码解释器。对于每个种子QA对，工具增强代理迭代地进化问题和答案，以增加它们的认知复杂性并将其范围扩展到原始上下文之外。这种迭代进化由四个关键操作驱动。最初，代理执行知识扩展，查询外部来源以扩大问题的范围。然后它进行概念抽象，分析材料以提炼更高层次的原则并识别微妙的跨领域关系。为了确保正确性，通过多源交叉验证实现事实基础，增强答案的准确性和深度。最后，代理利用Python环境进行计算公式化，制定需要定量计算或逻辑模拟的问题。

Python

# WebFrontier复杂性升级过程示例
class ComplexityEscalationAgent:
    def escalate_complexity(self, qa_pair):
        # 知识扩展
        expanded_knowledge = self.search_external_sources(qa_pair.question)
        
        # 概念抽象
        abstracted_concepts = self.extract_high_level_principles(expanded_knowledge)
        
        # 事实基础
        verified_facts = self.cross_validate_facts(abstracted_concepts)
        
        # 计算公式化
        computational_problem = self.formulate_computational_problem(verified_facts)
        
        # 生成更复杂的QA对
        complex_qa = self.generate_complex_qa(computational_problem)
        return complex_qa

这种迭代过程创造了一个良性循环，其中在一个迭代中生成的更复杂的QA对成为下一个迭代的种子。这实现了任务复杂性的受控和系统性升级。

4.3 阶段3：严格的质量控制

为了确保最终数据集高质量并精确校准到目标难度，所有生成的QA对都经过由专门代理管理的严格验证过程。首先，以基线模式运行的问题解决代理（无工具访问）尝试回答每个问题。任何在此步骤中正确回答的对被认为对我们的目标复杂性水平太简单，并被过滤掉。其次，剩余的具有挑战性的对被传递给同一个问题解决代理，现在以高级模式运行，配备工具，镜像我们目标模型的能力。代理在此模式下成功解决的对被指定为高价值、复杂推理实例，并保留用于最终数据集。相反，这个高级代理未能解决的任何对被认为是不可解决的或可能有缺陷的，因此被丢弃或标记给专家人工审查。在整个验证管道中，判断代理自动评估求解器输出与真实答案的正确性。同时，相似性评分器代理过滤掉与现有数据语义冗余的新生成对，从而保持数据集多样性。

总之，我们的数据引擎旨在实现三个主要目标：(1) 高效生成大量位于基线模型与其工具增强对应物之间"能力差距"内的复杂任务；(2) 确保所有生成的任务在保持事实正确性和可验证性的同时具有高复杂性；(3) 系统性地映射和扩展高级LLM代理的推理和工具使用前沿。

5. 训练和测试时间优化

5.1 拒绝采样微调

为了训练IterResearch，我们采用拒绝采样微调(RFT)方法，利用提示大型语言模型遵循我们迭代范式的结构化格式生成的良好形成的轨迹。

轨迹生成和过滤：对于每个由研究问题q(i)和参考答案a(i)组成的训练实例，我们提示LLM生成多个遵循IterResearch范式的研究轨迹。每个轨迹τ(i) = {(s(i)₁, r(i)₁, o(i)₁), ..., (s(i)ᵢ, r(i)ᵢ, o(i)ᵢ)}由Tᵢ轮组成，其中s(i)ⱼ表示轮次j的状态，r(i)ⱼ表示结构化响应(Think-Report-Action)，o(i)ⱼ表示相应的工具观察。我们应用严格的拒绝采样，仅保留最终答案与参考a(i)完全匹配的轨迹，确保训练数据既体现正确的推理过程又体现准确的结论。

训练目标：模型学习在迭代研究上下文条件下生成结构化响应。具体来说，在每个轮次j，模型必须在给定当前状态s(i)ⱼ的情况下产生r(i)ⱼ。训练目标最大化所有接受轨迹上的条件对数似然：

Mathematical

L(θ) = ∑[i=1 to K] ∑[j=1 to Tᵢ] log pθ(r(i)ⱼ | s(i)ⱼ₋₁)

其中K表示接受轨迹的数量，θ表示模型参数。关键是，这个目标强制执行我们范式的马尔可夫性质——每一轮的生成仅依赖于直接先前的状态，而不是整个历史。在训练期间，我们仅对模型生成的响应令牌r(i)ⱼ计算梯度，将观察o(i)ⱼ视为给定上下文。这确保模型学习推理和综合，而不是预测工具输出，保持推理代理和外部工具之间的清晰分离。

5.2 强化学习

为了进一步增强IterResearch的研究能力，我们采用强化学习来优化模型探索多样化推理路径的能力，同时在每一轮保持高质量的综合。我们迭代范式的一个关键优势是每个轨迹自然分解为多个训练样本——每个研究轮次一个——而单上下文方法每个轨迹只产生一个样本。具体来说，对于每个具有G次滚出的研究问题q(i)，轨迹g在T(i)g轮次上展开，其中每个轮次j产生一个包含状态、响应和工具响应的训练元组(s(i)g,j, r(i)g,j, o(i)g,j)。这种分解产生丰富的训练语料库：

Mathematical

C(i) = {(s(i)g,j, r(i)g,j) : g ∈ [1, G], j ∈ [1, T(i)g]}

每个问题包含∑[g=1 to G] T(i)g个样本。在所有N个训练问题上聚合，我们的迭代范式生成总语料库：

Mathematical

Ctotal = ∪[i=1 to N] C(i), |Ctotal| = ∑[i=1 to N] ∑[g=1 to G] T(i)g

与单上下文方法相比，这代表了实质性的数据放大，后者只会产生N×G个样本。然而，可变轨迹长度引入了一个实际挑战：由于不同的T(i)g值，总样本数在批次之间变化，与分布式训练对固定批次大小的要求冲突。为了在保持数据效率的同时解决这一问题，我们采用最小损失下采样，将整个训练语料库减少为不超过原始计数的最大数据并行(DP)大小倍数：

Mathematical

|Ctrain| = ⌊|Ctotal| / DPsize⌋ × DPsize

这种方法确保跨设备均匀分布，同时最小化数据损失（通常<1%），保持分布式训练稳定性。

为了在这些多轮轨迹上优化IterResearch，我们采用组序列策略优化(GSPO)。我们优化以下目标：

Mathematical

JGSPO(θ) = Eq∼Q,Ctrain∼πθold(·|q) [1/|Ctrain| ∑[g=1 to G] ∑[j=1 to Tg] min(ρg,j(θ) Âg,j, clip(ρg,j(θ), 1-ε, 1+ε) Âg,j)]

其中Q是训练集，Âg,j = (rg,j-µr)/σr是归一化优势，µr和σr在Ctrain中所有(g,j)对上计算，ρg,j(θ)是基于序列似然的重要性比率。值得注意的是，问题q的G个轨迹中的所有∑[g=1 to G] Tg轮形成一个组，实现高效的批处理训练，同时尊重我们迭代研究过程的可变长度性质。这与传统GSPO不同，传统GSPO中每个轨迹将被单独处理——我们的方法利用轨迹自然分解为轮次，将每个轮次视为独立的训练样本，同时在所有轮次上保持组级优势归一化。这种设计最大化数据利用，并确保不同研究深度的平衡学习。

5.3 研究-合成：利用IterResearch进行测试时间扩展

为了进一步释放IterResearch的潜力，我们进一步研究测试时间扩展。鉴于DeepResearch涉及多轮工具调用和密集推理，直接聚合每个完整轨迹的上下文在计算上是不可行的。因此，测试时间扩展期间的有效上下文管理至关重要，能够使用最小上下文准确表示轨迹的问题解决逻辑。

为了应对这一挑战，我们引入了研究-合成框架。该框架由两个不同的阶段组成：并行研究和集成合成。前者阶段促进多样化问题解决方法的并发探索，而后者将这些不同的视角整合成单一的、统一的解决方案。

并行研究：在并行研究阶段，我们采用n个研究代理独立解决目标问题。每个代理遵循IterResearch范式，但通过调用不同的工具和生成不同的推理线来雕刻出独特的解决方案轨迹。最终，这个阶段产生一组最终报告及其相应的预测答案，每个代理一个。这个集合可以正式表示为：

Mathematical

M = {(Final_Reportu, Answeru) : u ∈ [1, n]}
(Final_Reportu, Answeru) = IterResearchu(q)

集成合成：集成合成阶段采用单个合成代理来整合所有研究代理的发现，并产生最终的、经过推理的结论。它将完整的报告和答案集作为输入，生成最终答案，表示为：

Mathematical

Final_Answer = Synthesis(M)

值得注意的是，IterResearch的每个报告简洁地封装了其整个推理路径。因此，合成代理可以在受限上下文下评估更广泛的解决方案策略，充分利用测试时间扩展的力量。在我们的实验中，我们采用Qwen3-235B-A22B作为我们的合成代理。

6. 实验结果

6.1 实验设置

模型和基准测试：我们使用Qwen3-30B-A3B作为骨干模型实现我们的WebResearcher，同时考虑模型性能和计算效率。完整系统将我们的迭代研究范式(IterResearch)与通过WebFrontier构建的网络规模训练数据集成。为了全面评估WebResearcher的能力，我们在8个具有挑战性的基准测试上进行了广泛实验：

HLE - Humanity's Last Exam是一个专家策划的基准测试，包含2,500个高度挑战性的问题，跨越广泛的学科，旨在评估前沿级别的学术能力。我们使用其中的2,154个纯文本问题。
GAIA - 一组466个真实世界任务问题，评估在苛刻条件下的一般AI助手，强调多步推理、多模态和工具使用。我们采用纯文本验证子集中的103个案例。
BrowseComp-en - 一个包含1,266个问题的基准测试，探测代理定位和整合难以找到的、相互关联的网络信息的能力，强调持久浏览和事实推理。
BrowseComp-zh - 一个中文网络浏览基准测试，包含289个多跳问题，突出中文信息生态系统特有的检索和推理挑战。
Xbench-DeepSearch - 一个专门的深度搜索基准测试，评估代理在规划、搜索、推理和总结方面的端到端能力。具有专家策划的问题，具有广泛的搜索空间和深度推理要求，它通过实质性的中文上下文覆盖补充了现有基准测试。
FRAMES - 一个全面的RAG基准测试，包含824个问题，测试事实性、检索质量和多跳推理。它评估模型从多个检索源综合信息的能力，同时保持事实准确性和推理连贯性。

基线：我们将我们的WebResearcher与以下基线进行比较：

配备工具的通用LLM：配备外部工具进行复杂推理的模型。我们评估Qwen3-30B-A3B、Qwen3-235B-A22B、Claude-4-Sonnet、OpenAI-o3、DeepSeek-V3.1和DeepSeek-R1、GLM-4.5和Kimi-K2。
商业深度研究代理：我们测试OpenAI的DeepResearch、Gemini Deep Research、Perplexity Deep Research、Grok-DeepResearch和Kimi-Researcher。然而，由于并非所有这些都可通过API完全访问，它们并未在所有基准测试和实验中进行测试。
开源深度研究代理：我们将我们的方法与最近的开源网络/搜索代理进行比较，包括WebDancer、WebSailor、MiroThinker、WebExplorer。这些代表了当前开源网络研究系统的最先进水平。

工具：我们的框架为代理配备了四种基本工具，使代理能够进行全面的研究能力，从信息发现到计算分析。每个工具都设计为高效处理批量操作并返回适合迭代研究过程的结构化输出。

Search：通过Google搜索引擎实现网络信息检索。它同时接受多个查询，并为每个查询返回前10个结果，每个结果包含标题、摘要和URL，以便快速评估相关性。
Scholar：通过Google Scholar提供学术文献访问。与Search类似，它支持批量查询并返回学术元数据，包括作者、场所和引用计数，实现高效的学术研究。
Visit：从特定网页提取详细内容，并进行目标导向的总结。代理提供URL以及提取目标（例如"查找实验结果"），该工具首先通过Jina检索完整内容，然后使用Qwen3基于指定目标生成重点摘要。
Python：在沙盒环境中执行代码以进行计算任务。它支持数据分析和可视化的标准库，所有输出都明确打印以确保清晰的结果通信。

评估指标和超参数：我们采用pass@k指标来评估模型的性能。在我们的实验中，我们主要报告pass@1，它表示在单次尝试中正确解决的问题百分比。为了确定生成的解决方案的正确性，我们采用LLM-as-a-Judge方法。对于所有生成任务，我们使用核采样，温度为0.6，top-p为0.95。

对于具有n个问题的数据集，pass@1正式计算为：

Mathematical

pass@1 = (1/n) ∑[i=1 to n] I(问题i被解决)

其中I(·)是指示函数。对于k>1的pass@k，我们为每个问题生成k个独立样本，如果至少一个样本正确，则认为问题被解决。

6.2 主要结果

我们在6个具有挑战性的基准测试上展示了全面的评估结果，分类为复杂目标导向的网络任务（表2）和一般网络导航和推理挑战（表1）。

整体性能：WebResearcher在各种深度研究基准测试中展示了最先进的性能，显著优于更大的模型和现有的深度研究系统。WebResearcher取得了显著的结果，超过了开源深度研究代理，甚至专有的深度研究系统。在跨越复杂推理、网络导航和长时程信息寻求任务的6个具有挑战性的基准测试中，WebResearcher始终排名靠前，验证了我们迭代综合范式相对于普遍单上下文方法的有效性。

一般网络导航和推理基准测试：表1展示了WebResearcher在网络规模信息综合任务上的卓越性能，我们迭代范式的优势在这里最为明显。在Humanity's Last Exam (HLE)上，可以说是前沿AI系统最具挑战性的基准测试之一，WebResearcher-heavy实现了36.7%的准确率——显著优于所有系统，包括DeepSeek-V3.1 (29.8%)、OpenAI Deep Research (26.6%)和Gemini Deep Research (26.9%)。这种在HLE上的6.9个百分点改进，HLE需要跨多个学科的深度学术知识综合，验证了我们范式的核心优势：通过确保每一轮以完整的认知能力运行而不是 diminishing workspace，在整个扩展研究过程中保持深度推理能力。

骨干模型	Humanity's Last Exam	BrowseComp	BrowseComp-ZH
Qwen3-30B-A3B	13.2	0.5	13.5
Qwen3-235B-A22B	20.0	2.3	29.4
DeepSeek-R1	24.8†	8.9†	35.7†
Claude-4-Sonnet	20.3†	12.2†	29.1†
OpenAI Deep Research	26.6†	51.5†	-
DeepSeek-V3.1	29.8†	30.0†	49.2†
WebResearcher-30B-A3B	28.8	37.3	45.2
WebResearcher-30B-A3B-heavy	36.7	51.7	56.8

在网络导航基准测试上的性能提升同样令人印象深刻。在BrowseComp-en上，WebResearcher-heavy实现了51.7%的准确率，与OpenAI的Deep Research (51.5%)相当，同时远远超过所有开源替代方案——DeepSeek-V3.1，下一个最好的开源系统，仅达到30.0%。这种21.7个百分点的改进证明了我们的迭代综合方法在处理需要跨多个信息源保持连贯理解的复杂网络导航任务时的关键重要性。

在中文基准测试BrowseComp-zh上也观察到类似强大的结果，其中WebResearcher-heavy达到56.8%，接近o3的58.1%，同时显著优于DeepSeek-V3.1 (49.2%)。这些多语言结果突显了我们的迭代范式通过其结构化综合过程有效处理文化多样性信息源——每一轮的报告将跨语言见解提炼成连贯的叙述，防止了当单上下文系统在没有适当整合机制的情况下累积混合语言内容时经常出现的混淆。

复杂目标导向的网络任务：表2揭示了WebResearcher在处理复杂、多步推理任务方面的卓越能力。在GAIA上，WebResearcher实现了72.8%的准确率，超过了所有评估系统，包括Claude-4-Sonnet (68.3%)和OpenAI-o3 (70.5%)，比DeepSeek-V3.1 (63.1%)提高了9.7个百分点。这种实质性增益证明了迭代综合在处理需要复杂工具协调和跨领域推理的任务时的优越性。我们迭代范式的关键优势在这里变得明显：通过定期重建工作空间和综合发现，WebResearcher在整个扩展研究过程中保持一致的推理质量，而单上下文系统由于上下文膨胀而遭受渐进性退化。

骨干模型	GAIA	Xbench-DeepSearch	Frames
Qwen3-30B-A3B	35.9	32.0	56.4
Qwen3-235B-A22B	45.6	46.0	-
Claude-4-Sonnet	68.3†	64.6†	80.7†
OpenAI-o3	70.5†	66.7†	84.0†
DeepSeek-V3.1	63.1†	71.2†	83.7†
WebResearcher-30B-A3B	72.8	71.0	84.8
WebResearcher-30B-A3B-heavy	75.7	73.0	85.1

在Xbench-DeepSearch上，我们的系统达到71.0%，与DeepSeek-V3.1 (71.2%)相当，同时远远超过其他开源替代方案，如WebSailor-72B (55.0%)和Kimi-K2 (50.0%)。在Frames (84.8%)上也观察到同样令人印象深刻的结果，其中WebResearcher优于所有系统，包括DeepSeek-V3.1 (83.7%)和OpenAI-o3 (84.0%)。这些在不同任务类型上的一致改进揭示了迭代综合的基本优势：通过定期整合发现和重建专注的工作空间，WebResearcher可以追求复杂的推理链并根据综合的见解调整搜索策略——这些能力是单上下文系统由于其线性累积约束而固有的缺乏。

6.3 分析

6.3.1 迭代范式的首要性

为了验证我们模型的性能增益源于其核心设计而非混淆因素，我们进行了针对性的消融研究。目标是隔离和测量我们迭代深度研究范式的直接影响。

实验设置：我们设计了一个消融变体，在此称为Mono-Agent。这个代理利用与我们完整代理相同的基础模型架构，但被限制为线性的、非迭代的推理策略。具体来说，它将所有生成的信息——包括思想、工具交互和观察——累积到一个单一的、不断扩展的上下文窗口中，缺乏任何综合或重置机制。我们将此与另外两个代理进行比较：Mono-Agent + Iter，它代表使用我们迭代研究训练数据增强但仍然使用线性推理策略的Mono-Agent架构，以及WebResearcher，我们采用迭代范式的完整模型。

代理	HLE	BC-EN	BC-ZH
WebResearcher	28.8	37.3	45.2
Mono-Agent	18.7	25.4	34.6
Mono-Agent + Iter	25.4	30.1	40.4

结果和分析：结果清楚地展示了范式的有效性。Mono-Agent + Iter在所有基准测试上始终优于基础Mono-Agent：HLE (25.4 vs. 18.7)、BC-EN (30.1 vs. 25.4)和BC-ZH (40.4 vs. 34.6)。这种初始改进突显了我们专门训练数据的好处。

然而，最重要的发现是非迭代的Mono-Agent + Iter与我们完整的WebResearcher代理之间的性能差距（例如，在HLE上28.8 vs. 25.4）。这个增量隔离了迭代范式本身的影响。线性策略的较差性能归因于两个关键失败模式：1) 上下文退化，其中模型的注意力被过量的低价值历史数据饱和，损害其识别显著信息的能力；2) 不可逆的错误传播，其中早期错误或噪声观察保留在上下文中，逐渐破坏后续推理步骤。这在需要许多步骤的长时程任务中尤其有害。

相反，我们的迭代范式直接缓解了这些问题。通过定期综合关键发现并重置上下文工作空间，我们的代理为每个推理周期保持专注和精炼的上下文。这种机制对于维持高级认知性能至关重要。这项研究提供了令人信服的证据，证明迭代范式本身，而不仅仅是训练数据或基础模型，是WebResearcher在复杂、长时程研究任务中成功的关键驱动因素。

6.3.2 工具使用行为分析

IterResearch的核心优势在于其迭代范式，它促进了更长和更复杂的推理链。为了证实这一主张，我们对不同基准测试中的工具调用行为进行了深入分析，证明IterResearch表现出高度适应性和高效的工具使用策略，针对特定任务需求量身定制。

我们的分析集中在HLE和BrowseComp基准测试上工具调用序列的频率和长度——特别是涉及Search（网络搜索）、Scholar（学术搜索）、Visit（网页访问）和Python（代码执行）的工具。IterResearch的工具使用概况根据任务性质发生显著变化。

在主要包含需要学术和专业知识问题的HLE基准测试上，代理采用专注和简洁的策略。Scholar工具被突出使用，占所有工具调用的25.4%，反映了专业文献搜索的需求。平均推理链很短，任务平均仅用4.7轮解决。这表明针对明确定义的问题进行高效、有针对性的信息检索。

相比之下，在BrowseComp上，任务需要广泛的网络导航和跨多个页面的信息整合，代理的行为突显了其进行长期和复杂推理的能力。Search (56.5%)和Visit (39.7%)工具变得至关重要，共同占所有工具调用的96%以上。这种战略转变反映在推理复杂性的显著增加上：平均轮次飙升至每个任务61.4轮，最复杂的问题需要超过200个交互轮次才能解决。

工具选择和推理链长度的这种明显差异突显了IterResearch动态调整其问题解决方法的复杂能力。它可以执行针对基于知识的查询（HLE）的简短、精确的行动，以及为复杂的基于网络的任务（BrowseComp）维持长期的探索序列，验证了其迭代推理架构的有效性。

6.3.3 研究-合成框架中的推理轨迹分析

在第5.3节中，我们介绍了研究-合成框架，通过并行运行n个推理轨迹来增强模型性能。为了整合所有研究代理的发现，合成代理聚合这些推理路径以生成最终答案。本节介绍超参数n——并行研究的数量——对最终性能影响的定量分析。

实验设置：我们的分析使用IterResearch-30B-A3B模型在HLE基准测试上进行。我们系统地变化并行研究的数量n，评估n∈{1, 2, 4, 8, 16}时的模型性能(pass@1)。n=1的情况作为基线，代表模型没有任何测试时间扩展的性能。

结果和见解：实验结果揭示了轨迹数量(n)和模型性能之间的清晰正相关关系。

随着我们增加n，pass@1分数有一致且显著的提高。当将n从1扩展到8时观察到最显著的增益。这一结果强调了TTS中固有的集成效应的好处。每个研究代理探索独特的推理路径，可能发现问题的不同方面或克服特定的中间障碍。通过融合这些不同探索的最终结果，合成代理可以产生更稳健和准确的最终答案。

正如预期的那样，这些性能改进伴随着计算成本的线性增加，因为每个轨迹都是独立处理的。此外，对于n>8，性能改进开始表现出边际收益递减，表明准确性和计算预算之间存在权衡。

我们的分析表明，在研究-合成框架中采用多个并行研究轨迹是一种非常有效的性能增强技术。轨迹数量n作为直接可控参数，用于平衡性能增益与计算成本。根据我们的发现，n=8的配置提供了引人注目的权衡，在基线上提供实质性性能改进，同时保持可管理的计算开销。

7. 结论

在本文中，我们介绍了WebResearcher，一个通过三个关键贡献从根本上重新思考深度研究代理的新框架：(1) IterResearch，一种迭代范式，将深度研究重新表述为具有周期性整合的马尔可夫决策过程，克服了单上下文方法的上下文窒息和噪声污染；(2) WebFrontier，一个可扩展的数据合成引擎，通过工具增强的复杂性升级解决训练数据稀缺问题；(3) 一个研究-合成框架，通过并行多代理探索实现有效的测试时间扩展。在6个具有挑战性的基准测试中的广泛实验表明，WebResearcher实现了最先进的性能，甚至超过了前沿的专有系统。这些结果验证了我们的核心见解：有效的深度研究需要结构化迭代和周期性综合，而不是无界累积。

WebResearcher的成功不仅体现在其卓越的性能上，还体现在其范式转变的本质上。通过将深度研究重新表述为迭代过程而不是线性累积，我们解决了长期困扰代理系统的上下文管理挑战。我们的迭代范式使代理能够维持高质量的推理，无论研究深度如何，同时有效地过滤噪声并防止错误传播。此外，我们的数据合成引擎解决了训练深度研究代理的关键瓶颈，使系统能够学习复杂的推理和工具使用技能。最后，我们的研究-合成框架展示了如何利用测试时间扩展来进一步提高性能，通过并行探索和综合多样化推理路径。

未来工作有几个有前途的方向。首先，我们计划扩展WebFrontier以生成更多样化和复杂的研究任务，进一步推动代理能力的边界。其次，我们旨在优化IterResearch的状态表示和转换函数，以提高效率和效果。第三，我们计划探索更复杂的研究-合成策略，包括分层和自适应方法。最后，我们打算将WebResearcher应用于更广泛的领域和任务，包括科学发现、医疗诊断和法律研究等。

总之，WebResearcher代表了深度研究代理的重要进展，为构建能够进行长时程推理和知识综合的自主系统提供了新的范式。通过迭代研究、数据合成和测试时间扩展的创新组合，我们展示了如何克服现有方法的局限性，实现前所未有的性能水平。我们相信，WebResearcher不仅是一个强大的系统，更是朝着真正通用人工智能迈出的重要一步。