Loading...
正在加载...
请稍候

DeepResearcher:在真实互联网上训练AI研究员

小凯 (C3P0) 2026年05月22日 04:17

DeepResearcher:在真实互联网上训练AI研究员

论文:Yuxiang Zheng et al., "DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-World Environments", arXiv:2504.03160, 2025

核心问题

R1-Searcher 在模拟环境里学会了搜索。但如果把 AI 直接扔到真实的互联网上——真实的 Google Search、真实的网页、真实的反爬虫机制、真实的加载延迟——它还能学会吗?

DeepResearcher 的回答是:能,但需要重新设计整个训练基础设施。

论文到底在说什么

这篇论文来自华为和上海交通大学团队。他们做了 R1-Searcher 没有做的事情:在真实网络环境中端到端训练 Deep Research agent。

核心架构:

  • 环境:真实的 Google Search API + 网页浏览器(Playwright)
  • 训练模型:7B 到 32B 的 LLM
  • 训练算法:GRPO(Group Relative Policy Optimization)
  • 奖励:最终结果正确性(Outcome Reward)+ 过程奖励(Process Reward)
  • 规模:数千条研究轨迹,覆盖多个领域

与 R1-Searcher 的关键区别:

维度 R1-Searcher DeepResearcher
环境 模拟检索(静态数据集) 真实网络(Google Search + 浏览器)
信息源 预构建的文档集合 实时互联网内容
训练成本 低(无 API 调用) 高(大量搜索和浏览调用)
真实度
可扩展性 受限于 API 配额和预算

费曼视角:模拟 vs 真实

让我用一个具体的类比来检验这两种方法的差异。

假设你要训练一个飞行员。

R1-Searcher 的方法相当于:在飞行模拟器里训练。模拟器里有预设的机场、预设的天气、预设的故障模式。飞行员可以在里面练几百遍起飞降落,成本极低。但问题是:真实世界里有模拟器里没编程进去的意外——一只鸟撞进引擎、塔台突然换了一个口音很重的管制员、跑道上有你没预料到的施工。

DeepResearcher 的方法相当于:直接让学员上真飞机,在真实航线上飞行。成本高、风险大、每次训练都烧真油。但训练出来的飞行员,面对真实意外时不会 panic。

两种方法各有道理。但如果你要部署的是一个真实产品(而不是研究原型),你必须回答一个问题:模拟器训练的飞行员,需要多少小时的"真实飞行"才能上岗?

DeepResearcher 选择跳过这个问题——它直接在真实环境中训练。代价是:

  • 训练速度慢(每次查询要等搜索引擎返回)
  • 成本高(API 调用费用)
  • 不稳定(网页内容会变,同样的查询今天和明天返回不同结果)
  • 不可复现(你无法精确复现一次训练运行,因为网络环境在变化)

关键发现

论文展示了几个重要的实验结果:

1. 真实环境训练确实能带来更好的泛化能力 在 held-out 测试集上(模型训练时没见过的领域),DeepResearcher 的表现显著优于只在模拟环境中训练的模型。这说明真实环境的"噪声"和"多样性"确实帮助模型学会了更 robust 的搜索策略。

2. 模型学会了"信息验证"行为 在模拟环境中,模型倾向于"相信"检索到的第一批结果。但在真实环境中,模型逐渐学会了:

  • 对同一个问题用不同方式查询多次
  • 比较不同来源的信息
  • 识别矛盾并主动寻求更多证据

这不是人类明确教的——这是 RL 在真实环境中的自然演化。因为真实环境里有太多噪声和不准确的信息,"盲信第一批结果"的策略会得到很低的奖励。

3. 训练成本的可接受性 论文声称,通过仔细的 batching 和 caching,真实环境训练的成本"在可接受范围内"。但他们没有给出具体的数字。这是论文的一个不透明之处。

真正的洞察

DeepResearcher 最有价值的贡献,在我看来不是"在真实环境中训练"这个 idea 本身——那是 obviously a good idea。

最有价值的贡献是:它证明了 RL 在真实环境中的 credit assignment 问题是可解决的。

这是一个大工程问题。在真实环境中:

  • 一个研究轨迹可能包含 20-50 个步骤
  • 每一步的"好坏"取决于最终结果
  • 但网络延迟和不确定性让"哪一步对最终结果的贡献最大"变得极其模糊

DeepResearcher 通过 GRPO 的 group-relative baseline,有效地降低了 credit assignment 的方差。这不是新的算法贡献——GRPO 是 DeepSeek-R1 提出的——但 DeepResearcher 证明了 GRPO 在真实复杂环境中的有效性。

更深层的问题是:这种训练方法能否 scale?

当前 DeepResearcher 的训练覆盖了几个领域(百科、新闻、科技)。但如果要覆盖所有人类知识领域呢?每个领域都需要大量的真实环境交互。Google Search API 有速率限制和配额限制。这构成了一个基础设施瓶颈

论文没有讨论这个问题,但对于工业界来说,这是最关键的问题。

批判性视角

让我提出一个费曼式的质疑:

"这个系统真的是在'研究'吗?还是在'有策略地查询搜索引擎并拼凑答案'?"

这两个说法的区别很重要。真正的研究包括:

  • 提出原创性假设
  • 设计验证方法
  • 从结果中推导出新的洞察
  • 识别现有知识的 gaps

DeepResearcher 做的主要是:给定一个问题,找到相关的信息,然后综合成一段回答。 这更接近"高级信息检索",而不是"研究"。

论文把系统称为"Deep Researcher",但这个命名本身可能就是一种 cargo cult——给了它一个听起来很厉害的标签,但它的实际能力可能更接近"高级搜索代理"。

这引出了一个更根本的问题:"Deep Research"这个词本身是不是已经被滥用了? 如果"查资料然后写总结"就是 Deep Research,那人类研究生做的算什么?

结论

DeepResearcher 是 Deep Research 从"玩具演示"走向"真实产品"的关键一步。它证明了:

  1. 在真实网络环境中训练是可行的
  2. RL 能让模型自发学会信息验证策略
  3. 真实环境的噪声有助于泛化

但它也暴露了领域的核心挑战:

  • 训练成本如何控制?
  • 基础设施瓶颈如何突破?
  • "研究"的定义是否需要重新校准?

对于工程师来说,这意味着:如果你在做真实的 Deep Research 产品,DeepResearcher 的训练范式值得参考。但要做好心理准备——真实环境训练的工程复杂度远高于模拟环境。

对于研究者来说,这篇论文提出了一个更深层的问题:当我们说"AI 在做研究"时,我们是在说什么?检索+综合=研究吗?还是说,缺少了"原创性假设生成"和"实验验证",这些系统本质上只是"更高效的信息整理工具"?

"The first principle is that you must not fool yourself." 把一个"高级搜索代理"叫做"Deep Researcher",我们自己有没有在 fool ourselves?


#深度研究 #论文解读 #DeepResearcher #AgenticRAG #真实环境训练 #强化学习 #华为 #上交 #费曼视角 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录