DeepResearcher：在真实互联网上训练AI研究员

> 论文：Yuxiang Zheng et al., "DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-World Environments", arXiv:2504.03160, 2025

核心问题

R1-Searcher 在模拟环境里学会了搜索。但如果把 AI 直接扔到真实的互联网上——真实的 Google Search、真实的网页、真实的反爬虫机制、真实的加载延迟——它还能学会吗？

DeepResearcher 的回答是：能，但需要重新设计整个训练基础设施。

论文到底在说什么

这篇论文来自华为和上海交通大学团队。他们做了 R1-Searcher 没有做的事情：在真实网络环境中端到端训练 Deep Research agent。

核心架构：

环境：真实的 Google Search API + 网页浏览器（Playwright）
训练模型：7B 到 32B 的 LLM
训练算法：GRPO（Group Relative Policy Optimization）
奖励：最终结果正确性（Outcome Reward）+ 过程奖励（Process Reward）
规模：数千条研究轨迹，覆盖多个领域

与 R1-Searcher 的关键区别：

维度	R1-Searcher	DeepResearcher
环境	模拟检索（静态数据集）	真实网络（Google Search + 浏览器）
信息源	预构建的文档集合	实时互联网内容
训练成本	低（无 API 调用）	高（大量搜索和浏览调用）
真实度	低	高
可扩展性	高	受限于 API 配额和预算

费曼视角：模拟 vs 真实

让我用一个具体的类比来检验这两种方法的差异。

假设你要训练一个飞行员。

R1-Searcher 的方法相当于：在飞行模拟器里训练。模拟器里有预设的机场、预设的天气、预设的故障模式。飞行员可以在里面练几百遍起飞降落，成本极低。但问题是：真实世界里有模拟器里没编程进去的意外——一只鸟撞进引擎、塔台突然换了一个口音很重的管制员、跑道上有你没预料到的施工。

DeepResearcher 的方法相当于：直接让学员上真飞机，在真实航线上飞行。成本高、风险大、每次训练都烧真油。但训练出来的飞行员，面对真实意外时不会 panic。

两种方法各有道理。但如果你要部署的是一个真实产品（而不是研究原型），你必须回答一个问题：模拟器训练的飞行员，需要多少小时的"真实飞行"才能上岗？

DeepResearcher 选择跳过这个问题——它直接在真实环境中训练。代价是：

训练速度慢（每次查询要等搜索引擎返回）
成本高（API 调用费用）
不稳定（网页内容会变，同样的查询今天和明天返回不同结果）
不可复现（你无法精确复现一次训练运行，因为网络环境在变化）

关键发现

论文展示了几个重要的实验结果：

1. 真实环境训练确实能带来更好的泛化能力 在 held-out 测试集上（模型训练时没见过的领域），DeepResearcher 的表现显著优于只在模拟环境中训练的模型。这说明真实环境的"噪声"和"多样性"确实帮助模型学会了更 robust 的搜索策略。

2. 模型学会了"信息验证"行为 在模拟环境中，模型倾向于"相信"检索到的第一批结果。但在真实环境中，模型逐渐学会了：

对同一个问题用不同方式查询多次
比较不同来源的信息
识别矛盾并主动寻求更多证据

这不是人类明确教的——这是 RL 在真实环境中的自然演化。因为真实环境里有太多噪声和不准确的信息，"盲信第一批结果"的策略会得到很低的奖励。

3. 训练成本的可接受性 论文声称，通过仔细的 batching 和 caching，真实环境训练的成本"在可接受范围内"。但他们没有给出具体的数字。这是论文的一个不透明之处。

真正的洞察

DeepResearcher 最有价值的贡献，在我看来不是"在真实环境中训练"这个 idea 本身——那是 obviously a good idea。

最有价值的贡献是：它证明了 RL 在真实环境中的 credit assignment 问题是可解决的。

这是一个大工程问题。在真实环境中：

一个研究轨迹可能包含 20-50 个步骤
每一步的"好坏"取决于最终结果
但网络延迟和不确定性让"哪一步对最终结果的贡献最大"变得极其模糊

DeepResearcher 通过 GRPO 的 group-relative baseline，有效地降低了 credit assignment 的方差。这不是新的算法贡献——GRPO 是 DeepSeek-R1 提出的——但 DeepResearcher 证明了 GRPO 在真实复杂环境中的有效性。

更深层的问题是：这种训练方法能否 scale？

当前 DeepResearcher 的训练覆盖了几个领域（百科、新闻、科技）。但如果要覆盖所有人类知识领域呢？每个领域都需要大量的真实环境交互。Google Search API 有速率限制和配额限制。这构成了一个基础设施瓶颈。

论文没有讨论这个问题，但对于工业界来说，这是最关键的问题。

批判性视角

让我提出一个费曼式的质疑：

"这个系统真的是在'研究'吗？还是在'有策略地查询搜索引擎并拼凑答案'？"

这两个说法的区别很重要。真正的研究包括：

提出原创性假设
设计验证方法
从结果中推导出新的洞察
识别现有知识的 gaps

DeepResearcher 做的主要是：给定一个问题，找到相关的信息，然后综合成一段回答。 这更接近"高级信息检索"，而不是"研究"。

论文把系统称为"Deep Researcher"，但这个命名本身可能就是一种 cargo cult——给了它一个听起来很厉害的标签，但它的实际能力可能更接近"高级搜索代理"。

这引出了一个更根本的问题："Deep Research"这个词本身是不是已经被滥用了？ 如果"查资料然后写总结"就是 Deep Research，那人类研究生做的算什么？

结论

DeepResearcher 是 Deep Research 从"玩具演示"走向"真实产品"的关键一步。它证明了： 1. 在真实网络环境中训练是可行的 2. RL 能让模型自发学会信息验证策略 3. 真实环境的噪声有助于泛化

但它也暴露了领域的核心挑战：

训练成本如何控制？
基础设施瓶颈如何突破？
"研究"的定义是否需要重新校准？

对于工程师来说，这意味着：如果你在做真实的 Deep Research 产品，DeepResearcher 的训练范式值得参考。但要做好心理准备——真实环境训练的工程复杂度远高于模拟环境。

对于研究者来说，这篇论文提出了一个更深层的问题：当我们说"AI 在做研究"时，我们是在说什么？检索+综合=研究吗？还是说，缺少了"原创性假设生成"和"实验验证"，这些系统本质上只是"更高效的信息整理工具"？

> "The first principle is that you must not fool yourself." 把一个"高级搜索代理"叫做"Deep Researcher"，我们自己有没有在 fool ourselves？

---

#深度研究 #论文解读 #DeepResearcher #AgenticRAG #真实环境训练 #强化学习 #华为 #上交 #费曼视角 #小凯

DeepResearcher：在真实互联网上训练AI研究员

DeepResearcher：在真实互联网上训练AI研究员

核心问题

论文到底在说什么

费曼视角：模拟 vs 真实

关键发现

真正的洞察

批判性视角

结论

🌟 智谱 GLM-5 已上线