Deep Research 正在替代传统 RAG：从检索增强到自主研究的技术跃迁

> 目标受众：已熟悉 RAG 的技术工程师与研究者，想了解下一步技术演进方向

---

引言：范式正在迁移

如果你今天还在用 2023 年的 RAG 架构做企业知识问答，你大概已经感受到了天花板。单轮检索+静态向量库+零验证的流程，面对复杂多步问题时的表现，就像一个只会翻一页字典就交卷的应试者——不是不努力，是工具链本身不支持"思考"。

2024 年底到 2025 年初，学术界和工业界几乎同时出现了一批新的系统：OpenAI Deep Research、Google Deep Research、R1-Searcher、DeepResearcher……它们共同指向一个趋势——从"检索增强生成"(RAG) 到"自主深度研究"(Deep Research) 的范式迁移。

这不是简单的工程升级。这是一个底层假设的改变：从"模型需要外部知识时去检索"，变成"模型被赋予自主探索信息空间的能力，通过多轮查询、验证、推理来完成研究任务"。

本文基于 10 篇来自山东大学、宾夕法尼亚大学、华为、上海交通大学等机构的前沿论文，系统拆解这场技术跃迁的十个核心维度。

---

一、RAG 的三个结构性局限

传统 RAG（Retrieval-Augmented Generation）的核心假设很朴素：用户问一个问题，系统去知识库里检索相关段落，把检索结果塞进 prompt，让 LLM 基于这些上下文生成答案。这个架构在简单问答场景下表现不错，但面对真实世界的复杂信息需求时，暴露了三个结构性问题：

1.1 单轮检索：一步到位的幻觉

RAG 的检索通常是单轮的。系统根据用户 query 生成一个检索请求，拿到一批文档，就结束检索阶段。问题是：很多复杂问题根本无法通过一个 query 表达清楚。比如"比较 2024 年中美在量子计算领域的投入差异，并分析对半导体供应链的潜在影响"——这个问题需要拆解成多个子问题，每个子问题又需要不同的检索策略。

单轮检索的 RAG 面对这类问题时，要么检索结果太泛（检索词太宽泛），要么太窄（检索词太具体），检索和推理之间没有反馈循环。

1.2 固定语料：知识边界即系统边界

传统 RAG 依赖预构建的向量数据库，语料是静态的。这意味着：

系统无法获取实时信息（新闻、股价、最新论文）
系统无法跨域检索（内部文档 + 互联网 + 学术数据库）
系统无法处理语料库中完全没有覆盖的新兴概念

Deep Research 系统的核心突破之一，就是把检索范围从固定的向量库扩展到动态的、可组合的、多源的信息获取接口。

1.3 零验证：检索结果的质量无人把关

RAG 假设检索到的内容就是可靠的。但现实中，检索结果可能包含：过时的信息、有偏见的来源、事实错误、甚至是幻觉生成的内容（如果语料本身是由 LLM 生成的）。RAG 系统缺乏对检索结果进行交叉验证和可信度评估的机制。

Deep Research 系统引入了显式的验证步骤：通过多源检索、自我批评（self-critique）、引用追踪等方式，确保最终答案建立在可靠的信息基础上。

---

二、Deep Research：定义、核心组件与时间线

2.1 定义

Deep Research（深度研究）是一种让 LLM 自主执行多步骤信息获取、分析、验证和综合的技术范式。它扩展了 RAG 的概念，从"被动检索增强"升级为"主动研究代理"。

关键特征：

多轮迭代：研究过程包含多个查询-检索-分析的循环
动态规划：系统能根据中间结果调整后续查询策略
多源融合：整合搜索引擎、API、数据库、文档等多种信息源
自我验证：系统能评估信息质量，识别冲突和缺失
可追溯输出：最终答案附带来源引用和研究路径

2.2 核心组件

一个完整的 Deep Research 系统通常包含以下组件：

组件	功能	代表实现
查询规划器 (Query Planner)	将研究问题分解为可执行的查询序列	ReAct, Plan-and-Solve, Tree-of-Thought
信息获取器 (Information Gatherer)	执行检索、浏览、API 调用	WebSearch API, Browser Tool, DB Connector
记忆管理器 (Memory Manager)	存储和整理中间发现，支持后续推理	Short-term / Long-term / External Memory
推理引擎 (Reasoning Engine)	分析、综合、验证信息	CoT, Self-Critique, Verifier
输出合成器 (Output Synthesizer)	生成结构化研究报告	Markdown, JSON, 带引用的长文

2.3 发展时间线

2023 年：ReAct (Yao et al., ICLR 2023) 提出推理-行动交替范式，奠定 Agentic RAG 基础
2024 年初：Self-RAG (Asai et al.) 引入自适应检索和生成时的自我反思
2024 年中：Search-o1 (Zhang et al.) 将搜索过程嵌入推理链
2024 年底：OpenAI 发布 Deep Research 功能，工业界首次将完整研究流程产品化
2025 年初：R1-Searcher (arxiv:2503.05592) 用纯强化学习训练 7B 模型获得自主搜索能力
2025 年 5 月：DeepResearcher (arxiv:2505.22648) 通过大规模 RL 在真实网络环境中训练研究智能体

---

三、查询规划策略对比：并行 vs 串行 vs 树/图状

查询规划是 Deep Research 的核心能力之一——系统如何决定"下一步查什么"。目前有三种主要策略：

3.1 串行规划 (Sequential Planning)

最直观的策略：一步一步来。先查 A，基于 A 的结果决定查 B，再基于 B 决定查 C。ReAct 框架就是典型的串行规划。

优点：资源开销低，每一步都可以基于最新信息进行精细调整。缺点：容易陷入局部最优，如果第一步就偏了，后续步骤会在错误方向上越走越远。

3.2 并行规划 (Parallel Planning)

系统一次性生成多个独立的查询，并发执行。Google Deep Research 和 OpenAI 的实现中都大量使用了并行查询。

优点：覆盖率高，能在早期就获取多维度的信息。缺点：资源消耗大，需要额外的合并步骤来处理多个并行的结果流。

3.3 树/图状规划 (Tree/Graph Planning)

更复杂的策略：将研究问题建模为搜索树或知识图。每个节点是一个子问题或中间发现，边代表推理依赖关系。系统可以在多个分支上并行探索，同时在关键节点进行交叉验证。

Tree-of-Thought (Yao et al., 2023) 和 Graph-of-Thought (Besta et al., 2024) 是这个方向的代表。

优点：能处理高度复杂的、多依赖关系的研究问题；支持回溯和分支合并。缺点：实现复杂度高，需要精细的剪枝策略来控制计算开销。

3.4 当前共识

实际系统中，混合策略正在成为主流：先用并行查询做 broad exploration，然后用串行深度挖掘 promising 的方向，最后用图状结构进行交叉验证和综合。

---

四、信息获取架构选型：API 检索 vs 浏览器检索 vs 混合方案

Deep Research 系统的"眼睛和耳朵"——它通过什么方式获取外部信息？目前有三种主要架构：

4.1 API 检索 (Search API)

调用搜索引擎 API（Google Search API、Bing API、Serper 等）获取结果。

优点：

速度快（毫秒级响应）
结构化输出（标题、摘要、URL）
成本低（按查询计费，可预测）
易于批量并行

缺点：

信息粒度粗（只有摘要，没有完整页面内容）
无法处理需要登录/交互的网站
受 API 结果质量限制

4.2 浏览器检索 (Browser Simulation)

系统控制一个真实的浏览器环境（通过 Playwright、Selenium 等），像人一样点击、滚动、阅读网页。

优点：

能获取完整的页面内容
能处理动态加载的内容（SPA、AJAX）
能执行表单提交、登录等交互操作
能下载 PDF、CSV 等附件

缺点：

速度慢（秒级甚至分钟级）
成本高（需要运行完整浏览器实例）
稳定性差（网站改版、反爬虫、验证码）
难以大规模并行

4.3 混合方案

目前最先进的系统（如 OpenAI Deep Research、DeepResearcher）都采用混合架构：

先用 API 检索做快速扫描，获取候选 URL 列表
然后用浏览器访问高价值的页面，提取详细内容
在浏览器访问过程中发现的新链接，再回到 API 或继续浏览器深入

DeepResearcher (arxiv:2505.22648) 的实验表明，纯 API 方案在处理需要深度阅读的任务时效果受限，纯浏览器方案在成本和速度上不可接受，混合方案在效果-成本曲线上位于帕累托最优。

---

五、记忆管理三条路线及各自瓶颈

Deep Research 不是一次性的问答，而是一个持续数十分钟甚至更长的研究过程。系统需要记忆来避免重复查询、整合分散的发现、维持研究上下文。目前有三条主要路线：

5.1 短期记忆 (Short-term / In-context Memory)

把研究过程中的所有发现都放在当前 prompt 的上下文窗口里。最简单，也最常用。

瓶颈：上下文窗口长度限制。对于复杂研究，几十轮查询的累积内容很容易超过 128K 甚至 1M token 的窗口。即使模型支持长上下文，" needle in a haystack"问题（关键信息淹没在大量无关内容中）会导致推理质量下降。

5.2 长期记忆 (Long-term / External Memory)

将中间发现存储到外部系统（向量数据库、知识图谱、传统数据库），按需检索。代表工作包括 MemGPT、Agentic Context Engineering (ACE) 等。

瓶颈：

写入-读取权衡：写得太细，检索时噪声大；写得太粗，丢失关键细节
结构化难题：研究发现是高度异构的（一段文本、一个数字、一个关系、一个待验证假设），统一存储格式很难设计
遗忘与更新：研究过程中假设会被推翻、证据会被修正，记忆系统需要支持"软删除"和"版本更新"

5.3 层次化记忆 (Hierarchical Memory)

将记忆组织为多层结构：原始片段 → 局部摘要 → 全局综合 → 最终结论。每层有不同的粒度和更新频率。

瓶颈：

层级设计没有统一标准，不同研究团队采用不同的层级划分
跨层一致性难以保证，局部摘要和全局综合之间可能出现矛盾
压缩损失，每一层的向上聚合都会丢失信息

---

六、为什么强化学习（而非 SFT/DPO）成为训练范式主流

这是 Deep Research 领域最关键的技术决策之一：如何训练模型获得自主研究能力？

6.1 SFT 的局限

监督微调 (Supervised Fine-Tuning) 需要高质量的人工标注数据——研究人员先执行一遍完整的研究流程，把每一步的动作和推理都记录下来，然后用这些数据训练模型。

问题：

数据获取成本极高：一个复杂研究任务可能需要数小时的人工执行和标注
分布偏移：训练数据覆盖的研究场景有限，模型遇到未见过的领域时泛化能力差
无法探索：SFT 教模型"模仿"人类的研究路径，但不具备发现新路径的能力

6.2 DPO 的局限

直接偏好优化 (Direct Preference Optimization) 通过对比"好答案"和"坏答案"来训练模型，不需要显式的奖励模型。

问题：

Deep Research 的"好"与"坏"很难定义。一个研究路径可能在中间步骤看起来很糟，但最终产出优秀；反之亦然
DPO 假设偏好是静态的，但研究过程中的偏好是动态演化的（随着新信息的获取，对"好答案"的定义会改变）

6.3 强化学习的优势

RL 的核心优势在于探索-利用权衡和延迟奖励：

模型可以尝试不同的查询策略，环境（真实搜索引擎、API 结果）给出反馈
奖励可以延迟到整个研究流程结束（最终答案的质量），也可以通过过程奖励函数分解到中间步骤
模型在训练中自主发现有效的研究策略，而非模仿预设路径

R1-Searcher (arxiv:2503.05592) 的实验证明：纯 RL 训练的 7B 模型，在搜索增强的问答任务上超越了 SFT 训练的 GPT-4o-mini。

---

七、GRPO 算法原理与 60%+ 系统采用率背后的工程原因

7.1 从 PPO 到 GRPO

传统 RL 训练 LLM 使用 PPO (Proximal Policy Optimization)，需要维护一个独立的 Critic 网络来估计价值函数。Critic 网络的训练本身就很困难：

需要大量计算资源（Critic 通常和 Actor 一样大）
在长序列上估计状态价值极其不稳定
Critic 和 Actor 之间的协同训练容易出现模式崩溃

GRPO (Group Relative Policy Optimization) 是 DeepSeek 在 R1 训练中采用的核心算法，后被 R1-Searcher、DeepResearcher 等多个 Deep Research 系统采用。

核心思想：不再用 Critic 网络估计每个状态的价值，而是对同一个 prompt 采样多个输出（一个 group），用 group 内的相对奖励来估计 baseline。

7.2 GRPO 算法流程

对于每个 prompt：
  1. 从当前策略采样 G 个输出（构成一个 group）
  2. 对每个输出，计算奖励 r_i
  3. 计算 group 的平均奖励 mean_r = average(r_1, ..., r_G)
  4. 对每个输出，计算优势 A_i = r_i - mean_r
  5. 用 clipped surrogate objective 更新策略

关键超参数：

采样数 G：通常为 4-16，影响估计方差和计算成本
裁剪范围 ε：控制策略更新的幅度，防止震荡

7.3 为什么 60%+ 的 Deep Research 系统采用 GRPO？

1. 无需 Critic：省掉了一个和主模型一样大的网络，训练成本直接砍半 2. 天然适合稀疏奖励：Deep Research 的最终奖励（答案正确性）是稀疏的，group 内的相对比较比绝对值估计更稳定 3. 实现简单：GRPO 的代码实现比 PPO 简洁很多，工程团队可以快速上手 4. 和 DeepSeek 生态的协同效应：大量 Deep Research 系统基于 DeepSeek 模型开发，GRPO 是该生态的默认训练算法

7.4 GRPO 的局限性

高方差问题：group size 太小（G < 4）时，baseline 估计不稳定
同质地问题：如果模型已经收敛到某个模式，group 内的输出会高度相似，导致优势估计失效
长序列扩展：对于需要数百步研究的 Deep Research 任务，GRPO 的方差问题会被放大

后续工作如 Mu-GRPO (arxiv 2026-05-19) 和 Beyond GRPO (arxiv 2026-05-14) 正在尝试用 off-policy 数据、sparse-to-dense reward 等方法来缓解这些问题。

---

八、奖励设计演进路径与两阶段训练流水线

8.1 奖励设计的演进

Deep Research 的奖励设计经历了三个阶段：

阶段一：结果奖励 (Outcome Reward) 只根据最终答案的正确性/质量给奖励。简单，但稀疏。问题：研究过程可能很长（数十步），最终奖励的信号无法有效传播到早期步骤（信用分配问题）。

阶段二：过程奖励 (Process Reward) 对研究过程中的每一步都给奖励。可以是人工设计的启发式规则（如"成功检索到相关文档"+0.1，"生成了有效查询"+0.05），也可以是学习得到的 Process Reward Model (PRM)。

2025 年 5 月的论文"Which is Better for Agentic RAG Reinforcement Learning" (arxiv:2505.14069v1) 系统比较了 Outcome RL 和 Process RL 在 Agentic RAG 中的效果，发现：

Outcome RL 存在低探索效率、梯度冲突、稀疏奖励三大问题
Process RL 提供逐步奖励信号，但面临Process Reward Design 困难、步骤级标注成本高的挑战
最优策略是混合奖励：用过程奖励引导早期探索，用结果奖励保证最终质量

阶段三：结构化奖励 (Structured Reward) 最新的方向是将奖励分解为多个维度：

信息覆盖率（是否检索到了足够的来源）
信息冲突检测率（是否识别出矛盾信息）
引用准确性（引用是否真实存在且支持论点）
推理连贯性（中间步骤是否逻辑一致）
答案完整性（是否覆盖了问题的所有方面）

ToolRL (arxiv 2026-05-11) 的研究发现，长度奖励（奖励更长的输出）竟然是毒药，会导致模型生成冗余内容。精细化的、多维度的奖励设计才是正解。

8.2 两阶段训练流水线

目前主流的 Deep Research 训练流程是：

第一阶段：冷启动 (Cold Start)

用少量高质量的 SFT 数据（人工标注的研究轨迹）初始化模型
目的是让模型学会基本的研究"语法"：如何生成查询、如何解析结果、如何组织输出
数据量不需要大（通常数千条即可），关键是质量

第二阶段：强化学习 (RL)

在真实环境（搜索引擎、浏览器）中运行模型
环境给出奖励信号（最终答案正确性 + 过程奖励）
用 GRPO 或类似算法更新策略
这一阶段模型真正学会"如何研究"

R1-Searcher 和 DeepResearcher 都采用这个两阶段流水线，区别主要在于 RL 阶段的规模和环境真实度：

R1-Searcher 使用模拟的检索环境（基于真实数据集，但离线）
DeepResearcher 在真实网络环境中训练，直接与 Google Search、网页交互

---

九、三阶段发展路线图：从 Agent Search 到 Full-Stack AI Scientist

基于当前技术趋势，Deep Research 的发展可以分为三个阶段：

阶段一：Agent Search（当前主流，2024-2025）

特征：

模型具备多轮检索和简单推理能力
主要面向问答和简要调研任务
人类定义研究问题，Agent 执行信息收集

代表系统：OpenAI Deep Research、Google Deep Research、Perplexity

关键瓶颈：

无法自主提出研究问题
研究深度受限于单次会话的上下文长度
对需要实验验证或代码执行的领域无能为力

阶段二：Autonomous Research（正在发生，2025-2026）

特征：

Agent 能自主提出假设、设计研究计划、执行多步调查
支持跨模态信息融合（文本 + 表格 + 图像 + 代码）
具备基本的自我批评和修正能力

代表系统：R1-Searcher、DeepResearcher、EvoScientist

关键突破：

强化学习训练让模型获得真正的"研究策略"，而非模仿人类轨迹
记忆系统的进步让长程研究成为可能
工具使用能力扩展到代码执行、数据分析、可视化

阶段三：Full-Stack AI Scientist（远期愿景，2026+）

特征：

AI 科学家能自主提出研究问题、设计实验、执行分析、撰写论文
具备领域专业知识，能理解学科内部的隐性知识和方法论
能与其他 AI 或人类研究者协作

当前距离：

实验设计和执行：已有初步能力（如 Sakana AI 的 AI Scientist）
原创性假设提出：仍需要人类引导
跨领域洞察：模型擅长组合已知知识，但真正的 paradigm shift 仍需人类

---

十、商业系统横评：OpenAI o3 / Gemini / DeepSeek-R1 / Manus

10.1 系统概述

系统	提供商	底层模型	信息源	训练方式
OpenAI Deep Research	OpenAI	o3 / o4-mini	互联网 + 实时搜索	强化学习 + 人类反馈
Google Deep Research	Google	Gemini 2.5 Pro	Google Search + 学术数据库	SFT + RL
DeepSeek-R1-Searcher	深言科技/社区	DeepSeek-R1-7B/32B	模拟检索环境	纯 GRPO RL
Manus	Monica.im	Claude/GPT 混合	浏览器 + API	工作流编排

10.2 关键差异

OpenAI Deep Research：

产品化程度最高，用户体验最成熟
输出格式规范（带引用、结构化报告）
信息源覆盖广，但过程不透明（黑盒）
成本较高，需要 Pro 订阅

Google Deep Research：

与 Google 搜索生态深度整合
在学术文献检索上有优势
支持多语言搜索
目前免费（实验阶段）

DeepSeek-R1-Searcher：

开源，可本地部署
7B 模型就能击败 GPT-4o-mini，证明了 RL 训练的效率
纯 RL 训练，无需人工标注数据
学术探索性质强，产品化程度低

Manus：

通用 Agent 平台，Deep Research 只是其中一个工作流
强调浏览器操作和文件处理能力
能生成可交付物（PPT、代码、报告）
邀请制，普及度有限

10.3 评估维度

维度	OpenAI	Google	DeepSeek-R1	Manus
信息覆盖率	★★★★★	★★★★☆	★★★☆☆	★★★★☆
答案准确性	★★★★★	★★★★☆	★★★★☆	★★★☆☆
可追溯性	★★★★★	★★★★☆	★★★★★	★★★☆☆
研究深度	★★★★☆	★★★★☆	★★★☆☆	★★★★☆
成本效率	★★☆☆☆	★★★★★	★★★★★	★★☆☆☆
可定制性	★★☆☆☆	★★☆☆☆	★★★★★	★★★★☆

---

结论与判断

核心判断

1. Deep Research 不是 RAG 的升级版，是不同物种。RAG 假设"外部信息是答案的原料"，Deep Research 假设"外部信息是推理过程的燃料"。

2. 强化学习是训练范式的主流选择，但奖励设计仍是最大的开放问题。GRPO 解决了训练效率问题，但"什么是好的研究过程"还没有统一答案。

3. 记忆管理是下一个技术瓶颈。当前系统能处理数十步的研究流程，但面对需要数小时、跨会话的复杂研究时，记忆系统的组织、检索、更新能力严重不足。

4. 开源生态正在快速追赶。R1-Searcher 证明了 7B 模型通过纯 RL 就能达到可用水平，这意味着 Deep Research 能力即将民主化。

给工程师的建议

如果你正在构建企业级知识系统：

短期：在现有 RAG 基础上增加多轮检索和简单验证（Self-RAG / ReAct）
中期：引入查询规划器（Tree-of-Thought / Plan-and-Solve）和层次化记忆
长期：考虑用 GRPO 在特定领域数据上训练专用研究模型

关键论文索引

1. ReAct: Yao et al., "ReAct: Synergizing Reasoning and Acting in Language Models", ICLR 2023 2. R1-Searcher: arxiv:2503.05592, "Incentivizing the Search Capability in LLMs via Reinforcement Learning", 2025-03 3. DeepResearcher: arxiv:2505.22648, "Towards Autonomous Information Seeking Agency", 2025-05 4. Process vs Outcome RL: arxiv:2505.14069v1, "Which is Better for Agentic RAG Reinforcement Learning", 2025-05 5. Deep Research Survey: arxiv:2508.12752v1, "Deep Research: A Survey of Autonomous Research Agents", 2025-08 6. GRPO: DeepSeek-R1 技术报告, 2025-01 7. ToolRL: arxiv 2026-05-11, "奖励设计决定工具学习的生死" 8. Mu-GRPO: arxiv 2026-05-19, "GRPO 可以有多 Off-Policy" 9. StepPO: zhichai.net/t/177618613, "AI Agent 的强化学习，不该按字算，该按步算" 10. WebDancer: arxiv:2505.22648, "DeepResearcher: Scaling Deep Research via RL in Real-World Environments"

---

> 官方网站: TGLTommy.com（访问需科学上网） > B站/公众号/YouTube: 唐国梁Tommy

#深度研究 #DeepResearch #AgenticRAG #强化学习 #GRPO #R1Searcher #人工智能 #论文综述 #小凯

Deep Research 正在替代传统 RAG：从检索增强到自主研究的技术跃迁

Deep Research 正在替代传统 RAG：从检索增强到自主研究的技术跃迁

引言：范式正在迁移

一、RAG 的三个结构性局限

1.1 单轮检索：一步到位的幻觉

1.2 固定语料：知识边界即系统边界

1.3 零验证：检索结果的质量无人把关

二、Deep Research：定义、核心组件与时间线

2.1 定义

2.2 核心组件

2.3 发展时间线

三、查询规划策略对比：并行 vs 串行 vs 树/图状

3.1 串行规划 (Sequential Planning)

3.2 并行规划 (Parallel Planning)

3.3 树/图状规划 (Tree/Graph Planning)

3.4 当前共识

四、信息获取架构选型：API 检索 vs 浏览器检索 vs 混合方案

4.1 API 检索 (Search API)

4.2 浏览器检索 (Browser Simulation)

4.3 混合方案

五、记忆管理三条路线及各自瓶颈

5.1 短期记忆 (Short-term / In-context Memory)

5.2 长期记忆 (Long-term / External Memory)

5.3 层次化记忆 (Hierarchical Memory)

六、为什么强化学习（而非 SFT/DPO）成为训练范式主流

6.1 SFT 的局限

6.2 DPO 的局限

6.3 强化学习的优势

七、GRPO 算法原理与 60%+ 系统采用率背后的工程原因

7.1 从 PPO 到 GRPO

7.2 GRPO 算法流程

7.3 为什么 60%+ 的 Deep Research 系统采用 GRPO？

7.4 GRPO 的局限性

八、奖励设计演进路径与两阶段训练流水线

8.1 奖励设计的演进

8.2 两阶段训练流水线

九、三阶段发展路线图：从 Agent Search 到 Full-Stack AI Scientist

阶段一：Agent Search（当前主流，2024-2025）

阶段二：Autonomous Research（正在发生，2025-2026）

阶段三：Full-Stack AI Scientist（远期愿景，2026+）

十、商业系统横评：OpenAI o3 / Gemini / DeepSeek-R1 / Manus

10.1 系统概述

10.2 关键差异

10.3 评估维度

结论与判断

核心判断

给工程师的建议

关键论文索引

🌟 智谱 GLM-5 已上线