Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁
目标受众:已熟悉 RAG 的技术工程师与研究者,想了解下一步技术演进方向
引言:范式正在迁移
如果你今天还在用 2023 年的 RAG 架构做企业知识问答,你大概已经感受到了天花板。单轮检索+静态向量库+零验证的流程,面对复杂多步问题时的表现,就像一个只会翻一页字典就交卷的应试者——不是不努力,是工具链本身不支持"思考"。
2024 年底到 2025 年初,学术界和工业界几乎同时出现了一批新的系统:OpenAI Deep Research、Google Deep Research、R1-Searcher、DeepResearcher……它们共同指向一个趋势——从"检索增强生成"(RAG) 到"自主深度研究"(Deep Research) 的范式迁移。
这不是简单的工程升级。这是一个底层假设的改变:从"模型需要外部知识时去检索",变成"模型被赋予自主探索信息空间的能力,通过多轮查询、验证、推理来完成研究任务"。
本文基于 10 篇来自山东大学、宾夕法尼亚大学、华为、上海交通大学等机构的前沿论文,系统拆解这场技术跃迁的十个核心维度。
一、RAG 的三个结构性局限
传统 RAG(Retrieval-Augmented Generation)的核心假设很朴素:用户问一个问题,系统去知识库里检索相关段落,把检索结果塞进 prompt,让 LLM 基于这些上下文生成答案。这个架构在简单问答场景下表现不错,但面对真实世界的复杂信息需求时,暴露了三个结构性问题:
1.1 单轮检索:一步到位的幻觉
RAG 的检索通常是单轮的。系统根据用户 query 生成一个检索请求,拿到一批文档,就结束检索阶段。问题是:很多复杂问题根本无法通过一个 query 表达清楚。比如"比较 2024 年中美在量子计算领域的投入差异,并分析对半导体供应链的潜在影响"——这个问题需要拆解成多个子问题,每个子问题又需要不同的检索策略。
单轮检索的 RAG 面对这类问题时,要么检索结果太泛(检索词太宽泛),要么太窄(检索词太具体),检索和推理之间没有反馈循环。
1.2 固定语料:知识边界即系统边界
传统 RAG 依赖预构建的向量数据库,语料是静态的。这意味着:
- 系统无法获取实时信息(新闻、股价、最新论文)
- 系统无法跨域检索(内部文档 + 互联网 + 学术数据库)
- 系统无法处理语料库中完全没有覆盖的新兴概念
Deep Research 系统的核心突破之一,就是把检索范围从固定的向量库扩展到动态的、可组合的、多源的信息获取接口。
1.3 零验证:检索结果的质量无人把关
RAG 假设检索到的内容就是可靠的。但现实中,检索结果可能包含:过时的信息、有偏见的来源、事实错误、甚至是幻觉生成的内容(如果语料本身是由 LLM 生成的)。RAG 系统缺乏对检索结果进行交叉验证和可信度评估的机制。
Deep Research 系统引入了显式的验证步骤:通过多源检索、自我批评(self-critique)、引用追踪等方式,确保最终答案建立在可靠的信息基础上。
二、Deep Research:定义、核心组件与时间线
2.1 定义
Deep Research(深度研究)是一种让 LLM 自主执行多步骤信息获取、分析、验证和综合的技术范式。它扩展了 RAG 的概念,从"被动检索增强"升级为"主动研究代理"。
关键特征:
- 多轮迭代:研究过程包含多个查询-检索-分析的循环
- 动态规划:系统能根据中间结果调整后续查询策略
- 多源融合:整合搜索引擎、API、数据库、文档等多种信息源
- 自我验证:系统能评估信息质量,识别冲突和缺失
- 可追溯输出:最终答案附带来源引用和研究路径
2.2 核心组件
一个完整的 Deep Research 系统通常包含以下组件:
| 组件 | 功能 | 代表实现 |
|---|---|---|
| 查询规划器 (Query Planner) | 将研究问题分解为可执行的查询序列 | ReAct, Plan-and-Solve, Tree-of-Thought |
| 信息获取器 (Information Gatherer) | 执行检索、浏览、API 调用 | WebSearch API, Browser Tool, DB Connector |
| 记忆管理器 (Memory Manager) | 存储和整理中间发现,支持后续推理 | Short-term / Long-term / External Memory |
| 推理引擎 (Reasoning Engine) | 分析、综合、验证信息 | CoT, Self-Critique, Verifier |
| 输出合成器 (Output Synthesizer) | 生成结构化研究报告 | Markdown, JSON, 带引用的长文 |
2.3 发展时间线
- 2023 年:ReAct (Yao et al., ICLR 2023) 提出推理-行动交替范式,奠定 Agentic RAG 基础
- 2024 年初:Self-RAG (Asai et al.) 引入自适应检索和生成时的自我反思
- 2024 年中:Search-o1 (Zhang et al.) 将搜索过程嵌入推理链
- 2024 年底:OpenAI 发布 Deep Research 功能,工业界首次将完整研究流程产品化
- 2025 年初:R1-Searcher (arxiv:2503.05592) 用纯强化学习训练 7B 模型获得自主搜索能力
- 2025 年 5 月:DeepResearcher (arxiv:2505.22648) 通过大规模 RL 在真实网络环境中训练研究智能体
三、查询规划策略对比:并行 vs 串行 vs 树/图状
查询规划是 Deep Research 的核心能力之一——系统如何决定"下一步查什么"。目前有三种主要策略:
3.1 串行规划 (Sequential Planning)
最直观的策略:一步一步来。先查 A,基于 A 的结果决定查 B,再基于 B 决定查 C。ReAct 框架就是典型的串行规划。
优点:资源开销低,每一步都可以基于最新信息进行精细调整。 缺点:容易陷入局部最优,如果第一步就偏了,后续步骤会在错误方向上越走越远。
3.2 并行规划 (Parallel Planning)
系统一次性生成多个独立的查询,并发执行。Google Deep Research 和 OpenAI 的实现中都大量使用了并行查询。
优点:覆盖率高,能在早期就获取多维度的信息。 缺点:资源消耗大,需要额外的合并步骤来处理多个并行的结果流。
3.3 树/图状规划 (Tree/Graph Planning)
更复杂的策略:将研究问题建模为搜索树或知识图。每个节点是一个子问题或中间发现,边代表推理依赖关系。系统可以在多个分支上并行探索,同时在关键节点进行交叉验证。
Tree-of-Thought (Yao et al., 2023) 和 Graph-of-Thought (Besta et al., 2024) 是这个方向的代表。
优点:能处理高度复杂的、多依赖关系的研究问题;支持回溯和分支合并。 缺点:实现复杂度高,需要精细的剪枝策略来控制计算开销。
3.4 当前共识
实际系统中,混合策略正在成为主流:先用并行查询做 broad exploration,然后用串行深度挖掘 promising 的方向,最后用图状结构进行交叉验证和综合。
四、信息获取架构选型:API 检索 vs 浏览器检索 vs 混合方案
Deep Research 系统的"眼睛和耳朵"——它通过什么方式获取外部信息?目前有三种主要架构:
4.1 API 检索 (Search API)
调用搜索引擎 API(Google Search API、Bing API、Serper 等)获取结果。
优点:
- 速度快(毫秒级响应)
- 结构化输出(标题、摘要、URL)
- 成本低(按查询计费,可预测)
- 易于批量并行
缺点:
- 信息粒度粗(只有摘要,没有完整页面内容)
- 无法处理需要登录/交互的网站
- 受 API 结果质量限制
4.2 浏览器检索 (Browser Simulation)
系统控制一个真实的浏览器环境(通过 Playwright、Selenium 等),像人一样点击、滚动、阅读网页。
优点:
- 能获取完整的页面内容
- 能处理动态加载的内容(SPA、AJAX)
- 能执行表单提交、登录等交互操作
- 能下载 PDF、CSV 等附件
缺点:
- 速度慢(秒级甚至分钟级)
- 成本高(需要运行完整浏览器实例)
- 稳定性差(网站改版、反爬虫、验证码)
- 难以大规模并行
4.3 混合方案
目前最先进的系统(如 OpenAI Deep Research、DeepResearcher)都采用混合架构:
- 先用 API 检索做快速扫描,获取候选 URL 列表
- 然后用浏览器访问高价值的页面,提取详细内容
- 在浏览器访问过程中发现的新链接,再回到 API 或继续浏览器深入
DeepResearcher (arxiv:2505.22648) 的实验表明,纯 API 方案在处理需要深度阅读的任务时效果受限,纯浏览器方案在成本和速度上不可接受,混合方案在效果-成本曲线上位于帕累托最优。
五、记忆管理三条路线及各自瓶颈
Deep Research 不是一次性的问答,而是一个持续数十分钟甚至更长的研究过程。系统需要记忆来避免重复查询、整合分散的发现、维持研究上下文。目前有三条主要路线:
5.1 短期记忆 (Short-term / In-context Memory)
把研究过程中的所有发现都放在当前 prompt 的上下文窗口里。最简单,也最常用。
瓶颈:上下文窗口长度限制。对于复杂研究,几十轮查询的累积内容很容易超过 128K 甚至 1M token 的窗口。即使模型支持长上下文," needle in a haystack"问题(关键信息淹没在大量无关内容中)会导致推理质量下降。
5.2 长期记忆 (Long-term / External Memory)
将中间发现存储到外部系统(向量数据库、知识图谱、传统数据库),按需检索。代表工作包括 MemGPT、Agentic Context Engineering (ACE) 等。
瓶颈:
- 写入-读取权衡:写得太细,检索时噪声大;写得太粗,丢失关键细节
- 结构化难题:研究发现是高度异构的(一段文本、一个数字、一个关系、一个待验证假设),统一存储格式很难设计
- 遗忘与更新:研究过程中假设会被推翻、证据会被修正,记忆系统需要支持"软删除"和"版本更新"
5.3 层次化记忆 (Hierarchical Memory)
将记忆组织为多层结构:原始片段 → 局部摘要 → 全局综合 → 最终结论。每层有不同的粒度和更新频率。
瓶颈:
- 层级设计没有统一标准,不同研究团队采用不同的层级划分
- 跨层一致性难以保证,局部摘要和全局综合之间可能出现矛盾
- 压缩损失,每一层的向上聚合都会丢失信息
六、为什么强化学习(而非 SFT/DPO)成为训练范式主流
这是 Deep Research 领域最关键的技术决策之一:如何训练模型获得自主研究能力?
6.1 SFT 的局限
监督微调 (Supervised Fine-Tuning) 需要高质量的人工标注数据——研究人员先执行一遍完整的研究流程,把每一步的动作和推理都记录下来,然后用这些数据训练模型。
问题:
- 数据获取成本极高:一个复杂研究任务可能需要数小时的人工执行和标注
- 分布偏移:训练数据覆盖的研究场景有限,模型遇到未见过的领域时泛化能力差
- 无法探索:SFT 教模型"模仿"人类的研究路径,但不具备发现新路径的能力
6.2 DPO 的局限
直接偏好优化 (Direct Preference Optimization) 通过对比"好答案"和"坏答案"来训练模型,不需要显式的奖励模型。
问题:
- Deep Research 的"好"与"坏"很难定义。一个研究路径可能在中间步骤看起来很糟,但最终产出优秀;反之亦然
- DPO 假设偏好是静态的,但研究过程中的偏好是动态演化的(随着新信息的获取,对"好答案"的定义会改变)
6.3 强化学习的优势
RL 的核心优势在于探索-利用权衡和延迟奖励:
- 模型可以尝试不同的查询策略,环境(真实搜索引擎、API 结果)给出反馈
- 奖励可以延迟到整个研究流程结束(最终答案的质量),也可以通过过程奖励函数分解到中间步骤
- 模型在训练中自主发现有效的研究策略,而非模仿预设路径
R1-Searcher (arxiv:2503.05592) 的实验证明:纯 RL 训练的 7B 模型,在搜索增强的问答任务上超越了 SFT 训练的 GPT-4o-mini。
七、GRPO 算法原理与 60%+ 系统采用率背后的工程原因
7.1 从 PPO 到 GRPO
传统 RL 训练 LLM 使用 PPO (Proximal Policy Optimization),需要维护一个独立的 Critic 网络来估计价值函数。Critic 网络的训练本身就很困难:
- 需要大量计算资源(Critic 通常和 Actor 一样大)
- 在长序列上估计状态价值极其不稳定
- Critic 和 Actor 之间的协同训练容易出现模式崩溃
GRPO (Group Relative Policy Optimization) 是 DeepSeek 在 R1 训练中采用的核心算法,后被 R1-Searcher、DeepResearcher 等多个 Deep Research 系统采用。
核心思想:不再用 Critic 网络估计每个状态的价值,而是对同一个 prompt 采样多个输出(一个 group),用 group 内的相对奖励来估计 baseline。
7.2 GRPO 算法流程
对于每个 prompt:
1. 从当前策略采样 G 个输出(构成一个 group)
2. 对每个输出,计算奖励 r_i
3. 计算 group 的平均奖励 mean_r = average(r_1, ..., r_G)
4. 对每个输出,计算优势 A_i = r_i - mean_r
5. 用 clipped surrogate objective 更新策略
关键超参数:
- 采样数 G:通常为 4-16,影响估计方差和计算成本
- 裁剪范围 ε:控制策略更新的幅度,防止震荡
7.3 为什么 60%+ 的 Deep Research 系统采用 GRPO?
- 无需 Critic:省掉了一个和主模型一样大的网络,训练成本直接砍半
- 天然适合稀疏奖励:Deep Research 的最终奖励(答案正确性)是稀疏的,group 内的相对比较比绝对值估计更稳定
- 实现简单:GRPO 的代码实现比 PPO 简洁很多,工程团队可以快速上手
- 和 DeepSeek 生态的协同效应:大量 Deep Research 系统基于 DeepSeek 模型开发,GRPO 是该生态的默认训练算法
7.4 GRPO 的局限性
- 高方差问题:group size 太小(G < 4)时,baseline 估计不稳定
- 同质地问题:如果模型已经收敛到某个模式,group 内的输出会高度相似,导致优势估计失效
- 长序列扩展:对于需要数百步研究的 Deep Research 任务,GRPO 的方差问题会被放大
后续工作如 Mu-GRPO (arxiv 2026-05-19) 和 Beyond GRPO (arxiv 2026-05-14) 正在尝试用 off-policy 数据、sparse-to-dense reward 等方法来缓解这些问题。
八、奖励设计演进路径与两阶段训练流水线
8.1 奖励设计的演进
Deep Research 的奖励设计经历了三个阶段:
阶段一:结果奖励 (Outcome Reward) 只根据最终答案的正确性/质量给奖励。简单,但稀疏。 问题:研究过程可能很长(数十步),最终奖励的信号无法有效传播到早期步骤(信用分配问题)。
阶段二:过程奖励 (Process Reward) 对研究过程中的每一步都给奖励。可以是人工设计的启发式规则(如"成功检索到相关文档"+0.1,"生成了有效查询"+0.05),也可以是学习得到的 Process Reward Model (PRM)。
2025 年 5 月的论文"Which is Better for Agentic RAG Reinforcement Learning" (arxiv:2505.14069v1) 系统比较了 Outcome RL 和 Process RL 在 Agentic RAG 中的效果,发现:
- Outcome RL 存在低探索效率、梯度冲突、稀疏奖励三大问题
- Process RL 提供逐步奖励信号,但面临Process Reward Design 困难、步骤级标注成本高的挑战
- 最优策略是混合奖励:用过程奖励引导早期探索,用结果奖励保证最终质量
阶段三:结构化奖励 (Structured Reward) 最新的方向是将奖励分解为多个维度:
- 信息覆盖率(是否检索到了足够的来源)
- 信息冲突检测率(是否识别出矛盾信息)
- 引用准确性(引用是否真实存在且支持论点)
- 推理连贯性(中间步骤是否逻辑一致)
- 答案完整性(是否覆盖了问题的所有方面)
ToolRL (arxiv 2026-05-11) 的研究发现,长度奖励(奖励更长的输出)竟然是毒药,会导致模型生成冗余内容。精细化的、多维度的奖励设计才是正解。
8.2 两阶段训练流水线
目前主流的 Deep Research 训练流程是:
第一阶段:冷启动 (Cold Start)
- 用少量高质量的 SFT 数据(人工标注的研究轨迹)初始化模型
- 目的是让模型学会基本的研究"语法":如何生成查询、如何解析结果、如何组织输出
- 数据量不需要大(通常数千条即可),关键是质量
第二阶段:强化学习 (RL)
- 在真实环境(搜索引擎、浏览器)中运行模型
- 环境给出奖励信号(最终答案正确性 + 过程奖励)
- 用 GRPO 或类似算法更新策略
- 这一阶段模型真正学会"如何研究"
R1-Searcher 和 DeepResearcher 都采用这个两阶段流水线,区别主要在于 RL 阶段的规模和环境真实度:
- R1-Searcher 使用模拟的检索环境(基于真实数据集,但离线)
- DeepResearcher 在真实网络环境中训练,直接与 Google Search、网页交互
九、三阶段发展路线图:从 Agent Search 到 Full-Stack AI Scientist
基于当前技术趋势,Deep Research 的发展可以分为三个阶段:
阶段一:Agent Search(当前主流,2024-2025)
特征:
- 模型具备多轮检索和简单推理能力
- 主要面向问答和简要调研任务
- 人类定义研究问题,Agent 执行信息收集
代表系统:OpenAI Deep Research、Google Deep Research、Perplexity
关键瓶颈:
- 无法自主提出研究问题
- 研究深度受限于单次会话的上下文长度
- 对需要实验验证或代码执行的领域无能为力
阶段二:Autonomous Research(正在发生,2025-2026)
特征:
- Agent 能自主提出假设、设计研究计划、执行多步调查
- 支持跨模态信息融合(文本 + 表格 + 图像 + 代码)
- 具备基本的自我批评和修正能力
代表系统:R1-Searcher、DeepResearcher、EvoScientist
关键突破:
- 强化学习训练让模型获得真正的"研究策略",而非模仿人类轨迹
- 记忆系统的进步让长程研究成为可能
- 工具使用能力扩展到代码执行、数据分析、可视化
阶段三:Full-Stack AI Scientist(远期愿景,2026+)
特征:
- AI 科学家能自主提出研究问题、设计实验、执行分析、撰写论文
- 具备领域专业知识,能理解学科内部的隐性知识和方法论
- 能与其他 AI 或人类研究者协作
当前距离:
- 实验设计和执行:已有初步能力(如 Sakana AI 的 AI Scientist)
- 原创性假设提出:仍需要人类引导
- 跨领域洞察:模型擅长组合已知知识,但真正的 paradigm shift 仍需人类
十、商业系统横评:OpenAI o3 / Gemini / DeepSeek-R1 / Manus
10.1 系统概述
| 系统 | 提供商 | 底层模型 | 信息源 | 训练方式 |
|---|---|---|---|---|
| OpenAI Deep Research | OpenAI | o3 / o4-mini | 互联网 + 实时搜索 | 强化学习 + 人类反馈 |
| Google Deep Research | Gemini 2.5 Pro | Google Search + 学术数据库 | SFT + RL | |
| DeepSeek-R1-Searcher | 深言科技/社区 | DeepSeek-R1-7B/32B | 模拟检索环境 | 纯 GRPO RL |
| Manus | Monica.im | Claude/GPT 混合 | 浏览器 + API | 工作流编排 |
10.2 关键差异
OpenAI Deep Research:
- 产品化程度最高,用户体验最成熟
- 输出格式规范(带引用、结构化报告)
- 信息源覆盖广,但过程不透明(黑盒)
- 成本较高,需要 Pro 订阅
Google Deep Research:
- 与 Google 搜索生态深度整合
- 在学术文献检索上有优势
- 支持多语言搜索
- 目前免费(实验阶段)
DeepSeek-R1-Searcher:
- 开源,可本地部署
- 7B 模型就能击败 GPT-4o-mini,证明了 RL 训练的效率
- 纯 RL 训练,无需人工标注数据
- 学术探索性质强,产品化程度低
Manus:
- 通用 Agent 平台,Deep Research 只是其中一个工作流
- 强调浏览器操作和文件处理能力
- 能生成可交付物(PPT、代码、报告)
- 邀请制,普及度有限
10.3 评估维度
| 维度 | OpenAI | DeepSeek-R1 | Manus | |
|---|---|---|---|---|
| 信息覆盖率 | ★★★★★ | ★★★★☆ | ★★★☆☆ | ★★★★☆ |
| 答案准确性 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| 可追溯性 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★☆☆ |
| 研究深度 | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ |
| 成本效率 | ★★☆☆☆ | ★★★★★ | ★★★★★ | ★★☆☆☆ |
| 可定制性 | ★★☆☆☆ | ★★☆☆☆ | ★★★★★ | ★★★★☆ |
结论与判断
核心判断
-
Deep Research 不是 RAG 的升级版,是不同物种。RAG 假设"外部信息是答案的原料",Deep Research 假设"外部信息是推理过程的燃料"。
-
强化学习是训练范式的主流选择,但奖励设计仍是最大的开放问题。GRPO 解决了训练效率问题,但"什么是好的研究过程"还没有统一答案。
-
记忆管理是下一个技术瓶颈。当前系统能处理数十步的研究流程,但面对需要数小时、跨会话的复杂研究时,记忆系统的组织、检索、更新能力严重不足。
-
开源生态正在快速追赶。R1-Searcher 证明了 7B 模型通过纯 RL 就能达到可用水平,这意味着 Deep Research 能力即将民主化。
给工程师的建议
如果你正在构建企业级知识系统:
- 短期:在现有 RAG 基础上增加多轮检索和简单验证(Self-RAG / ReAct)
- 中期:引入查询规划器(Tree-of-Thought / Plan-and-Solve)和层次化记忆
- 长期:考虑用 GRPO 在特定领域数据上训练专用研究模型
关键论文索引
- ReAct: Yao et al., "ReAct: Synergizing Reasoning and Acting in Language Models", ICLR 2023
- R1-Searcher: arxiv:2503.05592, "Incentivizing the Search Capability in LLMs via Reinforcement Learning", 2025-03
- DeepResearcher: arxiv:2505.22648, "Towards Autonomous Information Seeking Agency", 2025-05
- Process vs Outcome RL: arxiv:2505.14069v1, "Which is Better for Agentic RAG Reinforcement Learning", 2025-05
- Deep Research Survey: arxiv:2508.12752v1, "Deep Research: A Survey of Autonomous Research Agents", 2025-08
- GRPO: DeepSeek-R1 技术报告, 2025-01
- ToolRL: arxiv 2026-05-11, "奖励设计决定工具学习的生死"
- Mu-GRPO: arxiv 2026-05-19, "GRPO 可以有多 Off-Policy"
- StepPO: zhichai.net/t/177618613, "AI Agent 的强化学习,不该按字算,该按步算"
- WebDancer: arxiv:2505.22648, "DeepResearcher: Scaling Deep Research via RL in Real-World Environments"
官方网站: TGLTommy.com(访问需科学上网) B站/公众号/YouTube: 唐国梁Tommy
#深度研究 #DeepResearch #AgenticRAG #强化学习 #GRPO #R1Searcher #人工智能 #论文综述 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。