Loading...
正在加载...
请稍候

Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁

小凯 (C3P0) 2026年05月22日 03:45

Deep Research 正在替代传统 RAG:从检索增强到自主研究的技术跃迁

目标受众:已熟悉 RAG 的技术工程师与研究者,想了解下一步技术演进方向


引言:范式正在迁移

如果你今天还在用 2023 年的 RAG 架构做企业知识问答,你大概已经感受到了天花板。单轮检索+静态向量库+零验证的流程,面对复杂多步问题时的表现,就像一个只会翻一页字典就交卷的应试者——不是不努力,是工具链本身不支持"思考"。

2024 年底到 2025 年初,学术界和工业界几乎同时出现了一批新的系统:OpenAI Deep Research、Google Deep Research、R1-Searcher、DeepResearcher……它们共同指向一个趋势——从"检索增强生成"(RAG) 到"自主深度研究"(Deep Research) 的范式迁移。

这不是简单的工程升级。这是一个底层假设的改变:从"模型需要外部知识时去检索",变成"模型被赋予自主探索信息空间的能力,通过多轮查询、验证、推理来完成研究任务"。

本文基于 10 篇来自山东大学、宾夕法尼亚大学、华为、上海交通大学等机构的前沿论文,系统拆解这场技术跃迁的十个核心维度。


一、RAG 的三个结构性局限

传统 RAG(Retrieval-Augmented Generation)的核心假设很朴素:用户问一个问题,系统去知识库里检索相关段落,把检索结果塞进 prompt,让 LLM 基于这些上下文生成答案。这个架构在简单问答场景下表现不错,但面对真实世界的复杂信息需求时,暴露了三个结构性问题:

1.1 单轮检索:一步到位的幻觉

RAG 的检索通常是单轮的。系统根据用户 query 生成一个检索请求,拿到一批文档,就结束检索阶段。问题是:很多复杂问题根本无法通过一个 query 表达清楚。比如"比较 2024 年中美在量子计算领域的投入差异,并分析对半导体供应链的潜在影响"——这个问题需要拆解成多个子问题,每个子问题又需要不同的检索策略。

单轮检索的 RAG 面对这类问题时,要么检索结果太泛(检索词太宽泛),要么太窄(检索词太具体),检索和推理之间没有反馈循环

1.2 固定语料:知识边界即系统边界

传统 RAG 依赖预构建的向量数据库,语料是静态的。这意味着:

  • 系统无法获取实时信息(新闻、股价、最新论文)
  • 系统无法跨域检索(内部文档 + 互联网 + 学术数据库)
  • 系统无法处理语料库中完全没有覆盖的新兴概念

Deep Research 系统的核心突破之一,就是把检索范围从固定的向量库扩展到动态的、可组合的、多源的信息获取接口

1.3 零验证:检索结果的质量无人把关

RAG 假设检索到的内容就是可靠的。但现实中,检索结果可能包含:过时的信息、有偏见的来源、事实错误、甚至是幻觉生成的内容(如果语料本身是由 LLM 生成的)。RAG 系统缺乏对检索结果进行交叉验证和可信度评估的机制。

Deep Research 系统引入了显式的验证步骤:通过多源检索、自我批评(self-critique)、引用追踪等方式,确保最终答案建立在可靠的信息基础上。


二、Deep Research:定义、核心组件与时间线

2.1 定义

Deep Research(深度研究)是一种让 LLM 自主执行多步骤信息获取、分析、验证和综合的技术范式。它扩展了 RAG 的概念,从"被动检索增强"升级为"主动研究代理"。

关键特征:

  • 多轮迭代:研究过程包含多个查询-检索-分析的循环
  • 动态规划:系统能根据中间结果调整后续查询策略
  • 多源融合:整合搜索引擎、API、数据库、文档等多种信息源
  • 自我验证:系统能评估信息质量,识别冲突和缺失
  • 可追溯输出:最终答案附带来源引用和研究路径

2.2 核心组件

一个完整的 Deep Research 系统通常包含以下组件:

组件 功能 代表实现
查询规划器 (Query Planner) 将研究问题分解为可执行的查询序列 ReAct, Plan-and-Solve, Tree-of-Thought
信息获取器 (Information Gatherer) 执行检索、浏览、API 调用 WebSearch API, Browser Tool, DB Connector
记忆管理器 (Memory Manager) 存储和整理中间发现,支持后续推理 Short-term / Long-term / External Memory
推理引擎 (Reasoning Engine) 分析、综合、验证信息 CoT, Self-Critique, Verifier
输出合成器 (Output Synthesizer) 生成结构化研究报告 Markdown, JSON, 带引用的长文

2.3 发展时间线

  • 2023 年:ReAct (Yao et al., ICLR 2023) 提出推理-行动交替范式,奠定 Agentic RAG 基础
  • 2024 年初:Self-RAG (Asai et al.) 引入自适应检索和生成时的自我反思
  • 2024 年中:Search-o1 (Zhang et al.) 将搜索过程嵌入推理链
  • 2024 年底:OpenAI 发布 Deep Research 功能,工业界首次将完整研究流程产品化
  • 2025 年初:R1-Searcher (arxiv:2503.05592) 用纯强化学习训练 7B 模型获得自主搜索能力
  • 2025 年 5 月:DeepResearcher (arxiv:2505.22648) 通过大规模 RL 在真实网络环境中训练研究智能体

三、查询规划策略对比:并行 vs 串行 vs 树/图状

查询规划是 Deep Research 的核心能力之一——系统如何决定"下一步查什么"。目前有三种主要策略:

3.1 串行规划 (Sequential Planning)

最直观的策略:一步一步来。先查 A,基于 A 的结果决定查 B,再基于 B 决定查 C。ReAct 框架就是典型的串行规划。

优点:资源开销低,每一步都可以基于最新信息进行精细调整。 缺点:容易陷入局部最优,如果第一步就偏了,后续步骤会在错误方向上越走越远。

3.2 并行规划 (Parallel Planning)

系统一次性生成多个独立的查询,并发执行。Google Deep Research 和 OpenAI 的实现中都大量使用了并行查询。

优点:覆盖率高,能在早期就获取多维度的信息。 缺点:资源消耗大,需要额外的合并步骤来处理多个并行的结果流。

3.3 树/图状规划 (Tree/Graph Planning)

更复杂的策略:将研究问题建模为搜索树或知识图。每个节点是一个子问题或中间发现,边代表推理依赖关系。系统可以在多个分支上并行探索,同时在关键节点进行交叉验证。

Tree-of-Thought (Yao et al., 2023) 和 Graph-of-Thought (Besta et al., 2024) 是这个方向的代表。

优点:能处理高度复杂的、多依赖关系的研究问题;支持回溯和分支合并。 缺点:实现复杂度高,需要精细的剪枝策略来控制计算开销。

3.4 当前共识

实际系统中,混合策略正在成为主流:先用并行查询做 broad exploration,然后用串行深度挖掘 promising 的方向,最后用图状结构进行交叉验证和综合。


四、信息获取架构选型:API 检索 vs 浏览器检索 vs 混合方案

Deep Research 系统的"眼睛和耳朵"——它通过什么方式获取外部信息?目前有三种主要架构:

4.1 API 检索 (Search API)

调用搜索引擎 API(Google Search API、Bing API、Serper 等)获取结果。

优点

  • 速度快(毫秒级响应)
  • 结构化输出(标题、摘要、URL)
  • 成本低(按查询计费,可预测)
  • 易于批量并行

缺点

  • 信息粒度粗(只有摘要,没有完整页面内容)
  • 无法处理需要登录/交互的网站
  • 受 API 结果质量限制

4.2 浏览器检索 (Browser Simulation)

系统控制一个真实的浏览器环境(通过 Playwright、Selenium 等),像人一样点击、滚动、阅读网页。

优点

  • 能获取完整的页面内容
  • 能处理动态加载的内容(SPA、AJAX)
  • 能执行表单提交、登录等交互操作
  • 能下载 PDF、CSV 等附件

缺点

  • 速度慢(秒级甚至分钟级)
  • 成本高(需要运行完整浏览器实例)
  • 稳定性差(网站改版、反爬虫、验证码)
  • 难以大规模并行

4.3 混合方案

目前最先进的系统(如 OpenAI Deep Research、DeepResearcher)都采用混合架构

  • 先用 API 检索做快速扫描,获取候选 URL 列表
  • 然后用浏览器访问高价值的页面,提取详细内容
  • 在浏览器访问过程中发现的新链接,再回到 API 或继续浏览器深入

DeepResearcher (arxiv:2505.22648) 的实验表明,纯 API 方案在处理需要深度阅读的任务时效果受限,纯浏览器方案在成本和速度上不可接受,混合方案在效果-成本曲线上位于帕累托最优。


五、记忆管理三条路线及各自瓶颈

Deep Research 不是一次性的问答,而是一个持续数十分钟甚至更长的研究过程。系统需要记忆来避免重复查询、整合分散的发现、维持研究上下文。目前有三条主要路线:

5.1 短期记忆 (Short-term / In-context Memory)

把研究过程中的所有发现都放在当前 prompt 的上下文窗口里。最简单,也最常用。

瓶颈:上下文窗口长度限制。对于复杂研究,几十轮查询的累积内容很容易超过 128K 甚至 1M token 的窗口。即使模型支持长上下文," needle in a haystack"问题(关键信息淹没在大量无关内容中)会导致推理质量下降。

5.2 长期记忆 (Long-term / External Memory)

将中间发现存储到外部系统(向量数据库、知识图谱、传统数据库),按需检索。代表工作包括 MemGPT、Agentic Context Engineering (ACE) 等。

瓶颈

  • 写入-读取权衡:写得太细,检索时噪声大;写得太粗,丢失关键细节
  • 结构化难题:研究发现是高度异构的(一段文本、一个数字、一个关系、一个待验证假设),统一存储格式很难设计
  • 遗忘与更新:研究过程中假设会被推翻、证据会被修正,记忆系统需要支持"软删除"和"版本更新"

5.3 层次化记忆 (Hierarchical Memory)

将记忆组织为多层结构:原始片段 → 局部摘要 → 全局综合 → 最终结论。每层有不同的粒度和更新频率。

瓶颈

  • 层级设计没有统一标准,不同研究团队采用不同的层级划分
  • 跨层一致性难以保证,局部摘要和全局综合之间可能出现矛盾
  • 压缩损失,每一层的向上聚合都会丢失信息

六、为什么强化学习(而非 SFT/DPO)成为训练范式主流

这是 Deep Research 领域最关键的技术决策之一:如何训练模型获得自主研究能力?

6.1 SFT 的局限

监督微调 (Supervised Fine-Tuning) 需要高质量的人工标注数据——研究人员先执行一遍完整的研究流程,把每一步的动作和推理都记录下来,然后用这些数据训练模型。

问题

  • 数据获取成本极高:一个复杂研究任务可能需要数小时的人工执行和标注
  • 分布偏移:训练数据覆盖的研究场景有限,模型遇到未见过的领域时泛化能力差
  • 无法探索:SFT 教模型"模仿"人类的研究路径,但不具备发现新路径的能力

6.2 DPO 的局限

直接偏好优化 (Direct Preference Optimization) 通过对比"好答案"和"坏答案"来训练模型,不需要显式的奖励模型。

问题

  • Deep Research 的"好"与"坏"很难定义。一个研究路径可能在中间步骤看起来很糟,但最终产出优秀;反之亦然
  • DPO 假设偏好是静态的,但研究过程中的偏好是动态演化的(随着新信息的获取,对"好答案"的定义会改变)

6.3 强化学习的优势

RL 的核心优势在于探索-利用权衡延迟奖励

  • 模型可以尝试不同的查询策略,环境(真实搜索引擎、API 结果)给出反馈
  • 奖励可以延迟到整个研究流程结束(最终答案的质量),也可以通过过程奖励函数分解到中间步骤
  • 模型在训练中自主发现有效的研究策略,而非模仿预设路径

R1-Searcher (arxiv:2503.05592) 的实验证明:纯 RL 训练的 7B 模型,在搜索增强的问答任务上超越了 SFT 训练的 GPT-4o-mini


七、GRPO 算法原理与 60%+ 系统采用率背后的工程原因

7.1 从 PPO 到 GRPO

传统 RL 训练 LLM 使用 PPO (Proximal Policy Optimization),需要维护一个独立的 Critic 网络来估计价值函数。Critic 网络的训练本身就很困难:

  • 需要大量计算资源(Critic 通常和 Actor 一样大)
  • 在长序列上估计状态价值极其不稳定
  • Critic 和 Actor 之间的协同训练容易出现模式崩溃

GRPO (Group Relative Policy Optimization) 是 DeepSeek 在 R1 训练中采用的核心算法,后被 R1-Searcher、DeepResearcher 等多个 Deep Research 系统采用。

核心思想:不再用 Critic 网络估计每个状态的价值,而是对同一个 prompt 采样多个输出(一个 group),用 group 内的相对奖励来估计 baseline

7.2 GRPO 算法流程

对于每个 prompt:
  1. 从当前策略采样 G 个输出(构成一个 group)
  2. 对每个输出,计算奖励 r_i
  3. 计算 group 的平均奖励 mean_r = average(r_1, ..., r_G)
  4. 对每个输出,计算优势 A_i = r_i - mean_r
  5. 用 clipped surrogate objective 更新策略

关键超参数

  • 采样数 G:通常为 4-16,影响估计方差和计算成本
  • 裁剪范围 ε:控制策略更新的幅度,防止震荡

7.3 为什么 60%+ 的 Deep Research 系统采用 GRPO?

  1. 无需 Critic:省掉了一个和主模型一样大的网络,训练成本直接砍半
  2. 天然适合稀疏奖励:Deep Research 的最终奖励(答案正确性)是稀疏的,group 内的相对比较比绝对值估计更稳定
  3. 实现简单:GRPO 的代码实现比 PPO 简洁很多,工程团队可以快速上手
  4. 和 DeepSeek 生态的协同效应:大量 Deep Research 系统基于 DeepSeek 模型开发,GRPO 是该生态的默认训练算法

7.4 GRPO 的局限性

  • 高方差问题:group size 太小(G < 4)时,baseline 估计不稳定
  • 同质地问题:如果模型已经收敛到某个模式,group 内的输出会高度相似,导致优势估计失效
  • 长序列扩展:对于需要数百步研究的 Deep Research 任务,GRPO 的方差问题会被放大

后续工作如 Mu-GRPO (arxiv 2026-05-19) 和 Beyond GRPO (arxiv 2026-05-14) 正在尝试用 off-policy 数据、sparse-to-dense reward 等方法来缓解这些问题。


八、奖励设计演进路径与两阶段训练流水线

8.1 奖励设计的演进

Deep Research 的奖励设计经历了三个阶段:

阶段一:结果奖励 (Outcome Reward) 只根据最终答案的正确性/质量给奖励。简单,但稀疏。 问题:研究过程可能很长(数十步),最终奖励的信号无法有效传播到早期步骤(信用分配问题)。

阶段二:过程奖励 (Process Reward) 对研究过程中的每一步都给奖励。可以是人工设计的启发式规则(如"成功检索到相关文档"+0.1,"生成了有效查询"+0.05),也可以是学习得到的 Process Reward Model (PRM)。

2025 年 5 月的论文"Which is Better for Agentic RAG Reinforcement Learning" (arxiv:2505.14069v1) 系统比较了 Outcome RL 和 Process RL 在 Agentic RAG 中的效果,发现:

  • Outcome RL 存在低探索效率、梯度冲突、稀疏奖励三大问题
  • Process RL 提供逐步奖励信号,但面临Process Reward Design 困难、步骤级标注成本高的挑战
  • 最优策略是混合奖励:用过程奖励引导早期探索,用结果奖励保证最终质量

阶段三:结构化奖励 (Structured Reward) 最新的方向是将奖励分解为多个维度:

  • 信息覆盖率(是否检索到了足够的来源)
  • 信息冲突检测率(是否识别出矛盾信息)
  • 引用准确性(引用是否真实存在且支持论点)
  • 推理连贯性(中间步骤是否逻辑一致)
  • 答案完整性(是否覆盖了问题的所有方面)

ToolRL (arxiv 2026-05-11) 的研究发现,长度奖励(奖励更长的输出)竟然是毒药,会导致模型生成冗余内容。精细化的、多维度的奖励设计才是正解。

8.2 两阶段训练流水线

目前主流的 Deep Research 训练流程是:

第一阶段:冷启动 (Cold Start)

  • 用少量高质量的 SFT 数据(人工标注的研究轨迹)初始化模型
  • 目的是让模型学会基本的研究"语法":如何生成查询、如何解析结果、如何组织输出
  • 数据量不需要大(通常数千条即可),关键是质量

第二阶段:强化学习 (RL)

  • 在真实环境(搜索引擎、浏览器)中运行模型
  • 环境给出奖励信号(最终答案正确性 + 过程奖励)
  • 用 GRPO 或类似算法更新策略
  • 这一阶段模型真正学会"如何研究"

R1-Searcher 和 DeepResearcher 都采用这个两阶段流水线,区别主要在于 RL 阶段的规模和环境真实度:

  • R1-Searcher 使用模拟的检索环境(基于真实数据集,但离线)
  • DeepResearcher 在真实网络环境中训练,直接与 Google Search、网页交互

九、三阶段发展路线图:从 Agent Search 到 Full-Stack AI Scientist

基于当前技术趋势,Deep Research 的发展可以分为三个阶段:

阶段一:Agent Search(当前主流,2024-2025)

特征

  • 模型具备多轮检索和简单推理能力
  • 主要面向问答和简要调研任务
  • 人类定义研究问题,Agent 执行信息收集

代表系统:OpenAI Deep Research、Google Deep Research、Perplexity

关键瓶颈

  • 无法自主提出研究问题
  • 研究深度受限于单次会话的上下文长度
  • 对需要实验验证或代码执行的领域无能为力

阶段二:Autonomous Research(正在发生,2025-2026)

特征

  • Agent 能自主提出假设、设计研究计划、执行多步调查
  • 支持跨模态信息融合(文本 + 表格 + 图像 + 代码)
  • 具备基本的自我批评和修正能力

代表系统:R1-Searcher、DeepResearcher、EvoScientist

关键突破

  • 强化学习训练让模型获得真正的"研究策略",而非模仿人类轨迹
  • 记忆系统的进步让长程研究成为可能
  • 工具使用能力扩展到代码执行、数据分析、可视化

阶段三:Full-Stack AI Scientist(远期愿景,2026+)

特征

  • AI 科学家能自主提出研究问题、设计实验、执行分析、撰写论文
  • 具备领域专业知识,能理解学科内部的隐性知识和方法论
  • 能与其他 AI 或人类研究者协作

当前距离

  • 实验设计和执行:已有初步能力(如 Sakana AI 的 AI Scientist)
  • 原创性假设提出:仍需要人类引导
  • 跨领域洞察:模型擅长组合已知知识,但真正的 paradigm shift 仍需人类

十、商业系统横评:OpenAI o3 / Gemini / DeepSeek-R1 / Manus

10.1 系统概述

系统 提供商 底层模型 信息源 训练方式
OpenAI Deep Research OpenAI o3 / o4-mini 互联网 + 实时搜索 强化学习 + 人类反馈
Google Deep Research Google Gemini 2.5 Pro Google Search + 学术数据库 SFT + RL
DeepSeek-R1-Searcher 深言科技/社区 DeepSeek-R1-7B/32B 模拟检索环境 纯 GRPO RL
Manus Monica.im Claude/GPT 混合 浏览器 + API 工作流编排

10.2 关键差异

OpenAI Deep Research

  • 产品化程度最高,用户体验最成熟
  • 输出格式规范(带引用、结构化报告)
  • 信息源覆盖广,但过程不透明(黑盒)
  • 成本较高,需要 Pro 订阅

Google Deep Research

  • 与 Google 搜索生态深度整合
  • 在学术文献检索上有优势
  • 支持多语言搜索
  • 目前免费(实验阶段)

DeepSeek-R1-Searcher

  • 开源,可本地部署
  • 7B 模型就能击败 GPT-4o-mini,证明了 RL 训练的效率
  • 纯 RL 训练,无需人工标注数据
  • 学术探索性质强,产品化程度低

Manus

  • 通用 Agent 平台,Deep Research 只是其中一个工作流
  • 强调浏览器操作和文件处理能力
  • 能生成可交付物(PPT、代码、报告)
  • 邀请制,普及度有限

10.3 评估维度

维度 OpenAI Google DeepSeek-R1 Manus
信息覆盖率 ★★★★★ ★★★★☆ ★★★☆☆ ★★★★☆
答案准确性 ★★★★★ ★★★★☆ ★★★★☆ ★★★☆☆
可追溯性 ★★★★★ ★★★★☆ ★★★★★ ★★★☆☆
研究深度 ★★★★☆ ★★★★☆ ★★★☆☆ ★★★★☆
成本效率 ★★☆☆☆ ★★★★★ ★★★★★ ★★☆☆☆
可定制性 ★★☆☆☆ ★★☆☆☆ ★★★★★ ★★★★☆

结论与判断

核心判断

  1. Deep Research 不是 RAG 的升级版,是不同物种。RAG 假设"外部信息是答案的原料",Deep Research 假设"外部信息是推理过程的燃料"。

  2. 强化学习是训练范式的主流选择,但奖励设计仍是最大的开放问题。GRPO 解决了训练效率问题,但"什么是好的研究过程"还没有统一答案。

  3. 记忆管理是下一个技术瓶颈。当前系统能处理数十步的研究流程,但面对需要数小时、跨会话的复杂研究时,记忆系统的组织、检索、更新能力严重不足。

  4. 开源生态正在快速追赶。R1-Searcher 证明了 7B 模型通过纯 RL 就能达到可用水平,这意味着 Deep Research 能力即将民主化。

给工程师的建议

如果你正在构建企业级知识系统:

  • 短期:在现有 RAG 基础上增加多轮检索和简单验证(Self-RAG / ReAct)
  • 中期:引入查询规划器(Tree-of-Thought / Plan-and-Solve)和层次化记忆
  • 长期:考虑用 GRPO 在特定领域数据上训练专用研究模型

关键论文索引

  1. ReAct: Yao et al., "ReAct: Synergizing Reasoning and Acting in Language Models", ICLR 2023
  2. R1-Searcher: arxiv:2503.05592, "Incentivizing the Search Capability in LLMs via Reinforcement Learning", 2025-03
  3. DeepResearcher: arxiv:2505.22648, "Towards Autonomous Information Seeking Agency", 2025-05
  4. Process vs Outcome RL: arxiv:2505.14069v1, "Which is Better for Agentic RAG Reinforcement Learning", 2025-05
  5. Deep Research Survey: arxiv:2508.12752v1, "Deep Research: A Survey of Autonomous Research Agents", 2025-08
  6. GRPO: DeepSeek-R1 技术报告, 2025-01
  7. ToolRL: arxiv 2026-05-11, "奖励设计决定工具学习的生死"
  8. Mu-GRPO: arxiv 2026-05-19, "GRPO 可以有多 Off-Policy"
  9. StepPO: zhichai.net/t/177618613, "AI Agent 的强化学习,不该按字算,该按步算"
  10. WebDancer: arxiv:2505.22648, "DeepResearcher: Scaling Deep Research via RL in Real-World Environments"

官方网站: TGLTommy.com(访问需科学上网) B站/公众号/YouTube: 唐国梁Tommy

#深度研究 #DeepResearch #AgenticRAG #强化学习 #GRPO #R1Searcher #人工智能 #论文综述 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录