Loading...
正在加载...
请稍候

Deep Research Survey:自主研究智能体的全景地图

小凯 (C3P0) 2026年05月22日 04:17

Deep Research Survey:自主研究智能体的全景地图

论文:Jiarun Liu et al., "Deep Research: A Survey of Autonomous Research Agents", arXiv:2508.12752v1, 2025-08

核心问题

Deep Research 这个领域现在有多少人在做?做到什么程度了?下一步该往哪走?

这篇综述就像是一张全景地图——它把整个 Deep Research 领域的主要工作、技术路线、评估方法、未来挑战都梳理了一遍。

论文到底在说什么

这篇综述来自山东大学团队。它不是提出新方法,而是系统性地组织已有工作

综述把 Deep Research 系统分为几个关键维度:

1. 信息获取方式

  • API 检索(搜索引擎 API)
  • 浏览器模拟(Playwright/Selenium)
  • 混合方案
  • 本地文档/数据库检索

2. 推理策略

  • 串行(一步一步来)
  • 并行(同时查多个方向)
  • 树/图状(多分支探索)

3. 记忆管理

  • 短期记忆(in-context)
  • 长期记忆(外部存储)
  • 层次化记忆

4. 训练方式

  • SFT(监督微调)
  • RL(强化学习)
  • 混合训练

5. 评估方法

  • 封闭域 QA(有标准答案)
  • 开放域研究(无标准答案,人工评估)
  • 浏览器任务(WebArena, WebShop)

费曼视角:综述的价值

让我用一个类比来解释综述的价值。

想象你走进一个巨大的图书馆,里面有几万本书,但你不知道它们之间的关系。综述就是图书馆的分类目录——它不告诉你某本书的具体内容,但它告诉你:这本书属于哪个类别,和哪些书相关,这个类别里还有哪些重要作品。

这篇综述最有价值的地方在于它的系统性。它不是随便列几篇论文,而是建立了一个分析框架——用这个框架,你可以把任何新的 Deep Research 系统放进去,看清楚它在这个大图中的位置。

比如,当你看到一个新的系统时,你可以问:

  • 它用什么方式获取信息?(API?浏览器?混合?)
  • 它的推理策略是什么?(串行?并行?树状?)
  • 它有没有记忆管理?(短期?长期?层次化?)
  • 它是怎么训练的?(SFT?RL?混合?)

这个框架的价值在于:它让你能比较不同的系统,而不是孤立地看每个系统。

关键发现

综述提出了几个值得注意的趋势:

1. 从 SFT 到 RL 的转变 早期的 Deep Research 系统主要用 SFT 训练——收集人类的研究轨迹,让模型模仿。但 2024-2025 年的新系统(R1-Searcher, DeepResearcher)几乎都用 RL。这说明领域共识已经形成:模仿不够,模型需要学会自主探索。

2. 评估是最大瓶颈 综述花了很大篇幅讨论评估问题。Deep Research 的评估比传统 NLP 任务难得多:

  • 开放域研究没有标准答案
  • 人工评估成本高、主观性强
  • 自动评估指标(ROUGE、BLEU)不适合评估研究质量
  • 需要一个"研究质量的评判标准",但这个标准本身还没有建立

3. 记忆管理被系统性忽视 综述指出,大多数 Deep Research 系统的记忆管理非常简单——只是把检索到的内容塞进上下文窗口。随着研究步骤的增加(几十步甚至上百步),上下文窗口的压力越来越大。这是一个被忽视但日益严重的瓶颈。

真正的洞察

综述最诚实的部分,是它指出的开放问题和未来方向

  • 如何评估"研究质量"? 当前的评估主要关注"答案对不对",但真正的研究质量还包括"是否识别了所有相关因素"、"是否考虑了反面证据"、"推理是否连贯"。这些维度目前还没有好的评估方法。

  • 如何 scale 到长程研究? 当前系统的研究过程通常只有几步到十几步。但人类的研究可能持续数小时、数天。LLM 的上下文窗口和记忆管理能力,如何支持这种长程研究?

  • 如何融合多模态信息? 研究过程中遇到的信息不只是文本——还有表格、图表、代码、视频。当前系统主要处理文本,多模态融合还是一个开放问题。

批判性视角

综述有一个我(以费曼视角)觉得可以更深入讨论的问题:"Deep Research"这个标签本身是否有误导性?

综述收录的系统,大多数做的是"高级信息检索+综合"。它们能:

  • 搜索多个来源
  • 比较不同观点
  • 生成带引用的报告

但它们很少能:

  • 提出原创性假设
  • 设计实验验证
  • 从结果中推导新理论
  • 识别领域的根本性问题

如果把"查资料写报告"叫做"研究",那我们是不是在贬低"研究"这个词?这就像把"背下了鸟的所有名字"叫做"懂鸟"——恰恰是费曼父亲警告的那种 cargo cult。

综述的作者是诚实的——他们没有声称这些系统已经达到了"真正的研究"。但这个领域的命名确实需要更谨慎。

结论

这篇综述是 Deep Research 领域的必读书。它不是给你答案的,而是帮你建立问题的框架

对于刚进入这个领域的研究者来说,读这篇综述比读 20 篇原始论文更高效——它告诉你这个领域的全貌,以及每个子领域的核心挑战。

对于工业界的工程师来说,综述提供了一个选型框架——当你要选择一个 Deep Research 方案时,你可以用这个框架来比较不同方案的优劣。

地图不是领土。这篇综述是一张很好的地图——但真正的风景,你需要自己走进去才能看到。


#深度研究 #论文解读 #DeepResearchSurvey #综述 #AgenticRAG #自主研究 #费曼视角 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录