Deep Research Survey：自主研究智能体的全景地图

> 论文：Jiarun Liu et al., "Deep Research: A Survey of Autonomous Research Agents", arXiv:2508.12752v1, 2025-08

核心问题

Deep Research 这个领域现在有多少人在做？做到什么程度了？下一步该往哪走？

这篇综述就像是一张全景地图——它把整个 Deep Research 领域的主要工作、技术路线、评估方法、未来挑战都梳理了一遍。

论文到底在说什么

这篇综述来自山东大学团队。它不是提出新方法，而是系统性地组织已有工作。

综述把 Deep Research 系统分为几个关键维度：

1. 信息获取方式

API 检索（搜索引擎 API）
浏览器模拟（Playwright/Selenium）
混合方案
本地文档/数据库检索

2. 推理策略

串行（一步一步来）
并行（同时查多个方向）
树/图状（多分支探索）

3. 记忆管理

短期记忆（in-context）
长期记忆（外部存储）
层次化记忆

4. 训练方式

SFT（监督微调）
RL（强化学习）
混合训练

5. 评估方法

封闭域 QA（有标准答案）
开放域研究（无标准答案，人工评估）
浏览器任务（WebArena, WebShop）

费曼视角：综述的价值

让我用一个类比来解释综述的价值。

想象你走进一个巨大的图书馆，里面有几万本书，但你不知道它们之间的关系。综述就是图书馆的分类目录——它不告诉你某本书的具体内容，但它告诉你：这本书属于哪个类别，和哪些书相关，这个类别里还有哪些重要作品。

这篇综述最有价值的地方在于它的系统性。它不是随便列几篇论文，而是建立了一个分析框架——用这个框架，你可以把任何新的 Deep Research 系统放进去，看清楚它在这个大图中的位置。

比如，当你看到一个新的系统时，你可以问：

它用什么方式获取信息？（API？浏览器？混合？）
它的推理策略是什么？（串行？并行？树状？）
它有没有记忆管理？（短期？长期？层次化？）
它是怎么训练的？（SFT？RL？混合？）

这个框架的价值在于：它让你能比较不同的系统，而不是孤立地看每个系统。

关键发现

综述提出了几个值得注意的趋势：

1. 从 SFT 到 RL 的转变 早期的 Deep Research 系统主要用 SFT 训练——收集人类的研究轨迹，让模型模仿。但 2024-2025 年的新系统（R1-Searcher, DeepResearcher）几乎都用 RL。这说明领域共识已经形成：模仿不够，模型需要学会自主探索。

2. 评估是最大瓶颈 综述花了很大篇幅讨论评估问题。Deep Research 的评估比传统 NLP 任务难得多：

开放域研究没有标准答案
人工评估成本高、主观性强
自动评估指标（ROUGE、BLEU）不适合评估研究质量
需要一个"研究质量的评判标准"，但这个标准本身还没有建立

3. 记忆管理被系统性忽视 综述指出，大多数 Deep Research 系统的记忆管理非常简单——只是把检索到的内容塞进上下文窗口。随着研究步骤的增加（几十步甚至上百步），上下文窗口的压力越来越大。这是一个被忽视但日益严重的瓶颈。

真正的洞察

综述最诚实的部分，是它指出的开放问题和未来方向：

如何评估"研究质量"？ 当前的评估主要关注"答案对不对"，但真正的研究质量还包括"是否识别了所有相关因素"、"是否考虑了反面证据"、"推理是否连贯"。这些维度目前还没有好的评估方法。
如何 scale 到长程研究？ 当前系统的研究过程通常只有几步到十几步。但人类的研究可能持续数小时、数天。LLM 的上下文窗口和记忆管理能力，如何支持这种长程研究？
如何融合多模态信息？ 研究过程中遇到的信息不只是文本——还有表格、图表、代码、视频。当前系统主要处理文本，多模态融合还是一个开放问题。

批判性视角

综述有一个我（以费曼视角）觉得可以更深入讨论的问题："Deep Research"这个标签本身是否有误导性？

综述收录的系统，大多数做的是"高级信息检索+综合"。它们能：

搜索多个来源
比较不同观点
生成带引用的报告

但它们很少能：

提出原创性假设
设计实验验证
从结果中推导新理论
识别领域的根本性问题

如果把"查资料写报告"叫做"研究"，那我们是不是在贬低"研究"这个词？这就像把"背下了鸟的所有名字"叫做"懂鸟"——恰恰是费曼父亲警告的那种 cargo cult。

综述的作者是诚实的——他们没有声称这些系统已经达到了"真正的研究"。但这个领域的命名确实需要更谨慎。

结论

这篇综述是 Deep Research 领域的必读书。它不是给你答案的，而是帮你建立问题的框架。

对于刚进入这个领域的研究者来说，读这篇综述比读 20 篇原始论文更高效——它告诉你这个领域的全貌，以及每个子领域的核心挑战。

对于工业界的工程师来说，综述提供了一个选型框架——当你要选择一个 Deep Research 方案时，你可以用这个框架来比较不同方案的优劣。

> 地图不是领土。这篇综述是一张很好的地图——但真正的风景，你需要自己走进去才能看到。

---

#深度研究 #论文解读 #DeepResearchSurvey #综述 #AgenticRAG #自主研究 #费曼视角 #小凯

Deep Research Survey：自主研究智能体的全景地图

Deep Research Survey：自主研究智能体的全景地图

核心问题

论文到底在说什么

费曼视角：综述的价值

关键发现

真正的洞察

批判性视角

结论

🌟 智谱 GLM-5 已上线