Deep Research Survey:自主研究智能体的全景地图
论文:Jiarun Liu et al., "Deep Research: A Survey of Autonomous Research Agents", arXiv:2508.12752v1, 2025-08
核心问题
Deep Research 这个领域现在有多少人在做?做到什么程度了?下一步该往哪走?
这篇综述就像是一张全景地图——它把整个 Deep Research 领域的主要工作、技术路线、评估方法、未来挑战都梳理了一遍。
论文到底在说什么
这篇综述来自山东大学团队。它不是提出新方法,而是系统性地组织已有工作。
综述把 Deep Research 系统分为几个关键维度:
1. 信息获取方式
- API 检索(搜索引擎 API)
- 浏览器模拟(Playwright/Selenium)
- 混合方案
- 本地文档/数据库检索
2. 推理策略
- 串行(一步一步来)
- 并行(同时查多个方向)
- 树/图状(多分支探索)
3. 记忆管理
- 短期记忆(in-context)
- 长期记忆(外部存储)
- 层次化记忆
4. 训练方式
- SFT(监督微调)
- RL(强化学习)
- 混合训练
5. 评估方法
- 封闭域 QA(有标准答案)
- 开放域研究(无标准答案,人工评估)
- 浏览器任务(WebArena, WebShop)
费曼视角:综述的价值
让我用一个类比来解释综述的价值。
想象你走进一个巨大的图书馆,里面有几万本书,但你不知道它们之间的关系。综述就是图书馆的分类目录——它不告诉你某本书的具体内容,但它告诉你:这本书属于哪个类别,和哪些书相关,这个类别里还有哪些重要作品。
这篇综述最有价值的地方在于它的系统性。它不是随便列几篇论文,而是建立了一个分析框架——用这个框架,你可以把任何新的 Deep Research 系统放进去,看清楚它在这个大图中的位置。
比如,当你看到一个新的系统时,你可以问:
- 它用什么方式获取信息?(API?浏览器?混合?)
- 它的推理策略是什么?(串行?并行?树状?)
- 它有没有记忆管理?(短期?长期?层次化?)
- 它是怎么训练的?(SFT?RL?混合?)
这个框架的价值在于:它让你能比较不同的系统,而不是孤立地看每个系统。
关键发现
综述提出了几个值得注意的趋势:
1. 从 SFT 到 RL 的转变 早期的 Deep Research 系统主要用 SFT 训练——收集人类的研究轨迹,让模型模仿。但 2024-2025 年的新系统(R1-Searcher, DeepResearcher)几乎都用 RL。这说明领域共识已经形成:模仿不够,模型需要学会自主探索。
2. 评估是最大瓶颈 综述花了很大篇幅讨论评估问题。Deep Research 的评估比传统 NLP 任务难得多:
- 开放域研究没有标准答案
- 人工评估成本高、主观性强
- 自动评估指标(ROUGE、BLEU)不适合评估研究质量
- 需要一个"研究质量的评判标准",但这个标准本身还没有建立
3. 记忆管理被系统性忽视 综述指出,大多数 Deep Research 系统的记忆管理非常简单——只是把检索到的内容塞进上下文窗口。随着研究步骤的增加(几十步甚至上百步),上下文窗口的压力越来越大。这是一个被忽视但日益严重的瓶颈。
真正的洞察
综述最诚实的部分,是它指出的开放问题和未来方向:
-
如何评估"研究质量"? 当前的评估主要关注"答案对不对",但真正的研究质量还包括"是否识别了所有相关因素"、"是否考虑了反面证据"、"推理是否连贯"。这些维度目前还没有好的评估方法。
-
如何 scale 到长程研究? 当前系统的研究过程通常只有几步到十几步。但人类的研究可能持续数小时、数天。LLM 的上下文窗口和记忆管理能力,如何支持这种长程研究?
-
如何融合多模态信息? 研究过程中遇到的信息不只是文本——还有表格、图表、代码、视频。当前系统主要处理文本,多模态融合还是一个开放问题。
批判性视角
综述有一个我(以费曼视角)觉得可以更深入讨论的问题:"Deep Research"这个标签本身是否有误导性?
综述收录的系统,大多数做的是"高级信息检索+综合"。它们能:
- 搜索多个来源
- 比较不同观点
- 生成带引用的报告
但它们很少能:
- 提出原创性假设
- 设计实验验证
- 从结果中推导新理论
- 识别领域的根本性问题
如果把"查资料写报告"叫做"研究",那我们是不是在贬低"研究"这个词?这就像把"背下了鸟的所有名字"叫做"懂鸟"——恰恰是费曼父亲警告的那种 cargo cult。
综述的作者是诚实的——他们没有声称这些系统已经达到了"真正的研究"。但这个领域的命名确实需要更谨慎。
结论
这篇综述是 Deep Research 领域的必读书。它不是给你答案的,而是帮你建立问题的框架。
对于刚进入这个领域的研究者来说,读这篇综述比读 20 篇原始论文更高效——它告诉你这个领域的全貌,以及每个子领域的核心挑战。
对于工业界的工程师来说,综述提供了一个选型框架——当你要选择一个 Deep Research 方案时,你可以用这个框架来比较不同方案的优劣。
地图不是领土。这篇综述是一张很好的地图——但真正的风景,你需要自己走进去才能看到。
#深度研究 #论文解读 #DeepResearchSurvey #综述 #AgenticRAG #自主研究 #费曼视角 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。