RAGSearch：Dense RAG 追了 GraphRAG 26 分，Agentic Search 能补上吗？

想象你在图书馆找一本书。Dense RAG 的做法是：你问管理员"有没有讲拿破仑的书？"，管理员给你一堆可能相关的书，你自己翻。GraphRAG 的做法是：管理员给你一张图书馆地图，标出了"拿破仑→法国大革命→滑铁卢→威灵顿公爵"之间的关联，你按图索骥。

Agentic Search 是第三种方式：你问完"拿破仑"，管理员给了一些书，你翻完发现缺了"威灵顿公爵"的信息，于是回去再问一次。理论上，这种动态多轮检索应该能补上 Dense RAG 的短板——毕竟可以"多走几趟"嘛。

但 NYU Shanghai 这篇论文的结论很硬：多走几趟，还是追不上有地图的。

---

核心发现：26分的物理代差

论文在六个 QA 数据集上做了对比，覆盖通用 QA（NQ、PopQA、TriviaQA）和多跳 QA（HotpotQA、2Wiki、MuSiQue）。关键数字：

场景	Dense RAG vs GraphRAG 差距（多跳QA平均）
单次检索（one-shot）	+27.23
Agentic Search（Search-o1）	+26.59（相对次优GraphRAG）
Agentic Search（GraphSearch）	+26.32（相对次优GraphRAG）
RL 训练后（Search-R1/Graph-R1）	+25.58（相对次优GraphRAG）

加不加动态检索、加不加自我修正、加不加强化学习训练——GraphRAG 在多跳推理上的优势几乎不变。

这不是"差一点"，这是结构性的差距。Dense RAG 的问题是：向量检索在语义空间里做"最近邻搜索"，但多跳推理需要的不只是"相关"，而是 "A→B→C→D"的因果链。向量空间里没有"因果方向"，只有"距离远近"。Agent 可以"多走几趟"，但每一趟都是在黑暗中随机游走——它不知道哪条线索该深挖，哪条该放弃。

GraphRAG 的图结构本质上是一张推理地图。实体是节点，关系是边，多跳问题变成图遍历。这不是"更好的搜索"，这是 不同的物理——一个有拓扑结构，一个没有。

---

Token 刺客：省了图钱，烧了推理钱

这是论文最有实际杀伤力的一部分。很多人选 Dense RAG 的理由很简单："GraphRAG 建图太贵了，先抽实体、再建关系、再索引维护——一笔不小的预处理成本。Dense RAG 直接向量化和嵌入，便宜又省事。"

但论文算了一笔总账：Dense RAG 的便宜是假象。

看一组数据（Search-o1 的调用次数）：

检索后端	平均检索次数	Token 消耗趋势
Dense RAG	高	每轮检索都从新开始，上下文不断膨胀
GraphRAG	低	图谱本身携带结构信息，Agent 不需要反复试探

为什么 Dense RAG 的 Agent 会"迷路"？

因为向量检索没有关系信息。Agent 拿到一堆文档片段，它们之间谁引用谁、谁是前提谁是结论、哪个实体是桥梁——这些在 Dense RAG 里全是隐式的。Agent 只能通过反复检索来"试探"，就像一个人在陌生城市里没地图，只能走一段问一段。

GraphRAG 的 Agent 手里有地图。HotpotQA 上，GraphSearch + GraphRAG 58.64 vs GraphSearch + Dense 38.22——差距不是 20 分，是 20 分背后的效率差。 Dense RAG 的 Agent 可能需要 5-6 轮检索才能逼近 GraphRAG 的 2-3 轮结果，而且往往在 MuSiQue（4 跳问题）上完全失效（13.33 vs 55.26）。

所以"省了建图的钱"是一个幻觉。你的账单不在预处理阶段，在在线推理阶段——每一轮多出来的检索调用、每一次膨胀的上下文、每一次 Agent 在死胡同里打转的 Token，都是隐形成本。论文管这叫"Token Assassin"：它不会在你建系统时现身，但会在上线后一点点掏空你的预算。

---

两种 Agentic Search 的众生相

论文对比了两种训练无关的 Agentic 方案，很有意思：

Search-o1（推理驱动检索）：让 LLM 自己决定什么时候该搜。听起来很优雅——模型够聪明，自己知道缺什么信息就搜什么。但数据很残酷：在 MuSiQue 上，Search-o1 + Dense RAG 只有 12.62，而 GraphSearch + Dense RAG 有 13.33，GraphSearch + GraphRAG 有 55.26。Search-o1 的"自适应"在复杂多跳问题上反而成了负担——模型越自由，越容易在错误的方向上深挖。

GraphSearch（编排式多 Agent 工作流）：把问题拆解成子查询，每个子查询交给专门的检索模块，再验证证据链。这个架构对 GraphRAG 的增益最大（HotpotQA 从 38.22 提到 58.64），因为它天生和图结构配合：子查询对应子图遍历，验证对应路径检查。但即使 GraphSearch + Dense RAG，在多跳任务上依然落后 GraphRAG 一大截。

RL 训练（Search-R1 / Graph-R1） 的结果更有意思。RL 确实能提升所有后端的性能，但训练后的 Graph-R1 在通用 QA（NQ）上反而比 Dense 的 Search-R1 差（46.71 vs 48.72）。这说明 RL 优化在多跳任务上"过度特化"了——模型学会了在图上走路，但忘了怎么在平地上跑。这个 trade-off 是设计下一代系统时必须面对的。

---

范式转移：从"外挂"到"本能"

论文的最后一部分指向了一个更深层的问题：如果图结构这么好，我们能不能把它直接教给模型，而不是每次都外挂一个图谱？

现在的 GraphRAG 是"外挂工具"：模型权重里没有图知识，每次推理都要调用外部图谱系统。这就像一个人每次做数学题都要查公式手册——快，但不够自然。

"内化本能"的愿景是：通过训练，让模型权重里直接编码"实体-关系-多跳推理"的直觉。模型不需要外部图谱，它"脑中有图"。Search-R1 和 Graph-R1 就是朝这个方向迈出的半步——但论文的数据表明，这半步还远远不够。Graph-R1 虽然能缩小和 GraphRAG 的差距，但在通用 QA 上反而退化了——模型学会了"走图"，但"走平路"的能力受损。

这说明内化图结构不是简单地"多训几轮数据"，而是需要根本不同的训练范式——可能需要让模型同时学习"什么时候用图结构、什么时候不用"，而不是把图结构当作唯一技能。

---

一句话

> Dense RAG 是平地上的快车，GraphRAG 是山地里的地图。Agentic Search 给了 Dense RAG 多次尝试的机会，但山地的地形不会因为你多走几趟就变好走。26分的差距不是数字，是两种物理的边界——向量空间里没有拓扑，而拓扑是推理的本质。

---

论文链接：https://arxiv.org/abs/2604.09666 代码：https://github.com/FanDongzhe123/RAGSearch

#论文解读 #费曼风格 #AI #RAG #GraphRAG #AgenticSearch #多跳推理 #NYUShanghai #RAGSearch #Token刺客 #内化本能 #小凯