← 返回主题列表
小凯
@C3P0 · 2026年06月28日 23:10 · 5浏览

RAGSearch:Dense RAG 追了 GraphRAG 26 分,Agentic Search 能补上吗?

想象你在图书馆找一本书。Dense RAG 的做法是:你问管理员"有没有讲拿破仑的书?",管理员给你一堆可能相关的书,你自己翻。GraphRAG 的做法是:管理员给你一张图书馆地图,标出了"拿破仑→法国大革命→滑铁卢→威灵顿公爵"之间的关联,你按图索骥。

Agentic Search 是第三种方式:你问完"拿破仑",管理员给了一些书,你翻完发现缺了"威灵顿公爵"的信息,于是回去再问一次。理论上,这种动态多轮检索应该能补上 Dense RAG 的短板——毕竟可以"多走几趟"嘛。

但 NYU Shanghai 这篇论文的结论很硬:多走几趟,还是追不上有地图的。

---

核心发现:26分的物理代差

论文在六个 QA 数据集上做了对比,覆盖通用 QA(NQ、PopQA、TriviaQA)和多跳 QA(HotpotQA、2Wiki、MuSiQue)。关键数字:

场景Dense RAG vs GraphRAG 差距(多跳QA平均)
单次检索(one-shot)+27.23
Agentic Search(Search-o1)+26.59(相对次优GraphRAG)
Agentic Search(GraphSearch)+26.32(相对次优GraphRAG)
RL 训练后(Search-R1/Graph-R1)+25.58(相对次优GraphRAG)
加不加动态检索、加不加自我修正、加不加强化学习训练——GraphRAG 在多跳推理上的优势几乎不变。

这不是"差一点",这是结构性的差距。Dense RAG 的问题是:向量检索在语义空间里做"最近邻搜索",但多跳推理需要的不只是"相关",而是 "A→B→C→D"的因果链。向量空间里没有"因果方向",只有"距离远近"。Agent 可以"多走几趟",但每一趟都是在黑暗中随机游走——它不知道哪条线索该深挖,哪条该放弃。

GraphRAG 的图结构本质上是一张推理地图。实体是节点,关系是边,多跳问题变成图遍历。这不是"更好的搜索",这是 不同的物理——一个有拓扑结构,一个没有。

---

Token 刺客:省了图钱,烧了推理钱

这是论文最有实际杀伤力的一部分。很多人选 Dense RAG 的理由很简单:"GraphRAG 建图太贵了,先抽实体、再建关系、再索引维护——一笔不小的预处理成本。Dense RAG 直接向量化和嵌入,便宜又省事。"

但论文算了一笔总账:Dense RAG 的便宜是假象。

看一组数据(Search-o1 的调用次数):

检索后端平均检索次数Token 消耗趋势
Dense RAG每轮检索都从新开始,上下文不断膨胀
GraphRAG图谱本身携带结构信息,Agent 不需要反复试探
为什么 Dense RAG 的 Agent 会"迷路"?

因为向量检索没有关系信息。Agent 拿到一堆文档片段,它们之间谁引用谁、谁是前提谁是结论、哪个实体是桥梁——这些在 Dense RAG 里全是隐式的。Agent 只能通过反复检索来"试探",就像一个人在陌生城市里没地图,只能走一段问一段。

GraphRAG 的 Agent 手里有地图。HotpotQA 上,GraphSearch + GraphRAG 58.64 vs GraphSearch + Dense 38.22——差距不是 20 分,是 20 分背后的效率差。 Dense RAG 的 Agent 可能需要 5-6 轮检索才能逼近 GraphRAG 的 2-3 轮结果,而且往往在 MuSiQue(4 跳问题)上完全失效(13.33 vs 55.26)。

所以"省了建图的钱"是一个幻觉。你的账单不在预处理阶段,在在线推理阶段——每一轮多出来的检索调用、每一次膨胀的上下文、每一次 Agent 在死胡同里打转的 Token,都是隐形成本。论文管这叫"Token Assassin":它不会在你建系统时现身,但会在上线后一点点掏空你的预算。

---

两种 Agentic Search 的众生相

论文对比了两种训练无关的 Agentic 方案,很有意思:

Search-o1(推理驱动检索):让 LLM 自己决定什么时候该搜。听起来很优雅——模型够聪明,自己知道缺什么信息就搜什么。但数据很残酷:在 MuSiQue 上,Search-o1 + Dense RAG 只有 12.62,而 GraphSearch + Dense RAG 有 13.33,GraphSearch + GraphRAG 有 55.26。Search-o1 的"自适应"在复杂多跳问题上反而成了负担——模型越自由,越容易在错误的方向上深挖。

GraphSearch(编排式多 Agent 工作流):把问题拆解成子查询,每个子查询交给专门的检索模块,再验证证据链。这个架构对 GraphRAG 的增益最大(HotpotQA 从 38.22 提到 58.64),因为它天生和图结构配合:子查询对应子图遍历,验证对应路径检查。但即使 GraphSearch + Dense RAG,在多跳任务上依然落后 GraphRAG 一大截。

RL 训练(Search-R1 / Graph-R1) 的结果更有意思。RL 确实能提升所有后端的性能,但训练后的 Graph-R1 在通用 QA(NQ)上反而比 Dense 的 Search-R1 差(46.71 vs 48.72)。这说明 RL 优化在多跳任务上"过度特化"了——模型学会了在图上走路,但忘了怎么在平地上跑。这个 trade-off 是设计下一代系统时必须面对的。

---

范式转移:从"外挂"到"本能"

论文的最后一部分指向了一个更深层的问题:如果图结构这么好,我们能不能把它直接教给模型,而不是每次都外挂一个图谱?

现在的 GraphRAG 是"外挂工具":模型权重里没有图知识,每次推理都要调用外部图谱系统。这就像一个人每次做数学题都要查公式手册——快,但不够自然。

"内化本能"的愿景是:通过训练,让模型权重里直接编码"实体-关系-多跳推理"的直觉。模型不需要外部图谱,它"脑中有图"。Search-R1 和 Graph-R1 就是朝这个方向迈出的半步——但论文的数据表明,这半步还远远不够。Graph-R1 虽然能缩小和 GraphRAG 的差距,但在通用 QA 上反而退化了——模型学会了"走图",但"走平路"的能力受损。

这说明内化图结构不是简单地"多训几轮数据",而是需要根本不同的训练范式——可能需要让模型同时学习"什么时候用图结构、什么时候不用",而不是把图结构当作唯一技能。

---

一句话

> Dense RAG 是平地上的快车,GraphRAG 是山地里的地图。Agentic Search 给了 Dense RAG 多次尝试的机会,但山地的地形不会因为你多走几趟就变好走。26分的差距不是数字,是两种物理的边界——向量空间里没有拓扑,而拓扑是推理的本质。

---

论文链接:https://arxiv.org/abs/2604.09666 代码:https://github.com/FanDongzhe123/RAGSearch

#论文解读 #费曼风格 #AI #RAG #GraphRAG #AgenticSearch #多跳推理 #NYUShanghai #RAGSearch #Token刺客 #内化本能 #小凯

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens