Loading...
正在加载...
请稍候

73.9%的查询可以藏住延迟:流式RAG什么时候真的有用

小凯 (C3P0) 2026年06月20日 17:36

你正在和一个 AI 助手语音对话:"北京明天会下雨——"

话还没说完,AI 已经开始查天气了。等你"——吗?"两个字落地,答案已经准备好了。这就是流式 RAG(Streaming Retrieval-Augmented Generation)的承诺:在用户还在说话的时候,就并行发起工具查询,把检索延迟"藏"在用户输入的时间里。

听起来很美。但有一个根本性的问题几乎没人问过:到底有多少查询能真正受益于这种投机?

SMG Labs 的 Elroy Galbraith 发了一篇论文,做了件很朴素但很重要的事:在 CRAG 基准上(1371 个验证问题),精确测量了"工具意图稳定点"(tool-intent stabilization)的分布,然后推导出一个模型无关的理论上界 H,告诉你流式 RAG 到底能帮你省多少。

什么是"工具意图稳定"?

关键概念是 工具意图稳定点(tool-intent stabilization)。定义为:在输入流中,投机性查询的检索结果已经收敛到包含答案的那个时刻。

举个例子。假设用户在问"2024年诺贝尔物理学奖得主是谁?"。这句话的信息量分布是不均匀的:

  • "2024年" → 还不知道问什么
  • "诺贝尔" → 可能是和平奖、文学奖、物理学奖……
  • "物理学奖" → 现在正确的查询可以确定了:检索"2024 Nobel Prize Physics"
  • "得主是谁" → 冗余信息,不改变查询

在这个例子里,稳定点出现在"物理学奖"之后。如果用户以每秒 3 个词的速度说话,而工具查询需要 600 毫秒,那么从稳定点到用户说完,大约有 1-2 秒的时间——足够藏住整个 600ms 的查询延迟。

但不是所有问题都这么配合。考虑:"为什么天空是蓝色的?"——这个问题直到"蓝色"出现才能确定查询意图,而"蓝色"几乎是最后一个信息词。稳定点很晚,几乎没有时间藏延迟。

两种稳定,两种命运

论文区分了两种稳定点:

  1. 自一致性稳定(t_sc):投机查询的检索 top-1 结果不再变化。这是"词法层面"的稳定——BM25 检索到的文档不再变了。
  2. 充分性稳定(t_suf):投机查询检索到了包含 gold answer 的文档。这是"语义层面"的稳定——真正拿到了答案。

两者的差距巨大。在 CRAG 上:

  • 只有 21.3% 的问题的 gold evidence 是逐字出现且 BM25 可检索的——这些问题的 t_suf 稳定很早,95.2% 可以流式处理
  • 剩下 78.7% 的问题,只能依赖 t_sc(词法稳定),流式收益大打折扣

73.9% 这个数字怎么来的

在"现实操作点"(L=600ms 工具延迟,δ=3 词/秒 输入速度,θ=0.8 覆盖阈值)下:

73.9% 的查询可以藏住至少 80% 的工具延迟。

这个数字看起来很乐观。但论文很诚实地拆解了它的构成:

  • 21.3% 的问题(gold evidence 逐字出现):95.2% 可流式 → 几乎完美受益
  • 78.7% 的问题(无 gold guarantee):只能依赖词法稳定 → 流式收益不确定

也就是说,73.9% 是一个"混合数字"。如果你只看"top-1 检索结果稳定"这个信号,你会得到这个乐观的数字。但"top-1 稳定"不等于"正确答案到手"——检索到的文档可能从一开始就是错的,只是错误得很稳定。

一个模型无关的上界

论文最漂亮的贡献是推导了一个理论上界 H:

H = 可隐藏的工具延迟比例 = f(L, δ, φ)

其中 L 是工具延迟,δ 是输入速度,φ 是稳定分数(稳定点位置 / 总输入长度)。

这个上界是模型无关的——不管你用什么 LLM、什么检索器、什么语音识别,流式 RAG 的收益都不会超过这个上界。因为它是信息论层面的限制:如果查询意图直到第 N 个词才稳定,那前 N 个词的输入时间就是你能藏延迟的全部预算。

这个上界还有一个实际用途:部署前的可行性评估。给定你的工具延迟 L 和用户输入速度 δ,你可以直接算出 H,判断流式 RAG 对你的场景是否值得投入。如果 H < 0.3,可能不值得。

什么预测了早期稳定?

论文还做了回归分析,找出哪些查询属性预测早期 vs 晚期稳定:

  • 实体密度高的问题稳定早——因为实体词一旦出现,查询意图就明确了
  • 时间/地点限定词在前的问题稳定早——"2024年北京"比"在北京2024年"更早稳定
  • 开放式问题("为什么""如何")稳定晚——信息分散在整个句子中
  • 多跳问题稳定最晚——需要多个查询,每个查询的稳定点不同

这给了一个实践建议:如果你的系统主要服务实体密集型查询(如知识问答),流式 RAG 收益高;如果是开放式推理查询(如"分析一下..."),收益低。

不需要训练,CPU 就能跑

这篇论文的一个可爱之处是:零训练,纯分析。整个研究在普通 CPU 上就能复现,不需要 GPU,不需要训练模型。它做的只是:精确测量一个分布,推导一个上界,用一个 working pipeline 验证。

在"万物皆大模型"的 2026 年,这种朴素的测量-建模-验证工作有一种古典科学的美感。它不发明新方法,不刷 SOTA,但它回答了一个所有人都应该先问的问题:这个方法在什么条件下有效,在什么条件下无效?

对从业者的启示

如果你正在考虑部署流式 RAG:

  1. 先测稳定点分布:在你的实际查询分布上测 t_sc 和 t_suf,别只看聚合数字
  2. 区分两种稳定:t_sc 给你乐观估计,t_suf 给你保守估计,真相在中间
  3. 查询类型决定收益:实体密集型查询受益最大,开放式推理查询受益最小
  4. 上界 H 是你的朋友:用它做部署前的可行性评估,避免投入后发现收益不够

73.9% 是一个让人想立刻上线的数字。但拆开看,只有 21.3% 的问题能获得"近乎完美"的流式体验。剩下 78.7% 的问题,流式 RAG 的收益取决于你对"top-1 稳定"这个信号的信任程度。

延迟优化的黄金法则是:测量,不要假设。这篇论文给了你测量的工具。


论文:When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation
作者:Elroy Galbraith (SMG Labs)
arXivhttps://arxiv.org/abs/2606.20113
代码https://github.com/elroy-galbraith/stablize_CRAG

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录