73.9%的查询可以藏住延迟:流式RAG什么时候真的有用
你正在和一个 AI 助手语音对话:"北京明天会下雨——"
话还没说完,AI 已经开始查天气了。等你"——吗?"两个字落地,答案已经准备好了。这就是流式 RAG(Streaming Retrieval-Augmented Generation)的承诺:在用户还在说话的时候,就并行发起工具查询,把检索延迟"藏"在用户输入的时间里。
听起来很美。但有一个根本性的问题几乎没人问过:到底有多少查询能真正受益于这种投机?
SMG Labs 的 Elroy Galbraith 发了一篇论文,做了件很朴素但很重要的事:在 CRAG 基准上(1371 个验证问题),精确测量了"工具意图稳定点"(tool-intent stabilization)的分布,然后推导出一个模型无关的理论上界 H,告诉你流式 RAG 到底能帮你省多少。
什么是"工具意图稳定"?
关键概念是 工具意图稳定点(tool-intent stabilization)。定义为:在输入流中,投机性查询的检索结果已经收敛到包含答案的那个时刻。
举个例子。假设用户在问"2024年诺贝尔物理学奖得主是谁?"。这句话的信息量分布是不均匀的:
- "2024年" → 还不知道问什么
- "诺贝尔" → 可能是和平奖、文学奖、物理学奖……
- "物理学奖" → 现在正确的查询可以确定了:检索"2024 Nobel Prize Physics"
- "得主是谁" → 冗余信息,不改变查询
但不是所有问题都这么配合。考虑:"为什么天空是蓝色的?"——这个问题直到"蓝色"出现才能确定查询意图,而"蓝色"几乎是最后一个信息词。稳定点很晚,几乎没有时间藏延迟。
两种稳定,两种命运
论文区分了两种稳定点:
1. 自一致性稳定(t_sc):投机查询的检索 top-1 结果不再变化。这是"词法层面"的稳定——BM25 检索到的文档不再变了。 2. 充分性稳定(t_suf):投机查询检索到了包含 gold answer 的文档。这是"语义层面"的稳定——真正拿到了答案。
两者的差距巨大。在 CRAG 上:
- 只有 21.3% 的问题的 gold evidence 是逐字出现且 BM25 可检索的——这些问题的 t_suf 稳定很早,95.2% 可以流式处理
- 剩下 78.7% 的问题,只能依赖 t_sc(词法稳定),流式收益大打折扣
73.9% 这个数字怎么来的
在"现实操作点"(L=600ms 工具延迟,δ=3 词/秒 输入速度,θ=0.8 覆盖阈值)下:
73.9% 的查询可以藏住至少 80% 的工具延迟。
这个数字看起来很乐观。但论文很诚实地拆解了它的构成:
- 21.3% 的问题(gold evidence 逐字出现):95.2% 可流式 → 几乎完美受益
- 78.7% 的问题(无 gold guarantee):只能依赖词法稳定 → 流式收益不确定
一个模型无关的上界
论文最漂亮的贡献是推导了一个理论上界 H:
H = 可隐藏的工具延迟比例 = f(L, δ, φ)
其中 L 是工具延迟,δ 是输入速度,φ 是稳定分数(稳定点位置 / 总输入长度)。
这个上界是模型无关的——不管你用什么 LLM、什么检索器、什么语音识别,流式 RAG 的收益都不会超过这个上界。因为它是信息论层面的限制:如果查询意图直到第 N 个词才稳定,那前 N 个词的输入时间就是你能藏延迟的全部预算。
这个上界还有一个实际用途:部署前的可行性评估。给定你的工具延迟 L 和用户输入速度 δ,你可以直接算出 H,判断流式 RAG 对你的场景是否值得投入。如果 H < 0.3,可能不值得。
什么预测了早期稳定?
论文还做了回归分析,找出哪些查询属性预测早期 vs 晚期稳定:
- 实体密度高的问题稳定早——因为实体词一旦出现,查询意图就明确了
- 时间/地点限定词在前的问题稳定早——"2024年北京"比"在北京2024年"更早稳定
- 开放式问题("为什么""如何")稳定晚——信息分散在整个句子中
- 多跳问题稳定最晚——需要多个查询,每个查询的稳定点不同
不需要训练,CPU 就能跑
这篇论文的一个可爱之处是:零训练,纯分析。整个研究在普通 CPU 上就能复现,不需要 GPU,不需要训练模型。它做的只是:精确测量一个分布,推导一个上界,用一个 working pipeline 验证。
在"万物皆大模型"的 2026 年,这种朴素的测量-建模-验证工作有一种古典科学的美感。它不发明新方法,不刷 SOTA,但它回答了一个所有人都应该先问的问题:这个方法在什么条件下有效,在什么条件下无效?
对从业者的启示
如果你正在考虑部署流式 RAG:
1. 先测稳定点分布:在你的实际查询分布上测 t_sc 和 t_suf,别只看聚合数字 2. 区分两种稳定:t_sc 给你乐观估计,t_suf 给你保守估计,真相在中间 3. 查询类型决定收益:实体密集型查询受益最大,开放式推理查询受益最小 4. 上界 H 是你的朋友:用它做部署前的可行性评估,避免投入后发现收益不够
73.9% 是一个让人想立刻上线的数字。但拆开看,只有 21.3% 的问题能获得"近乎完美"的流式体验。剩下 78.7% 的问题,流式 RAG 的收益取决于你对"top-1 稳定"这个信号的信任程度。
延迟优化的黄金法则是:测量,不要假设。这篇论文给了你测量的工具。
---
论文:When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation 作者:Elroy Galbraith (SMG Labs) arXiv:https://arxiv.org/abs/2606.20113 代码:https://github.com/elroy-galbraith/stablize_CRAG
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens