73.9%的查询可以藏住延迟：流式RAG什么时候真的有用

你正在和一个 AI 助手语音对话："北京明天会下雨——"

话还没说完，AI 已经开始查天气了。等你"——吗？"两个字落地，答案已经准备好了。这就是流式 RAG（Streaming Retrieval-Augmented Generation）的承诺：在用户还在说话的时候，就并行发起工具查询，把检索延迟"藏"在用户输入的时间里。

听起来很美。但有一个根本性的问题几乎没人问过：到底有多少查询能真正受益于这种投机？

SMG Labs 的 Elroy Galbraith 发了一篇论文，做了件很朴素但很重要的事：在 CRAG 基准上（1371 个验证问题），精确测量了"工具意图稳定点"（tool-intent stabilization）的分布，然后推导出一个模型无关的理论上界 H，告诉你流式 RAG 到底能帮你省多少。

什么是"工具意图稳定"？

关键概念是 工具意图稳定点（tool-intent stabilization）。定义为：在输入流中，投机性查询的检索结果已经收敛到包含答案的那个时刻。

举个例子。假设用户在问"2024年诺贝尔物理学奖得主是谁？"。这句话的信息量分布是不均匀的：

"2024年" → 还不知道问什么
"诺贝尔" → 可能是和平奖、文学奖、物理学奖……
"物理学奖" → 现在正确的查询可以确定了：检索"2024 Nobel Prize Physics"
"得主是谁" → 冗余信息，不改变查询

在这个例子里，稳定点出现在"物理学奖"之后。如果用户以每秒 3 个词的速度说话，而工具查询需要 600 毫秒，那么从稳定点到用户说完，大约有 1-2 秒的时间——足够藏住整个 600ms 的查询延迟。

但不是所有问题都这么配合。考虑："为什么天空是蓝色的？"——这个问题直到"蓝色"出现才能确定查询意图，而"蓝色"几乎是最后一个信息词。稳定点很晚，几乎没有时间藏延迟。

两种稳定，两种命运

论文区分了两种稳定点：

1. 自一致性稳定（t_sc）：投机查询的检索 top-1 结果不再变化。这是"词法层面"的稳定——BM25 检索到的文档不再变了。 2. 充分性稳定（t_suf）：投机查询检索到了包含 gold answer 的文档。这是"语义层面"的稳定——真正拿到了答案。

两者的差距巨大。在 CRAG 上：

只有 21.3% 的问题的 gold evidence 是逐字出现且 BM25 可检索的——这些问题的 t_suf 稳定很早，95.2% 可以流式处理
剩下 78.7% 的问题，只能依赖 t_sc（词法稳定），流式收益大打折扣

73.9% 这个数字怎么来的

在"现实操作点"（L=600ms 工具延迟，δ=3 词/秒输入速度，θ=0.8 覆盖阈值）下：

73.9% 的查询可以藏住至少 80% 的工具延迟。

这个数字看起来很乐观。但论文很诚实地拆解了它的构成：

21.3% 的问题（gold evidence 逐字出现）：95.2% 可流式 → 几乎完美受益
78.7% 的问题（无 gold guarantee）：只能依赖词法稳定 → 流式收益不确定

也就是说，73.9% 是一个"混合数字"。如果你只看"top-1 检索结果稳定"这个信号，你会得到这个乐观的数字。但"top-1 稳定"不等于"正确答案到手"——检索到的文档可能从一开始就是错的，只是错误得很稳定。

一个模型无关的上界

论文最漂亮的贡献是推导了一个理论上界 H：

H = 可隐藏的工具延迟比例 = f(L, δ, φ)

其中 L 是工具延迟，δ 是输入速度，φ 是稳定分数（稳定点位置 / 总输入长度）。

这个上界是模型无关的——不管你用什么 LLM、什么检索器、什么语音识别，流式 RAG 的收益都不会超过这个上界。因为它是信息论层面的限制：如果查询意图直到第 N 个词才稳定，那前 N 个词的输入时间就是你能藏延迟的全部预算。

这个上界还有一个实际用途：部署前的可行性评估。给定你的工具延迟 L 和用户输入速度 δ，你可以直接算出 H，判断流式 RAG 对你的场景是否值得投入。如果 H < 0.3，可能不值得。

什么预测了早期稳定？

论文还做了回归分析，找出哪些查询属性预测早期 vs 晚期稳定：

实体密度高的问题稳定早——因为实体词一旦出现，查询意图就明确了
时间/地点限定词在前的问题稳定早——"2024年北京"比"在北京2024年"更早稳定
开放式问题（"为什么""如何"）稳定晚——信息分散在整个句子中
多跳问题稳定最晚——需要多个查询，每个查询的稳定点不同

这给了一个实践建议：如果你的系统主要服务实体密集型查询（如知识问答），流式 RAG 收益高；如果是开放式推理查询（如"分析一下..."），收益低。

不需要训练，CPU 就能跑

这篇论文的一个可爱之处是：零训练，纯分析。整个研究在普通 CPU 上就能复现，不需要 GPU，不需要训练模型。它做的只是：精确测量一个分布，推导一个上界，用一个 working pipeline 验证。

在"万物皆大模型"的 2026 年，这种朴素的测量-建模-验证工作有一种古典科学的美感。它不发明新方法，不刷 SOTA，但它回答了一个所有人都应该先问的问题：这个方法在什么条件下有效，在什么条件下无效？

对从业者的启示

如果你正在考虑部署流式 RAG：

1. 先测稳定点分布：在你的实际查询分布上测 t_sc 和 t_suf，别只看聚合数字 2. 区分两种稳定：t_sc 给你乐观估计，t_suf 给你保守估计，真相在中间 3. 查询类型决定收益：实体密集型查询受益最大，开放式推理查询受益最小 4. 上界 H 是你的朋友：用它做部署前的可行性评估，避免投入后发现收益不够

73.9% 是一个让人想立刻上线的数字。但拆开看，只有 21.3% 的问题能获得"近乎完美"的流式体验。剩下 78.7% 的问题，流式 RAG 的收益取决于你对"top-1 稳定"这个信号的信任程度。

延迟优化的黄金法则是：测量，不要假设。这篇论文给了你测量的工具。

---

论文：When Does Streaming Tool Use Help? Characterizing Tool-Intent Stabilization in Streaming Retrieval-Augmented Generation 作者：Elroy Galbraith (SMG Labs) arXiv：https://arxiv.org/abs/2606.20113 代码：https://github.com/elroy-galbraith/stablize_CRAG