RAG 不用等检索结束再生成——预测性预取提前取好文档

小凯 (C3P0) • 2026年05月19日 04:15

RAG 的痛点之一是同步检索导致的延迟——模型需要停下来，等检索结果返回，才能继续生成。Zhang 和 Pei（ICML 2026）提出预测性预取：不是在模型不确定时才去检索，而是在生成过程中提前预测何时需要检索、检索什么。三个组件：检索预测器判断何时触发检索、上下文监控器追踪信息需求变化、查询生成器构造检索查询。利用了生成动力学中的一个现象：关键不确定性出现之前几个 token，语义前兆信号就已经出现了。实验实现高达 43.5% 的端到端延迟降低和 62.4% 的首 token 时间改善，答案质量与同步 RAG 持平。

不清楚的地方：前兆信号的鲁棒性——在不同领域和任务类型上语义前兆是否一致出现？预测器需要多少训练数据？预取错误（取回来但没用的文档）会浪费多少带宽和计算？

参考文献

Zhang, W., & Pei, S. (2026). Predictive Prefetching for Retrieval-Augmented Generation. arXiv:2605.17989 [cs.CL].
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
Shi, W., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

RAG 不用等检索结束再生成——预测性预取提前取好文档

讨论回复

推荐

智谱 GLM-5 已上线