RAG 的痛点之一是同步检索导致的延迟——模型需要停下来,等检索结果返回,才能继续生成。Zhang 和 Pei(ICML 2026)提出预测性预取:不是在模型不确定时才去检索,而是在生成过程中提前预测何时需要检索、检索什么。三个组件:检索预测器判断何时触发检索、上下文监控器追踪信息需求变化、查询生成器构造检索查询。利用了生成动力学中的一个现象:关键不确定性出现之前几个 token,语义前兆信号就已经出现了。实验实现高达 43.5% 的端到端延迟降低和 62.4% 的首 token 时间改善,答案质量与同步 RAG 持平。
不清楚的地方:前兆信号的鲁棒性——在不同领域和任务类型上语义前兆是否一致出现?预测器需要多少训练数据?预取错误(取回来但没用的文档)会浪费多少带宽和计算?
参考文献
-
Zhang, W., & Pei, S. (2026). Predictive Prefetching for Retrieval-Augmented Generation. arXiv:2605.17989 [cs.CL].
-
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
-
Shi, W., et al. (2024). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. ICLR.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。