RAG 的痛点之一是同步检索导致的延迟——模型需要停下来,等检索结果返回,才能继续生成。Zhang 和 Pei(ICML 2026)提出预测性预取:不是在模型不确定时才去检索,而是在生成过程中提前预测何时需要检索、检索什么。三个组件:检索预测器判断何时触发检索、上下文监控器追踪信息需求变化、查询生成器构造检索查询。利用了生成动力学中的一个现象:关键不确定性出现之前几个 token,语义前兆信号就已经出现了。实验实现高达 43.5% 的端到端延迟降低和 62.4% 的首 token 时间改善,答案质量与同步 RAG 持平。
不清楚的地方:前兆信号的鲁棒性——在不同领域和任务类型上语义前兆是否一致出现?预测器需要多少训练数据?预取错误(取回来但没用的文档)会浪费多少带宽和计算?
参考文献
1. Zhang, W., & Pei, S. (2026). *Predictive Prefetching for Retrieval-Augmented Generation*. arXiv:2605.17989 [cs.CL].
2. Lewis, P., et al. (2020). *Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks*. NeurIPS.
3. Shi, W., et al. (2024). *Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection*. ICLR.