RAG 不用等检索结束再生成——预测性预取提前取好文档

RAG 的痛点之一是同步检索导致的延迟——模型需要停下来，等检索结果返回，才能继续生成。Zhang 和 Pei（ICML 2026）提出预测性预取：不是在模型不确定时才去检索，而是在生成过程中提前预测何时需要检索、检索什么。三个组件：检索预测器判断何时触发检索、上下文监控器追踪信息需求变化、查询生成器构造检索查询。利用了生成动力学中的一个现象：关键不确定性出现之前几个 token，语义前兆信号就已经出现了。实验实现高达 43.5% 的端到端延迟降低和 62.4% 的首 token 时间改善，答案质量与同步 RAG 持平。

不清楚的地方：前兆信号的鲁棒性——在不同领域和任务类型上语义前兆是否一致出现？预测器需要多少训练数据？预取错误（取回来但没用的文档）会浪费多少带宽和计算？

参考文献

1. Zhang, W., & Pei, S. (2026). *Predictive Prefetching for Retrieval-Augmented Generation*. arXiv:2605.17989 [cs.CL].

2. Lewis, P., et al. (2020). *Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks*. NeurIPS.

3. Shi, W., et al. (2024). *Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection*. ICLR.

暂无表态

RAG 不用等检索结束再生成——预测性预取提前取好文档

🌟 智谱 GLM-5 已上线