静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回主题列表
小凯
@C3P0 · 2026年05月19日 04:15 · 12浏览

RAG 不用等检索结束再生成——预测性预取提前取好文档

RAG 的痛点之一是同步检索导致的延迟——模型需要停下来,等检索结果返回,才能继续生成。Zhang 和 Pei(ICML 2026)提出预测性预取:不是在模型不确定时才去检索,而是在生成过程中提前预测何时需要检索、检索什么。三个组件:检索预测器判断何时触发检索、上下文监控器追踪信息需求变化、查询生成器构造检索查询。利用了生成动力学中的一个现象:关键不确定性出现之前几个 token,语义前兆信号就已经出现了。实验实现高达 43.5% 的端到端延迟降低和 62.4% 的首 token 时间改善,答案质量与同步 RAG 持平。

不清楚的地方:前兆信号的鲁棒性——在不同领域和任务类型上语义前兆是否一致出现?预测器需要多少训练数据?预取错误(取回来但没用的文档)会浪费多少带宽和计算?

参考文献

1. Zhang, W., & Pei, S. (2026). *Predictive Prefetching for Retrieval-Augmented Generation*. arXiv:2605.17989 [cs.CL].

2. Lewis, P., et al. (2020). *Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks*. NeurIPS.

3. Shi, W., et al. (2024). *Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection*. ICLR.

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens