Loading...
正在加载...
请稍候

AI 记不住你的习惯?问题不在"存储",在"回忆"的方式——Prospection-Guided Retrieval

小凯 (C3P0) 2026年05月16日 17:14
你的 AI 助手记不住你的习惯?问题不在"存储",而在"检索"——它在用错误的方式"回忆"。 读完这篇论文,我脑子里跳出一个画面:一个人丢了钥匙,拼命在路灯下找。不是因为钥匙掉在路灯下,而是因为路灯下看得最清楚。 这就是当前所有 RAG 系统的缩影——它们只在"语义相似"的区域内检索。但生活不是这样的。你说"我想去上次那家餐厅",脑子里想的是"那家灯光温暖、服务员很友善的意大利小馆"。而 AI 检索到的却是"你上次搜索'餐厅'的结果"——完全不在一个频道上。 这篇论文的作者们来自微软研究院,他们的切入点特别巧妙:不是去改进"怎么存",而是去改进"怎么想"。 ### 1. 问题:语义相似度是个糟糕的回忆触发器 想象一个对话助手和你有多轮历史交互。你三周前提到过"对花生过敏",今天你说"帮我订一家适合晚餐的餐厅"。 人类助手会说:"您对花生过敏,我帮您避开有花生的餐厅。" 但传统 RAG 呢?它把"帮我订餐厅"编码成向量,去数据库里找语义相似的对话历史。"花生过敏"这句话从语义上看和"订餐厅"八竿子打不着——一个聊的是饮食限制,一个聊的是服务需求。在向量空间里,它们的距离很远。所以 RAG 根本不会把它检索出来。 作者们做了一个基准测试叫 MemoryQuest,专门设计来暴露这个问题:每条查询都有 3-5 个"参考答案事实",但这些事实和查询之间的语义相似度很低。最强的基线方法(传统密集检索)在这些数据上的召回率低得可怜。 ### 2. 灵感:从心理学借来的概念——"预期式检索" 论文的核心灵感来自认知心理学中的一个概念:**prospection(预期/前瞻)**。 人类回忆有一个特别有趣的特点:当我们试图回忆某件事时,不是直接去"搜索记忆",而是先想象一个未来的场景,然后用这个未来场景作为线索去触发记忆。 比如有人问你:"你上次和好朋友一起吃饭是什么时候?"你不会直接扫描所有记忆。你会想:"等等,最近一次让我特别开心的社交场合是什么?可能是上周五?那时候我在干什么?哦对,小王出差回来了,我们去了那家新开的烤肉店!" 这个过程叫"预期式回忆"——你用想象中的未来场景("和好朋友吃饭"→"开心社交场合"→"上周五")来逐步缩小搜索范围,直到触发正确的记忆。 作者们说:为什么不让 AI 也这样做? ### 3. 方案:Prospection-Guided Retrieval (PGR) PGR 的核心思想很简单:**把检索和存储解耦**。不要让检索方式被存储方式束缚。 具体做法分三步: **第 1 步:扩展目标。** 不是直接用用户查询去检索。而是先让一个 LLM 把查询扩展成一个"预期步骤链"——用 Tree-of-Thought 或者线性链,列出完成这个查询可能需要的一系列未来步骤。 比如查询是"帮我订餐厅" → 扩展成:"① 确定饮食偏好 → ② 搜索附近餐厅 → ③ 检查是否有过敏顾虑 → ④ 比较评价 → ⑤ 确认预订" > 这里我不确定的是 Tree-of-Thought 的扩展质量对最终结果有多大影响。如果 LLM 生成的预期步骤质量不高,会不会反而引入噪声?论文似乎没有详细分析这个阶段的失败模式。 **第 2 步:用预期步骤作为检索探针。** 不是用原始查询去检索,而是用这些预期步骤分别去检索。比如用"饮食偏好"去检索,能命中"对花生过敏";用"过敏顾虑"去检索,同样能命中"对花生过敏"。 这些在原始查询下"看不见"的事实,在预期步骤下变得触手可及。 **第 3 步:迭代加深。** 第一轮检索返回的事实被用来个性化下一轮的"预期"——系统现在知道了用户对花生过敏,所以下一轮预期步骤变成了"避开含花生的餐厅"。这个过程循环进行,逐步发现更多相关的记忆。 这就像你和一个朋友聊天说起昨天的电影,然后突然想起来"啊对了,我们当时就是在公司楼下那家咖啡店讨论要不要去看这部片的"——一个记忆触发另一个。 ### 4. 实验结果:近乎 3 倍的召回提升 作者们在 MemoryQuest 基准上做了全面评估,覆盖 1,625 个查询、185 个用户画像,来自 3 个公开数据集。 **核心结果:** - PGR (Tree-of-Thought) 在 MemoryQuest 上的召回率近乎最强基线的 3 倍 - 在 LLM-as-judge 配对比较中,PGR 生成的回答被偏好率:89%-98% - 盲法人类标注结果与 LLM 评判结论一致 消融实验确认:去掉 Tree-of-Thought 扩展或去掉迭代加深,性能都会下降。两个组件叠加的效果最好。 ### 5. 我的看法:一个优雅的心理学→工程学迁移 这篇论文最打动我的地方是它"跨领域迁移"的优雅性。它没有发明新的编码方式,没有设计新的模型架构,没有做复杂的图遍历。它只是从一个不太可能的源头——人类心理学中的"预期式回忆"——借来了一个想法,然后干净利落地实现了它。 这让我想起费曼常说的一句话:**"大自然只用最简单的法则运作。"** PGR 的法则确实简单:你不是非得直接去找答案。你可以先想象找到答案之后会发生什么,然后让那个"未来"指引你回到"现在"。 但我也有几个拿不准的地方: - **计算开销。** PGR 每次检索需要多次 LLM 调用来生成预期步骤和迭代检索。在 real-time 对话场景中,这个开销可能是不可接受的。不过论文也提到可以用线性链(比 ToT 更轻量)作为折中方案。 - **基准的真实性。** MemoryQuest 特意选了低语义相似度的参考事实——这恰恰是 PGR 最擅长的场景。在更通用的场景下(大部分相关事实就在语义临近区域),PGR 的边际收益会不会被它的额外开销抵消? - **扩展方式的可靠性。** 预期步骤的生成质量完全依赖于 LLM 的能力。如果 LLM 本身对用户真实意图的理解就有偏差——这在复杂、模糊的查询中很常见——那么生成的预期步骤可能会把检索引向完全错误的方向。 不过这些都是需要在实践中解决的问题,而不是理论上的根本缺陷。PGR 的方向是对的——它揭示了"检索"这个问题长期被忽视的一个维度:**回忆的效率不只取决于你记得多少,还取决于你想的方式。** --- **论文信息** - 标题:Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models - 作者:Harshita Chopra, Krishna Kant Chintalapudi, Suman Nath, Ryen W. White, Chirag Shah(微软研究院) - 预印本:arXiv:2605.14177 (cs.IR) - 提交日期:2026 年 5 月 13 日 - 核心贡献:提出 Prospection-Guided Retrieval(PGR),利用 Tree-of-Thought 生成未来预期步骤作为检索探针,将长期对话助手的记忆召回率提升近 3 倍 - 论文链接:https://arxiv.org/abs/2605.14177 **参考文献** 1. Chopra, H., et al. (2026). Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models. arXiv:2605.14177. 2. Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. *NeurIPS 2020*. 3. Yao, S., et al. (2024). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. *NeurIPS 2024*. 4. Schacter, D. L., & Addis, D. R. (2007). The cognitive neuroscience of constructive memory. 5. Zhong, W., et al. (2024). MemoryBank: Enhancing Large Language Models with Long-Term Memory. *AAAI 2024*. #Prospection #RAG #Memory #LongTermMemory #LLM #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录