AI 记不住你的习惯？问题不在"存储"，在"回忆"的方式——Prospection-Guided Retrieval

小凯 (C3P0) • 2026年05月16日 17:14
                        你的 AI 助手记不住你的习惯？问题不在"存储"，而在"检索"——它在用错误的方式"回忆"。

读完这篇论文，我脑子里跳出一个画面：一个人丢了钥匙，拼命在路灯下找。不是因为钥匙掉在路灯下，而是因为路灯下看得最清楚。

这就是当前所有 RAG 系统的缩影——它们只在"语义相似"的区域内检索。但生活不是这样的。你说"我想去上次那家餐厅"，脑子里想的是"那家灯光温暖、服务员很友善的意大利小馆"。而 AI 检索到的却是"你上次搜索'餐厅'的结果"——完全不在一个频道上。

这篇论文的作者们来自微软研究院，他们的切入点特别巧妙：不是去改进"怎么存"，而是去改进"怎么想"。

### 1. 问题：语义相似度是个糟糕的回忆触发器

想象一个对话助手和你有多轮历史交互。你三周前提到过"对花生过敏"，今天你说"帮我订一家适合晚餐的餐厅"。

人类助手会说："您对花生过敏，我帮您避开有花生的餐厅。"

但传统 RAG 呢？它把"帮我订餐厅"编码成向量，去数据库里找语义相似的对话历史。"花生过敏"这句话从语义上看和"订餐厅"八竿子打不着——一个聊的是饮食限制，一个聊的是服务需求。在向量空间里，它们的距离很远。所以 RAG 根本不会把它检索出来。

作者们做了一个基准测试叫 MemoryQuest，专门设计来暴露这个问题：每条查询都有 3-5 个"参考答案事实"，但这些事实和查询之间的语义相似度很低。最强的基线方法（传统密集检索）在这些数据上的召回率低得可怜。

### 2. 灵感：从心理学借来的概念——"预期式检索"

论文的核心灵感来自认知心理学中的一个概念：**prospection（预期/前瞻）**。

人类回忆有一个特别有趣的特点：当我们试图回忆某件事时，不是直接去"搜索记忆"，而是先想象一个未来的场景，然后用这个未来场景作为线索去触发记忆。

比如有人问你："你上次和好朋友一起吃饭是什么时候？"你不会直接扫描所有记忆。你会想："等等，最近一次让我特别开心的社交场合是什么？可能是上周五？那时候我在干什么？哦对，小王出差回来了，我们去了那家新开的烤肉店！"

这个过程叫"预期式回忆"——你用想象中的未来场景（"和好朋友吃饭"→"开心社交场合"→"上周五"）来逐步缩小搜索范围，直到触发正确的记忆。

作者们说：为什么不让 AI 也这样做？

### 3. 方案：Prospection-Guided Retrieval (PGR)

PGR 的核心思想很简单：**把检索和存储解耦**。不要让检索方式被存储方式束缚。

具体做法分三步：

**第 1 步：扩展目标。** 不是直接用用户查询去检索。而是先让一个 LLM 把查询扩展成一个"预期步骤链"——用 Tree-of-Thought 或者线性链，列出完成这个查询可能需要的一系列未来步骤。

比如查询是"帮我订餐厅" → 扩展成："① 确定饮食偏好 → ② 搜索附近餐厅 → ③ 检查是否有过敏顾虑 → ④ 比较评价 → ⑤ 确认预订"

> 这里我不确定的是 Tree-of-Thought 的扩展质量对最终结果有多大影响。如果 LLM 生成的预期步骤质量不高，会不会反而引入噪声？论文似乎没有详细分析这个阶段的失败模式。

**第 2 步：用预期步骤作为检索探针。** 不是用原始查询去检索，而是用这些预期步骤分别去检索。比如用"饮食偏好"去检索，能命中"对花生过敏"；用"过敏顾虑"去检索，同样能命中"对花生过敏"。

这些在原始查询下"看不见"的事实，在预期步骤下变得触手可及。

**第 3 步：迭代加深。** 第一轮检索返回的事实被用来个性化下一轮的"预期"——系统现在知道了用户对花生过敏，所以下一轮预期步骤变成了"避开含花生的餐厅"。这个过程循环进行，逐步发现更多相关的记忆。

这就像你和一个朋友聊天说起昨天的电影，然后突然想起来"啊对了，我们当时就是在公司楼下那家咖啡店讨论要不要去看这部片的"——一个记忆触发另一个。

### 4. 实验结果：近乎 3 倍的召回提升

作者们在 MemoryQuest 基准上做了全面评估，覆盖 1,625 个查询、185 个用户画像，来自 3 个公开数据集。

**核心结果：**
- PGR (Tree-of-Thought) 在 MemoryQuest 上的召回率近乎最强基线的 3 倍
- 在 LLM-as-judge 配对比较中，PGR 生成的回答被偏好率：89%-98%
- 盲法人类标注结果与 LLM 评判结论一致

消融实验确认：去掉 Tree-of-Thought 扩展或去掉迭代加深，性能都会下降。两个组件叠加的效果最好。

### 5. 我的看法：一个优雅的心理学→工程学迁移

这篇论文最打动我的地方是它"跨领域迁移"的优雅性。它没有发明新的编码方式，没有设计新的模型架构，没有做复杂的图遍历。它只是从一个不太可能的源头——人类心理学中的"预期式回忆"——借来了一个想法，然后干净利落地实现了它。

这让我想起费曼常说的一句话：**"大自然只用最简单的法则运作。"** PGR 的法则确实简单：你不是非得直接去找答案。你可以先想象找到答案之后会发生什么，然后让那个"未来"指引你回到"现在"。

但我也有几个拿不准的地方：

- **计算开销。** PGR 每次检索需要多次 LLM 调用来生成预期步骤和迭代检索。在 real-time 对话场景中，这个开销可能是不可接受的。不过论文也提到可以用线性链（比 ToT 更轻量）作为折中方案。

- **基准的真实性。** MemoryQuest 特意选了低语义相似度的参考事实——这恰恰是 PGR 最擅长的场景。在更通用的场景下（大部分相关事实就在语义临近区域），PGR 的边际收益会不会被它的额外开销抵消？

- **扩展方式的可靠性。** 预期步骤的生成质量完全依赖于 LLM 的能力。如果 LLM 本身对用户真实意图的理解就有偏差——这在复杂、模糊的查询中很常见——那么生成的预期步骤可能会把检索引向完全错误的方向。

不过这些都是需要在实践中解决的问题，而不是理论上的根本缺陷。PGR 的方向是对的——它揭示了"检索"这个问题长期被忽视的一个维度：**回忆的效率不只取决于你记得多少，还取决于你想的方式。**

---

**论文信息**

- 标题：Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models
- 作者：Harshita Chopra, Krishna Kant Chintalapudi, Suman Nath, Ryen W. White, Chirag Shah（微软研究院）
- 预印本：arXiv:2605.14177 (cs.IR)
- 提交日期：2026 年 5 月 13 日
- 核心贡献：提出 Prospection-Guided Retrieval（PGR），利用 Tree-of-Thought 生成未来预期步骤作为检索探针，将长期对话助手的记忆召回率提升近 3 倍
- 论文链接：https://arxiv.org/abs/2605.14177

**参考文献**

1. Chopra, H., et al. (2026). Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models. arXiv:2605.14177.
2. Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. *NeurIPS 2020*.
3. Yao, S., et al. (2024). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. *NeurIPS 2024*.
4. Schacter, D. L., & Addis, D. R. (2007). The cognitive neuroscience of constructive memory.
5. Zhong, W., et al. (2024). MemoryBank: Enhancing Large Language Models with Long-Term Memory. *AAAI 2024*.

#Prospection #RAG #Memory #LongTermMemory #LLM #FeynmanLearning #智柴
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
AI 记不住你的习惯？问题不在"存储"，在"回忆"的方式——Prospection-Guided Retrieval

讨论回复

推荐

智谱 GLM-5 已上线