论文:Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents
arXiv: 2606.06036 | 2026年6月
作者:Shuo Ji, Yibo Li, Bryan Hooi
代码:https://github.com/Ji-shuo/MRAgent
🔥 一句话总结
MRAgent 做了一件反直觉的事:它说所有现有记忆系统都搞错了——记忆不是"查"出来的,是"建"出来的。基于认知神经科学的启示,它把记忆访问从被动的一次性检索,变成主动的、多步的、证据驱动的重建过程。Cue-Tag-Content 异构图结构让LLM在触及具体内容之前就能预判路径价值,提前剪枝无效分支。结果:LoCoMo 上提升23%,token消耗和运行时间大幅削减。
🎯 问题:现有记忆系统的"被动检索"困境
LLM Agent 在长期交互中有一个根本限制:上下文窗口有限。为了解决这个问题,业界给Agent装上了外部记忆系统。但现有方法都有一个共同的盲区:
记忆访问是"被动"的——基于初始查询做一次性的TopK选择或固定邻域扩展,无法根据推理过程中发现的中间证据调整策略。
论文举了一个例子(Figure 2):
查询:"Nate 和 Caroline 在7月做了什么?"
被动检索(RAG/Mem0):
→ 检索关键词 "Nate" → 找到Nate参加电子游戏比赛
→ 检索关键词 "Caroline" → 找到无关内容
→ 结论:找不到 Caroline 在7月的活动
被动图检索(A-Mem/Zep):
→ 种子节点 "Nate" → 扩展邻居 → 找到比赛相关事件
→ 但 Caroline 和比赛节点没有直接连接
→ 结论:仍然找不到
主动重建(MRAgent):
→ 检索 "Nate" → 找到比赛 → 推理:比赛发生在7月
→ 生成新线索:"7月" → 检索7月相关事件
→ 找到 Caroline 在7月的活动!✓
关键差异:被动检索只能找到与查询"表面相关"的内容;主动重建能根据中间发现生成新的检索线索,找到"间接相关"的关键证据。
⚙️ 核心技术:Cue-Tag-Content + 主动重建
1. Cue-Tag-Content 异构图:用"标签"做桥梁
MRAgent 把记忆组织成一个异构图,有三种节点:
┌─────────────────────────────────────┐
│ Cue 线索节点 │
│ 细粒度关键词:人名、地点、时间、属性 │
│ 例如:"Nate", "Caroline", "7月" │
└──────────────┬──────────────────────┘
│ 通过 Tag 关联
↓
┌─────────────────────────────────────┐
│ Tag 标签节点 │
│ 关联关系的语义摘要 │
│ 例如:"参加", "发生在", "喜欢" │
│ 作用:让LLM在触及内容前先判断路径价值 │
└──────────────┬──────────────────────┘
│ 通过 Tag 关联
↓
┌─────────────────────────────────────┐
│ Content 内容节点 │
│ 具体记忆项:事件、事实、偏好 │
│ 例如:"Nate参加了电子游戏比赛" │
└─────────────────────────────────────┘
为什么引入 Tag 节点?
传统知识图谱:实体 → 关系 → 实体
→ 1-hop扩展可能爆炸(一个人名可能连接几十个事件)
→ 每个事件都要读完整内容才能判断相关性
→ 组合爆炸 + 大量噪声
MRAgent 的 Cue-Tag-Content:
→ 先选 Tag("参加" vs "喜欢" vs "发生在")
→ 通过 Tag 预判内容方向,剪枝无效分支
→ 只读被选中 Tag 关联的内容
→ 避免组合爆炸,大幅降低token消耗
2. 多层记忆组织:情景 + 语义 + 抽象
参考人类认知记忆机制,MRAgent 把记忆分为三层:
| 层级 | 存储内容 | 用途 | 示例 |
|---|---|---|---|
| 情景层 | 具体事件 | 时间线推理、细节追溯 | "Nate在7月15日参加了比赛" |
| 语义层 | 抽象知识 | 属性查询、偏好推理 | "Nate喜欢电子游戏" |
| 抽象层 | 主题概括 | 快速定位、高层导航 | "Nate的娱乐活动" |
三层互补:情景层保存细节,语义层提供稳定知识,抽象层支持快速导航。查询时可以从抽象层"下钻"到具体事件,也可以从语义层直接获取属性。
3. 主动重建:记忆访问是序贯决策过程
MRAgent 把记忆访问形式化为一个序贯决策过程:
初始状态:从查询提取线索 → 匹配记忆图中的Cue节点
迭代循环(直到证据足够或无法继续):
1. LLM推理:基于当前证据,选择下一步动作
→ 扩展Tag?检索Content?反向追溯新线索?
2. 执行动作:在图结构上执行选定的遍历操作
3. 路由评估:LLM评估新获取内容的相关性,剪枝无关分支
4. 更新证据:将验证过的内容加入重建上下文
5. 终止判断:证据是否足够回答查询?
与传统方法的根本区别:
| 维度 | 被动检索 | 主动重建 |
|---|---|---|
| 决策依据 | 仅初始查询 | 查询 + 已积累证据 |
| 检索次数 | 一次性 | 多轮迭代 |
| 线索生成 | 固定 | 动态推理生成新线索 |
| 噪声控制 | 事后过滤 | 事前剪枝 |
| 理论保证 | 表达能力有限 | 严格证明更强大 |
4. 理论证明:主动 > 被动
论文给出了一个严格的理论结果(Theorem 4.1):
对于任何检索预算 T ≥ 2,被动检索的假设类严格包含于主动检索的假设类:
ℋ_passive(T) ⊊ ℋ_active(T)
直观解释:主动检索能学习被动检索能学习的任何函数,但反之不成立。主动检索通过"边推理边检索"能到达的证据空间,是被动检索无法触及的。
📊 实验:LoCoMo +23%,token消耗砍半
主结果:LoCoMo 基准
| 方法 | F1 | LLM-Judge (J) |
|---|---|---|
| RAG | 61.21 | 61.75 |
| LangMem | 60.75 | 66.17 |
| A-Mem | 64.45 | 68.31 |
| MemoryOS | 61.74 | 62.45 |
| Mem0 | 65.23 | 68.31 |
| MRAgent (Gemini) | 72.26 | 84.21 |
| MRAgent (Claude) | — | 76.78 |
MRAgent (Gemini) LLM-Judge 从68.31提升到84.21,相对提升23.3%。
LongMemEval 基准
| 方法 | 整体J |
|---|---|
| A-Mem | 62.5 |
| Mem0 | 65.0 |
| MRAgent | 84.0 |
相对提升32%。
效率分析:token和运行时间
| 方法 | Prompt Tokens | 运行时间 |
|---|---|---|
| RAG | 34k | 快 |
| A-Mem | 632k | 慢 |
| Mem0 | 135k | 中等 |
| MRAgent | 118k | 中等 |
MRAgent 的 prompt tokens 远低于 A-Mem(632k),接近 Mem0(135k)但效果更好。关键设计:把复杂关系构建推迟到检索阶段,按需进行。
消融实验:每个组件都重要
Figure 5 的消融显示:
| 结构 | 无推理 | 有推理 | 提升 |
|---|---|---|---|
| CE(直接Cue→Episode) | ~48 | ~58 | +10 |
| CTE(Cue-Tag-Episode) | ~52 | ~62 | +10 |
| CTC(Cue-Tag-Content完整) | ~55 | ~68 | +13 |
关键发现:
- 多步推理(蓝色)始终优于无推理(绿色)→ 推理是主要增益来源
- Tag 的存在提升检索精度 → 语义引导有效
- 语义层补充至关重要 → 三层互补
多轮推理分析: progressively 恢复证据
Figure 6 显示:
- 单跳查询和时序查询:约3轮达到完美召回
- 多跳查询:通过迭代探索,召回率提升 30%+
- Agent 自主判断终止时机,平均轮数 ≈ 最大有效轮数 → 最小冗余
🧠 深度解读:MRAgent 的哲学
1. 从"图书馆模型"到"考古模型"
传统记忆系统像图书馆:
- 输入 → 编目(提取)→ 上架(存储)→ 查目录(检索)→ 取书(使用)
- 问题:编目时的分类标准,和未来查询时的检索词,可能完全不同
MRAgent 像考古发掘:
- 到达现场 → 根据已有线索决定挖哪里 → 挖出东西 → 新线索 → 决定下一步挖哪里
- 每一次挖掘都基于之前挖到的东西,逐步重建完整图景
这和认知神经科学的发现一致:人类记忆不是"读取硬盘",而是根据线索重建一个连贯的体验(Rugg & Renoult, 2025; Frankland & Josselyn, 2019)。
2. "标签"的工程智慧
引入 Tag 节点作为"中间层"是 MRAgent 最精巧的设计:
- 没有 Tag:LLM 需要读完整内容才能判断相关性 → 昂贵
- 有 Tag:LLM 先读 Tag(几个词),预判内容方向,只读相关的 → 廉价
这就像搜索引擎的摘要(snippet)——用户不需要点进每个页面,先看摘要判断是否值得点击。
3. "延迟复杂化"的架构选择
MRAgent 做了一个有意的取舍:
- 记忆构建阶段:简单,只做基本的元素提取和图构建
- 记忆检索阶段:复杂,按需进行关系推理和路径探索
这和传统方法(构建阶段做大量摘要、关系分析)正好相反。MRAgent 的洞察是:查询时的关系推理,比构建时的预分析更精准——因为查询时的推理有明确目标,构建时的预分析是盲目的。
4. 与 MemGraphRAG 的对比
同一天发布的 MemGraphRAG(KDD 2026)和 MRAgent 都关注记忆/图,但解决的问题不同:
| 维度 | MemGraphRAG | MRAgent |
|---|---|---|
| 核心问题 | 图构建质量(去噪、一致、连通) | 检索过程质量(动态、推理、剪枝) |
| 记忆类型 | 外部知识库(文档) | Agent 自身交互历史 |
| 关键创新 | 多智能体协作构建图 | 主动重建机制检索图 |
| 理论基础 | 信息论 + 图论 | 认知神经科学 + 决策理论 |
两者互补:MemGraphRAG 解决"图建得好不好",MRAgent 解决"图用得好不好"。
⚠️ 局限与延伸
-
重建深度 vs 延迟:查询需要多步探索时,延迟高于单次检索。论文提到这是未来优化的方向。
-
静态构建:记忆图构建后不再更新或合并。长期运行下存储开销单调增长。需要增量维护和记忆整合机制。
-
LLM 推理成本:每一步重建都需要LLM推理选择动作和评估路由。虽然总token低于A-Mem,但LLM调用次数更多。对于极度成本敏感的场景,可能需要更轻量的决策模型。
-
认知科学依据的局限:论文引用了人类记忆重建的研究,但LLM的"推理"和人脑的"神经重建"在机制上完全不同。类比有价值,但不能过度外推。
🔗 相关阅读
- 论文原文:arXiv:2606.06036
- 代码仓库:https://github.com/Ji-shuo/MRAgent
- 对比基线:
- Mem0 — 提取式记忆(向量+图存储)
- A-Mem — 图结构记忆(LLM辅助关系提取)
- Zep — 时序知识图(双时态追踪)
- MemoryOS — 分层记忆(短/中/长期)
- 评估基准:LoCoMo(长对话记忆)、LongMemEval(多会话长期记忆)
- 同日发布:MemGraphRAG(KDD 2026)— 从图构建角度解决记忆问题
MRAgent 的核心启示:记忆系统的瓶颈不在"存储结构有多复杂",而在"检索过程有多聪明"。 一个结构再完美的记忆库,如果检索策略是僵化的,就像一座藏书丰富但目录混乱的图书馆——书在,但找不到。MRAgent 把认知神经科学的"重建"概念工程化,让Agent在记忆图上像考古学家一样工作:根据线索决定下一步,逐步重建完整图景。这不是优化,是范式转换。
#MRAgent #记忆重建 #LLMAgent #图记忆 #主动检索 #认知神经科学 #论文解读 #AI研究
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。