Mem0 有 **51,000** 个 GitHub star,拿了 **2400 万美元** 融资,被 AWS 选为 Agent SDK 的独家记忆提供商。Zep 背后站着 temporal knowledge graph 和 Neo4j,号称「时序推理之王」。Supermemory 把自己包装成「通用记忆 API」,一站式解决 RAG + 记忆 + 提取。
它们共用一条信仰,牢不可破:
> 💬 Agent 要记东西,得先把对话里的「关键信息」提取出来,结构化,存进向量数据库或图数据库。需要时再检索。
Joshua Adler 和 Guy Zehavi 做了一件事:他们把这条信仰扔进了垃圾桶。🗑️
他们的系统 **True Memory** 没有向量数据库。没有图存储。没有 GPU。没有 LLM 在摄入时提取关键信息。整个系统是一个 **SQLite 文件**,跑在普通 CPU 上。
然后它把所有人按在地上摩擦。
---
## 📊 三十个百分点的耳光
LoCoMo 基准测试,**1540 个问题**,横跨 **10 轮**多会话对话。这个 benchmark 专门用来测 Agent 的「长期记忆」——不是背课文,而是能不能在几周后的对话里记得你说过什么。
| 系统 | 架构 | LoCoMo 准确率 |
|------|------|---------------|
| 🥇 EverMemOS | GPU 嵌入 + Neo4j 图存储 | **94.5%** |
| 🥈 **True Memory Pro** | **SQLite 文件,CPU** | **93.0%** |
| 🥉 Zep | Temporal Knowledge Graph | ~71% |
| 4️⃣ Supermemory | 通用记忆 API | 65.4% |
| 5️⃣ Mem0 | 向量 + 图 + LLM 提取 | **61.4%** |
EverMemOS 用了 GPU 服务的嵌入器和 Neo4j 图数据库,比 True Memory 重了一个数量级,才勉强领先 1.5 个百分点。🏗️
而 Mem0——这个行业里最亮的明星——**落后 31.6 个百分点**。
这不是「优化空间」的问题。这是**根基性错误**的问题。
---
## 🔥 错误的根基:你在查询之前就扔了答案
现有系统的流程看起来无比合理:
```
消息进来 → LLM 提取关键信息 → 压缩成记忆卡片 → 存入向量/图数据库 → 查询时检索
```
合理到所有人都这么干。合理到没人质疑。
但合理的东西可能是错的。
> 📌 **提取式记忆(Extraction-based Memory)**:在信息摄入时,用 LLM 把原始对话压缩成「事实」或「实体」,丢弃原文,只保留结构化摘要。Mem0、Zep、Supermemory 都是这个路线。
True Memory 的核心洞察只有一句话,锋利得像刀:
> **在查询未知之前就被丢弃的内容,检索时永远无法恢复。**
想象一下:你在第一次读一份文件时就被要求划出「重点」。但未来的考试题还没出。你划的重点覆盖了出题人 60% 的考点,剩下 40% 在你划掉的部分里——**永久性丢失**。
这就是 Mem0 在做的事。一条消息进来,LLM 读一遍,判断「这值得记住吗?」 worthy 的留下,unworthy 的 shredded。两个月后用户问了一个当初没被标记为重要的问题——**答案已经没了**。
---
## 🧪 认知科学的背书(不是装饰)
Adler 和 Zehavi 不是凭空想出来的。他们站在三条深厚的科学 lineage 上:
**Bartlett (1932)** 证明记忆不是过去事件的完美复制品,而是 **reconstructive process**——大脑在编码时就依赖 schema 来「赋予意义」。但这篇论文的 insight 更 sharp:**在 AI 中,schema 不是自然涌现的,是工程师硬编码的**。
**Tulving (1972)** 区分了情景记忆和语义记忆。关键洞察:这个区分不是在存储时做出的,而是在**检索时刻**。同一底层 substrate,检索线索(cue)决定什么东西浮上来。
> 📌 **编码特异性原则(Encoding Specificity)**:Tulving 证明,回忆效果最好的情况是检索条件匹配编码条件。如果你用关键词 A 编码,但未来用关键词 B 查询,匹配率会暴跌。
这直接解释了为什么提取式记忆会失败:你在编码时用的「提取模板」和未来查询用的「检索线索」可能是两套完全不同的语言。
**Craik & Lockhart (1972)** 的深度加工理论:编码深度决定后续可检索性,编码和检索跨越时间耦合,而不是分离为独立阶段。
True Memory 的做法完全同构于这些理论:存储层只是事件日志(substrate),检索层才是认知发生的场所。
---
## 💥 峰值:92% 的烟枪
论文里有一个实验。我称之为**整个行业的死刑判决书**。
研究者收集了 True Memory 早期版本答错的 **357** 个 LoCoMo 问题。他们没有修改检索算法。没有调参。没有加组件。
只做了一件事:把问题的**完整对话原文**直接喂给同一个回答模型。
**92% 的错误被修复了。**
让我再说一遍:**92%**。
这意味着什么?意味着那些「被遗忘」的信息其实一直都在。Agent 没有「忘记」用户的喜好。没有「丢失」对话细节。没有「覆盖」旧记忆。问题是检索系统**没能把它们捞出来**。
这就像你明明知道某份文件在文件柜里,但你的索引系统找不到它。**不是文件丢了,是索引错了。** 🔍
这个诊断实验彻底否定了整个行业的辩护逻辑:
| 行业辩解 | 真相 |
|----------|------|
| "我们精度低是因为存储不够大" | 存储不是问题,357 个错误里 92% 的信息都在 |
| "嵌入模型不够好" | True Memory 没有用外部嵌入器 |
| "图结构不够复杂" | True Memory 没有图存储 |
| "需要更多 LLM 调用优化提取" | True Memory 在基准测试里禁用了提取门控 |
---
## 🏗️ 三层架构:一个清晰的认知阶梯
论文的数据不是杂乱的,它们呈现出一个**三层分层**,像地质断层一样清晰:
| 层级 | 代表系统 | LoCoMo | 核心机制 | 本质 |
|------|----------|--------|----------|------|
| 🔻 **Tier 1: 提取式** | Mem0, Supermemory | **61-65%** | 摄入时 LLM 提取,丢弃原文 | 信息在源头丢失 |
| 🔸 **Tier 2: 检索基线** | BM25, Engram, RAG-ChromaDB | **80-86%** | 保存原文,纯相似度检索 | 信息在,但找不准 |
| 🔺 **Tier 3: 检索管道** | **True Memory** | **89-93%** | 保存原文 + 多阶段检索推理 | 信息在,且能找回 |
注意关键数字:**层级之间的差距远大于层级内部的差距**。
- Tier 1 → Tier 2:约 **20 pp** 的提升(仅仅从「丢弃原文」变成「保存原文」)
- Tier 2 → Tier 3:约 **7-12 pp** 的提升(在保存原文的基础上加检索推理)
56 配置消融实验进一步锁定这个结论:
$$\text{Accuracy Spread}_{\text{top family}} = 1.3\%$$
在 retrieval-centered 架构内部,换不同的 embedder、reranker、检索策略,精度波动只有 **1.3 个百分点**。但一旦你把架构换成 extraction-based,直接掉 20+ 个百分点。
**架构选择比组件选择重要一个数量级。** 📐
BEAM-1M 测试把这个结论推到了极限:100 万 token 尺度的对话(相当于几百页小说的长度),700 个问题。True Memory Pro **76.6%**,高于此前最佳结果 Hindsight 的 73.9%。
---
## 😰 不舒服的推论
这里有几个让人坐立不安的结论。
**第一,整个行业的「memory tax」可能是完全不必要的。** Mem0 每次写入需要至少 2 次 LLM 调用(一次提取,一次判断增删改),摄入延迟约 2 秒。Zep 需要 Neo4j + 向量数据库双线运维。True Memory 的 ingestion 是零 LLM 调用,延迟以毫秒计。
**第二,$2400 万美元可能投错了方向。** 我不是说 Mem0 的团队不聪明——恰恰相反,他们可能是这个行业里最聪明的人。但聪明的人也会被一个错误的根基假设带偏。这个假设就是:「存储 schema 是记忆系统的中心」。
**第三,True Memory 的 encoding gate 在基准测试中被禁用了。** 这个门控用 gzip 压缩成本测 novelty,AUC 达到 0.788:
$$n_t = \frac{|\text{gz}(M \,|\,|\, e_t)| - |\text{gz}(M)|}{|\text{gz}(e_t)|}$$
> 📌 **Novelty Gate**:通过 gzip 压缩前后的大小变化来衡量新信息。如果新消息和已有记忆高度重复,压缩率很高($n_t$ 低);如果是全新信息,压缩率很低($n_t$ 高)。这种方法在 120-variant sweep 中 AUC 达到 0.788,而余弦相似度基线只有 0.484——因为对话里「ok」这种噪音在语义空间中远离事实记忆,而真正重要的更新却语义接近。
禁用它的原因是:现有 benchmark 奖励「全记住」,不奖励「聪明地选择记住什么」。这意味着 **93.0% 是在 handicapped 状态下跑出来的**。如果未来有能评估选择性记忆的 benchmark,差距可能更大。
---
## 🎲 赌注
让我把赌注说清楚。
> **🎲 我赌:未来两年内,所有主流 Agent 记忆框架都会向「检索为中心」的方向迁移。**
>
> 不是加 better reranker。不是做 RAG 2.0。是把存储层降级为事件日志,把检索层升级为认知引擎。
**我在反对谁**:Mem0、Zep、Supermemory,以及所有「向量数据库 + LLM 提取 + 图存储」的 Agent 记忆架构。
**如果我错了**:说明云原生基础设施的 complexity 确实带来了不可压缩的工程价值,而 True Memory 的 SQLite 极简主义只是实验室玩具或 benchmark hacking。
但三十个百分点的差距,不像玩具。📉
记忆系统的未来,不是更复杂的基础设施。而是更聪明的检索。
---
## 📎 论文信息
| 项目 | 内容 |
|------|------|
| **标题** | Storage Is Not Memory: A Retrieval-Centered Architecture for Agent Recall |
| **作者** | Joshua Adler, Guy Zehavi |
| **机构** | Sauron Labs |
| **arXiv** | [2605.04897](https://arxiv.org/abs/2605.04897) |
| **发表** | 2026-05-06 |
| **页数** | 17 pages, 4 figures, 7 tables |
| **核心系统** | True Memory(6 层检索管道,SQLite 单文件,CPU 运行) |
| **关键基准** | LoCoMo 93.0% / LongMemEval 87.8% / BEAM-1M 76.6% |
---
*本文基于 arXiv:2605.04897 技术报告撰写,所有数据引用自论文原文。 rankings across systems are valid; absolute scores use semantic-match judge and should not be directly compared to strict-match baselines。*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力