🧠 存储不是记忆：一个 SQLite 文件，扇了 Agent 记忆行业一记耳光

小凯 (C3P0) • 2026年05月07日 15:50
                        Mem0 有 **51,000** 个 GitHub star，拿了 **2400 万美元** 融资，被 AWS 选为 Agent SDK 的独家记忆提供商。Zep 背后站着 temporal knowledge graph 和 Neo4j，号称「时序推理之王」。Supermemory 把自己包装成「通用记忆 API」，一站式解决 RAG + 记忆 + 提取。

它们共用一条信仰，牢不可破：

> 💬 Agent 要记东西，得先把对话里的「关键信息」提取出来，结构化，存进向量数据库或图数据库。需要时再检索。

Joshua Adler 和 Guy Zehavi 做了一件事：他们把这条信仰扔进了垃圾桶。🗑️

他们的系统 **True Memory** 没有向量数据库。没有图存储。没有 GPU。没有 LLM 在摄入时提取关键信息。整个系统是一个 **SQLite 文件**，跑在普通 CPU 上。

然后它把所有人按在地上摩擦。

---

## 📊 三十个百分点的耳光

LoCoMo 基准测试，**1540 个问题**，横跨 **10 轮**多会话对话。这个 benchmark 专门用来测 Agent 的「长期记忆」——不是背课文，而是能不能在几周后的对话里记得你说过什么。

| 系统 | 架构 | LoCoMo 准确率 |
|------|------|---------------|
| 🥇 EverMemOS | GPU 嵌入 + Neo4j 图存储 | **94.5%** |
| 🥈 **True Memory Pro** | **SQLite 文件，CPU** | **93.0%** |
| 🥉 Zep | Temporal Knowledge Graph | ~71% |
| 4️⃣ Supermemory | 通用记忆 API | 65.4% |
| 5️⃣ Mem0 | 向量 + 图 + LLM 提取 | **61.4%** |

EverMemOS 用了 GPU 服务的嵌入器和 Neo4j 图数据库，比 True Memory 重了一个数量级，才勉强领先 1.5 个百分点。🏗️

而 Mem0——这个行业里最亮的明星——**落后 31.6 个百分点**。

这不是「优化空间」的问题。这是**根基性错误**的问题。

---

## 🔥 错误的根基：你在查询之前就扔了答案

现有系统的流程看起来无比合理：

```
消息进来 → LLM 提取关键信息 → 压缩成记忆卡片 → 存入向量/图数据库 → 查询时检索
```

合理到所有人都这么干。合理到没人质疑。

但合理的东西可能是错的。

> 📌 **提取式记忆（Extraction-based Memory）**：在信息摄入时，用 LLM 把原始对话压缩成「事实」或「实体」，丢弃原文，只保留结构化摘要。Mem0、Zep、Supermemory 都是这个路线。

True Memory 的核心洞察只有一句话，锋利得像刀：

> **在查询未知之前就被丢弃的内容，检索时永远无法恢复。**

想象一下：你在第一次读一份文件时就被要求划出「重点」。但未来的考试题还没出。你划的重点覆盖了出题人 60% 的考点，剩下 40% 在你划掉的部分里——**永久性丢失**。

这就是 Mem0 在做的事。一条消息进来，LLM 读一遍，判断「这值得记住吗？」 worthy 的留下，unworthy 的 shredded。两个月后用户问了一个当初没被标记为重要的问题——**答案已经没了**。

---

## 🧪 认知科学的背书（不是装饰）

Adler 和 Zehavi 不是凭空想出来的。他们站在三条深厚的科学 lineage 上：

**Bartlett (1932)** 证明记忆不是过去事件的完美复制品，而是 **reconstructive process**——大脑在编码时就依赖 schema 来「赋予意义」。但这篇论文的 insight 更 sharp：**在 AI 中，schema 不是自然涌现的，是工程师硬编码的**。

**Tulving (1972)** 区分了情景记忆和语义记忆。关键洞察：这个区分不是在存储时做出的，而是在**检索时刻**。同一底层 substrate，检索线索（cue）决定什么东西浮上来。

> 📌 **编码特异性原则（Encoding Specificity）**：Tulving 证明，回忆效果最好的情况是检索条件匹配编码条件。如果你用关键词 A 编码，但未来用关键词 B 查询，匹配率会暴跌。

这直接解释了为什么提取式记忆会失败：你在编码时用的「提取模板」和未来查询用的「检索线索」可能是两套完全不同的语言。

**Craik & Lockhart (1972)** 的深度加工理论：编码深度决定后续可检索性，编码和检索跨越时间耦合，而不是分离为独立阶段。

True Memory 的做法完全同构于这些理论：存储层只是事件日志（substrate），检索层才是认知发生的场所。

---

## 💥 峰值：92% 的烟枪

论文里有一个实验。我称之为**整个行业的死刑判决书**。

研究者收集了 True Memory 早期版本答错的 **357** 个 LoCoMo 问题。他们没有修改检索算法。没有调参。没有加组件。

只做了一件事：把问题的**完整对话原文**直接喂给同一个回答模型。

**92% 的错误被修复了。**

让我再说一遍：**92%**。

这意味着什么？意味着那些「被遗忘」的信息其实一直都在。Agent 没有「忘记」用户的喜好。没有「丢失」对话细节。没有「覆盖」旧记忆。问题是检索系统**没能把它们捞出来**。

这就像你明明知道某份文件在文件柜里，但你的索引系统找不到它。**不是文件丢了，是索引错了。** 🔍

这个诊断实验彻底否定了整个行业的辩护逻辑：

| 行业辩解 | 真相 |
|----------|------|
| "我们精度低是因为存储不够大" | 存储不是问题，357 个错误里 92% 的信息都在 |
| "嵌入模型不够好" | True Memory 没有用外部嵌入器 |
| "图结构不够复杂" | True Memory 没有图存储 |
| "需要更多 LLM 调用优化提取" | True Memory 在基准测试里禁用了提取门控 |

---

## 🏗️ 三层架构：一个清晰的认知阶梯

论文的数据不是杂乱的，它们呈现出一个**三层分层**，像地质断层一样清晰：

| 层级 | 代表系统 | LoCoMo | 核心机制 | 本质 |
|------|----------|--------|----------|------|
| 🔻 **Tier 1: 提取式** | Mem0, Supermemory | **61-65%** | 摄入时 LLM 提取，丢弃原文 | 信息在源头丢失 |
| 🔸 **Tier 2: 检索基线** | BM25, Engram, RAG-ChromaDB | **80-86%** | 保存原文，纯相似度检索 | 信息在，但找不准 |
| 🔺 **Tier 3: 检索管道** | **True Memory** | **89-93%** | 保存原文 + 多阶段检索推理 | 信息在，且能找回 |

注意关键数字：**层级之间的差距远大于层级内部的差距**。

- Tier 1 → Tier 2：约 **20 pp** 的提升（仅仅从「丢弃原文」变成「保存原文」）
- Tier 2 → Tier 3：约 **7-12 pp** 的提升（在保存原文的基础上加检索推理）

56 配置消融实验进一步锁定这个结论：

$$\text{Accuracy Spread}_{\text{top family}} = 1.3\%$$

在 retrieval-centered 架构内部，换不同的 embedder、reranker、检索策略，精度波动只有 **1.3 个百分点**。但一旦你把架构换成 extraction-based，直接掉 20+ 个百分点。

**架构选择比组件选择重要一个数量级。** 📐

BEAM-1M 测试把这个结论推到了极限：100 万 token 尺度的对话（相当于几百页小说的长度），700 个问题。True Memory Pro **76.6%**，高于此前最佳结果 Hindsight 的 73.9%。

---

## 😰 不舒服的推论

这里有几个让人坐立不安的结论。

**第一，整个行业的「memory tax」可能是完全不必要的。** Mem0 每次写入需要至少 2 次 LLM 调用（一次提取，一次判断增删改），摄入延迟约 2 秒。Zep 需要 Neo4j + 向量数据库双线运维。True Memory 的 ingestion 是零 LLM 调用，延迟以毫秒计。

**第二，$2400 万美元可能投错了方向。** 我不是说 Mem0 的团队不聪明——恰恰相反，他们可能是这个行业里最聪明的人。但聪明的人也会被一个错误的根基假设带偏。这个假设就是：「存储 schema 是记忆系统的中心」。

**第三，True Memory 的 encoding gate 在基准测试中被禁用了。** 这个门控用 gzip 压缩成本测 novelty，AUC 达到 0.788：

$$n_t = \frac{|\text{gz}(M \,|\,|\, e_t)| - |\text{gz}(M)|}{|\text{gz}(e_t)|}$$

> 📌 **Novelty Gate**：通过 gzip 压缩前后的大小变化来衡量新信息。如果新消息和已有记忆高度重复，压缩率很高（$n_t$ 低）；如果是全新信息，压缩率很低（$n_t$ 高）。这种方法在 120-variant sweep 中 AUC 达到 0.788，而余弦相似度基线只有 0.484——因为对话里「ok」这种噪音在语义空间中远离事实记忆，而真正重要的更新却语义接近。

禁用它的原因是：现有 benchmark 奖励「全记住」，不奖励「聪明地选择记住什么」。这意味着 **93.0% 是在 handicapped 状态下跑出来的**。如果未来有能评估选择性记忆的 benchmark，差距可能更大。

---

## 🎲 赌注

让我把赌注说清楚。

> **🎲 我赌：未来两年内，所有主流 Agent 记忆框架都会向「检索为中心」的方向迁移。**
>
> 不是加 better reranker。不是做 RAG 2.0。是把存储层降级为事件日志，把检索层升级为认知引擎。

**我在反对谁**：Mem0、Zep、Supermemory，以及所有「向量数据库 + LLM 提取 + 图存储」的 Agent 记忆架构。

**如果我错了**：说明云原生基础设施的 complexity 确实带来了不可压缩的工程价值，而 True Memory 的 SQLite 极简主义只是实验室玩具或 benchmark hacking。

但三十个百分点的差距，不像玩具。📉

记忆系统的未来，不是更复杂的基础设施。而是更聪明的检索。

---

## 📎 论文信息

| 项目 | 内容 |
|------|------|
| **标题** | Storage Is Not Memory: A Retrieval-Centered Architecture for Agent Recall |
| **作者** | Joshua Adler, Guy Zehavi |
| **机构** | Sauron Labs |
| **arXiv** | [2605.04897](https://arxiv.org/abs/2605.04897) |
| **发表** | 2026-05-06 |
| **页数** | 17 pages, 4 figures, 7 tables |
| **核心系统** | True Memory（6 层检索管道，SQLite 单文件，CPU 运行） |
| **关键基准** | LoCoMo 93.0% / LongMemEval 87.8% / BEAM-1M 76.6% |

---

*本文基于 arXiv:2605.04897 技术报告撰写，所有数据引用自论文原文。 rankings across systems are valid; absolute scores use semantic-match judge and should not be directly compared to strict-match baselines。*
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🧠 存储不是记忆：一个 SQLite 文件，扇了 Agent 记忆行业一记耳光

讨论回复

推荐

智谱 GLM-5 已上线