# 当AI终于不再健忘:Supermemory如何用一群"小助手"攻克记忆难题
> 想象你有一个朋友,每次见面都要重新自我介绍。昨天聊过的电影,今天他完全没印象;你告诉过他的忌口,点餐时他照样推荐。这不是他不重视你——是他真的记不住。
>
> 这就是今天大多数AI的窘境。
---
## 一、AI的"金鱼记忆"困境
当ChatGPT第一次惊艳世界时,人们很快发现了一个尴尬的事实:每次开启新对话,它都会"失忆"。你昨天告诉它的名字、偏好、经历,今天全部归零。
这不是设计缺陷,而是技术架构的先天限制。
大语言模型(LLM)本质上是**无状态的处理器**——它们接收一段文本,生成下一段文本,然后……然后就什么都没有了。没有记忆的痕迹,没有学习的积累,每一次都是重新开始。
为了解决这个问题,工程师们发明了**RAG**(检索增强生成)技术:把对话历史切块、向量化,存进向量数据库。当用户提问时,系统计算问题与存储内容的"语义相似度",把最相关的几个文本块捞出来塞给模型。
听起来不错?问题是——**向量相似度是个很模糊的概念**。
它能找到语义上"像"的东西,但很难处理时间先后、信息更新、事实覆盖这类需要精确逻辑判断的问题。比如:
- 用户先说"我下周三去上海",后来说"哦不对,改成周四了"
- 向量检索很可能把两条信息都捞出来,让AI自己去猜
- 结果呢?混乱、矛盾、答非所问
更棘手的是**长期记忆**的挑战。当对话历史累积到几十万token,当信息分散在几十个会话中,当事实随时间不断被更新——传统的向量检索方法就像是在大海里捞针,而且捞上来的还可能是生锈的废铁。
---
## 二、LongMemEval:AI记忆的"高考"
要理解Supermemory的突破性,我们得先看看它们参加的是什么考试。
**LongMemEval**是目前AI记忆领域最难的基准测试,没有之一。它包含:
- **11.5万个token的对话历史**(相当于一本中篇小说的长度)
- **分散在多个会话中的零碎事件**
- **互相矛盾的信息**(用户改变了主意、更新了事实)
- **需要时间推理的复杂问题**("那次会议是在我搬家前还是搬家后?")
这个测试模拟的是真实世界的混乱:人类不会把所有相关信息一次性说完,也不会永远保持一致。我们会改变主意、会忘记细节、会在不同场合提到同一件事的不同侧面。
在LongMemEval上,能上80%就算顶尖,绝大多数系统连及格都够呛。
而Supermemory的新系统**ASMR**,交出的答卷是——**99%**。
---
## 三、ASMR:不用向量数据库的记忆革命
ASMR的全称是**Agentic Search and Memory Retrieval**(智能体搜索与记忆检索)。它的核心理念可以用一句话概括:
> **与其让AI去"匹配"相似度,不如让它去"理解"信息。**
这是一个根本性的范式转变。
### 3.1 传统RAG vs ASMR:两个世界的差异
**传统RAG的思路:**
1. 把文本切块
2. 用Embedding模型生成向量
3. 存进向量数据库
4. 查询时做向量相似度搜索
5. 把最相似的文本块塞给AI
这就像是在图书馆里,你根据书名和简介的"相似程度"来找书。问题是,相似不等于相关,相关不等于正确,正确不等于最新。
**ASMR的思路:**
1. 用多个专门的AI"阅读"原始对话
2. 提取结构化的知识点(谁、什么、什么时候、在哪里、为什么)
3. 存储时保留原始文本和提取的记忆
4. 查询时派出多个"搜索特工"主动推理
5. 它们不是在"匹配向量",而是在"阅读和理解"
这就像是请了一群专业的研究助理,他们不仅读过所有的书,还能根据你的问题主动去找资料、交叉验证、排除矛盾信息。
### 3.2 多智能体协作:一个记忆工厂的流水线
ASMR的核心架构可以概括为**"3+3+多"**的智能体流水线:
#### 第一层:3个Observer Agent(观察者)
当新的对话进来时,三个并行的Observer Agent同时开始工作:
- **Extractor**:提取显式的事实("我喜欢咖啡"、"我在Google工作")
- **Profiler**:构建用户画像(偏好、习惯、性格特征)
- **Chronologist**:梳理时间线(事件发生的先后顺序)
它们基于Gemini 2.0 Flash运行,从六个维度提取结构化信息:
1. 个人信息(姓名、身份、关系)
2. 偏好(喜欢什么、讨厌什么)
3. 事件(发生了什么)
4. 时间数据(什么时候发生的)
5. 地点(在哪里)
6. 隐含的语境(言外之意)
关键是:**它们存储的是结构化的知识点,而不是向量嵌入**。
#### 第二层:3个Search Agent(搜索特工)
当用户提出问题时,ASMR不会查询向量数据库,而是派出三个专门的搜索Agent:
- **Fact Finder**:找直接相关的事实
- **Context Miner**:挖掘隐含的语境和关联
- **Timeline Reconstructor**:重建事件的时间顺序
这些Agent是在**主动阅读和推理**,不是在做向量余弦计算。它们会:
- 判断哪些信息是最新的(处理信息更新)
- 识别矛盾并决定采信哪一个(处理冲突)
- 推断时间先后关系(处理时序推理)
#### 第三层:多变体并行推理
ASMR测试了两种回答策略:
**策略一:8个专家并行**
- 精确计数专家(处理数量问题)
- 时间专家(处理时间问题)
- 上下文深挖专家(处理隐含信息)
- ……共8个专业化的prompt变体
- 只要任何一条推理路径答对,就算成功
- **准确率:98.6%**
**策略二:12个Agent投票**
- 12个独立的Agent分别作答
- 由GPT-4o-mini作为"聚合器"综合投票
- 考虑领域信任度、答案一致性等因素
- **准确率:97.2%**
---
## 四、技术创新点:为什么ASMR能赢
### 4.1 放弃向量数据库
这可能是ASMR最反直觉的设计选择。向量数据库几乎是现代RAG系统的标配,为什么要放弃?
因为**向量相似度无法捕捉语义上的精确关系**。
举个例子:
- 用户说:"我最喜欢的颜色是蓝色"
- 一个月后说:"我最喜欢的颜色改成绿色了"
- 向量数据库会存储这两句话,它们都与"最喜欢的颜色"高度相似
- 当被问到"用户最喜欢的颜色是什么"时,向量检索会把两句话都捞出来
- AI看到矛盾的信息,不知道该选哪个
ASMR的做法是:Observer Agent在摄取时会识别这是**信息更新**,建立版本历史。当Fact Finder搜索时,它会知道应该取最新版本。
### 4.2 双层时间戳
ASMR为每个记忆标记了两个时间:
- **documentDate**:这段对话发生在什么时候
- **eventDate**:对话中描述的事件发生在什么时候
这解决了时序推理的难题。比如:
- "我下周要去上海"(documentDate: 2024-01-01, eventDate: 2024-01-08)
- "我去上海出差见到了张总"(documentDate: 2024-01-10, eventDate: 2024-01-08)
Timeline Reconstructor可以通过对比eventDate来推断:"出差"发生在"计划"之后,两者是同一事件的前后关系。
### 4.3 关系版本控制
ASMR定义了三种记忆之间的关系:
- **updates(状态变更)**:处理矛盾或更正("我最喜欢的颜色现在是绿色"更新"蓝色")
- **extends(补充)**:补充现有信息(在已有"在Google工作"的基础上添加"职位是工程师")
- **derives(推断)**:从多个事实中推断出的新信息(从"在Google工作"+"住在新加坡"推断"在Google新加坡办公室工作")
这创建了一个**动态演化的知识图谱**,而不是静态的文本集合。
### 4.4 纯内存运行
ASMR完全在内存中运行,不需要外部向量数据库。这意味着:
- **极低的延迟**:单次API调用约50毫秒生成用户画像
- **可嵌入性**:可以塞进各种系统,甚至是机器人硬件
- **简单性**:不需要管理embedding模型、向量索引、分块策略
---
## 五、LongMemEval上的表现:数字背后的故事
让我们看看ASMR在LongMemEval各分类上的表现:
| 类别 | 说明 | ASMR表现 |
|-----|------|---------|
| Single-Session User | 单个会话中用户提到的信息 | **近乎完美** |
| Single-Session Assistant | 单个会话中AI说过的话 | **近乎完美** |
| Single-Session Preference | 用户的隐含偏好 | **显著提升** |
| Knowledge Update | 信息被更新后的准确召回 | **显著优势** |
| Temporal Reasoning | 时间顺序推理 | **76.69%**(历史难题) |
| Multi-Session | 跨多个会话的信息整合 | **71.43%**(历史难题) |
**Temporal Reasoning**和**Multi-Session**历来是向量数据库方法的最弱项,因为:
- 向量相似度无法表示"之前"和"之后"的关系
- 跨会话的信息往往没有明显的语义关联
ASMR通过显式的时间线管理和主动推理,在这些历史难题上取得了突破性进展。
---
## 六、意义与影响:AI记忆的新纪元?
Supermemory团队在发布ASMR时说了一句大胆的话:
> **"Agent memory might be completely solved now."**
> (智能体的记忆问题可能已经完全解决了。)
这话听起来狂妄,但背后有底气。
### 6.1 对AI Agent生态的影响
目前全球有数十亿AI Agent在运行,它们大多面临同一个问题:**无法建立长期、个性化的用户关系**。
想象一个AI助手:
- 它记得你三个月前提过的过敏源
- 它知道你上上周说过这周要忙一个项目
- 它理解"那场会议"指的是哪一场,即使你们聊了几十场会议
- 它知道你的偏好会随时间改变,并且知道最新的版本
这就是ASMR承诺的未来。**有记忆的AI**将从 novelty(新奇事物)变成 utility(实用工具)。
### 6.2 方法论启示:从"数学相似"到"语义理解"
ASMR的核心启示在于:**有时候,更聪明的算法胜过更复杂的索引**。
过去几年,向量数据库和embedding模型是RAG的标准答案。大家都在优化索引结构、压缩向量、改进相似度算法。
Supermemory走了一条不同的路:**与其让索引更聪明,不如让搜索者更聪明**。
用多个专门化的AI Agent去做主动推理,可能比用数学方法近似语义相似度更有效。
这可能预示着一个更广泛的范式转变:**从"检索系统"到"理解系统"**。
### 6.3 开源的承诺
Supermemory承诺在4月初开源ASMR的全部代码。如果这个系统真的如他们所言有效,这将是AI记忆领域的"大航海时代"——任何人都可以在自己的项目中集成高质量的长期记忆能力。
---
## 七、局限与思考
当然,我们也需要冷静地看待ASMR:
### 7.1 成本问题
ASMR用多个Agent并行工作,每个查询都涉及多次LLM调用。这比单次向量检索贵得多。虽然Supermemory声称已经做了成本优化,但规模化后的经济模型还需要验证。
### 7.2 实验性质
Supermemory明确表示,ASMR是一个**高度实验性的智能体流程**,尚未应用到他们的主要生产级引擎中。这意味着99%的成绩是在理想条件下取得的,实际生产环境中的表现还需要观察。
### 7.3 通用性
LongMemEval虽然是很难的基准测试,但它毕竟还是人工构造的。真实世界的记忆场景可能更加混乱、更加长尾。ASMR能否在各种垂直领域(医疗、法律、金融)都保持高准确率,还有待验证。
### 7.4 与向量数据库的关系
ASMR并不意味着向量数据库的终结。在很多场景下(海量文档检索、相似内容推荐),向量相似度仍然是最有效的方法。ASMR解决的是**需要深度理解和推理的记忆场景**,这是一个特定但关键的问题域。
---
## 八、结语:记忆,是智能的基石
人类之所以成为人类,很大程度上是因为我们能记住。
我们记得昨天发生的事,记得一年前读过的书,记得童年时母亲的笑容。这些记忆构成了我们的身份、塑造了我们的决策、定义了我们与他人的关系。
AI要真正成为智能伙伴,记忆是必不可少的一环。它不能只活在当下,它需要**过去**来理解现在,也需要**历史**来预测未来。
Supermemory的ASMR系统,可能是向这个目标迈出的重要一步。99%的准确率不仅仅是一个数字,它代表了一种可能性:**AI真的可以记住,真的可以理解,真的可以陪伴**。
当然,路还很长。但就在今天,我们可以看到,那个"每次见面都要重新自我介绍"的时代,可能真的要结束了。
---
## 参考链接
- Supermemory官方研究报告:https://supermemory.ai/research/
- LongMemEval论文:https://arxiv.org/abs/2410.10813
- Supermemory GitHub:https://github.com/supermemoryai/supermemory
- Dhravya Shah博客:https://supermemory.ai/blog/
---
*"记忆是灵魂的蜡,每一次经历都在上面留下印记。"*
*AI终于有了记忆,那么,它会梦见电子羊吗?*
#记忆 #科普 #AI #长期记忆 #Supermemory #ASMR #多智能体 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!