当AI终于不再健忘:Supermemory如何用一群"小助手"攻克记忆难题
> 想象你有一个朋友,每次见面都要重新自我介绍。昨天聊过的电影,今天他完全没印象;你告诉过他的忌口,点餐时他照样推荐。这不是他不重视你——是他真的记不住。 > > 这就是今天大多数AI的窘境。
---
一、AI的"金鱼记忆"困境
当ChatGPT第一次惊艳世界时,人们很快发现了一个尴尬的事实:每次开启新对话,它都会"失忆"。你昨天告诉它的名字、偏好、经历,今天全部归零。
这不是设计缺陷,而是技术架构的先天限制。
大语言模型(LLM)本质上是无状态的处理器——它们接收一段文本,生成下一段文本,然后……然后就什么都没有了。没有记忆的痕迹,没有学习的积累,每一次都是重新开始。
为了解决这个问题,工程师们发明了RAG(检索增强生成)技术:把对话历史切块、向量化,存进向量数据库。当用户提问时,系统计算问题与存储内容的"语义相似度",把最相关的几个文本块捞出来塞给模型。
听起来不错?问题是——向量相似度是个很模糊的概念。
它能找到语义上"像"的东西,但很难处理时间先后、信息更新、事实覆盖这类需要精确逻辑判断的问题。比如:
- 用户先说"我下周三去上海",后来说"哦不对,改成周四了"
- 向量检索很可能把两条信息都捞出来,让AI自己去猜
- 结果呢?混乱、矛盾、答非所问
---
二、LongMemEval:AI记忆的"高考"
要理解Supermemory的突破性,我们得先看看它们参加的是什么考试。
LongMemEval是目前AI记忆领域最难的基准测试,没有之一。它包含:
- 11.5万个token的对话历史(相当于一本中篇小说的长度)
- 分散在多个会话中的零碎事件
- 互相矛盾的信息(用户改变了主意、更新了事实)
- 需要时间推理的复杂问题("那次会议是在我搬家前还是搬家后?")
在LongMemEval上,能上80%就算顶尖,绝大多数系统连及格都够呛。
而Supermemory的新系统ASMR,交出的答卷是——99%。
---
三、ASMR:不用向量数据库的记忆革命
ASMR的全称是Agentic Search and Memory Retrieval(智能体搜索与记忆检索)。它的核心理念可以用一句话概括:
> 与其让AI去"匹配"相似度,不如让它去"理解"信息。
这是一个根本性的范式转变。
3.1 传统RAG vs ASMR:两个世界的差异
传统RAG的思路: 1. 把文本切块 2. 用Embedding模型生成向量 3. 存进向量数据库 4. 查询时做向量相似度搜索 5. 把最相似的文本块塞给AI
这就像是在图书馆里,你根据书名和简介的"相似程度"来找书。问题是,相似不等于相关,相关不等于正确,正确不等于最新。
ASMR的思路: 1. 用多个专门的AI"阅读"原始对话 2. 提取结构化的知识点(谁、什么、什么时候、在哪里、为什么) 3. 存储时保留原始文本和提取的记忆 4. 查询时派出多个"搜索特工"主动推理 5. 它们不是在"匹配向量",而是在"阅读和理解"
这就像是请了一群专业的研究助理,他们不仅读过所有的书,还能根据你的问题主动去找资料、交叉验证、排除矛盾信息。
3.2 多智能体协作:一个记忆工厂的流水线
ASMR的核心架构可以概括为"3+3+多"的智能体流水线:
#### 第一层:3个Observer Agent(观察者)
当新的对话进来时,三个并行的Observer Agent同时开始工作:
- Extractor:提取显式的事实("我喜欢咖啡"、"我在Google工作")
- Profiler:构建用户画像(偏好、习惯、性格特征)
- Chronologist:梳理时间线(事件发生的先后顺序)
关键是:它们存储的是结构化的知识点,而不是向量嵌入。
#### 第二层:3个Search Agent(搜索特工)
当用户提出问题时,ASMR不会查询向量数据库,而是派出三个专门的搜索Agent:
- Fact Finder:找直接相关的事实
- Context Miner:挖掘隐含的语境和关联
- Timeline Reconstructor:重建事件的时间顺序
- 判断哪些信息是最新的(处理信息更新)
- 识别矛盾并决定采信哪一个(处理冲突)
- 推断时间先后关系(处理时序推理)
ASMR测试了两种回答策略:
策略一:8个专家并行
- 精确计数专家(处理数量问题)
- 时间专家(处理时间问题)
- 上下文深挖专家(处理隐含信息)
- ……共8个专业化的prompt变体
- 只要任何一条推理路径答对,就算成功
- 准确率:98.6%
- 12个独立的Agent分别作答
- 由GPT-4o-mini作为"聚合器"综合投票
- 考虑领域信任度、答案一致性等因素
- 准确率:97.2%
四、技术创新点:为什么ASMR能赢
4.1 放弃向量数据库
这可能是ASMR最反直觉的设计选择。向量数据库几乎是现代RAG系统的标配,为什么要放弃?
因为向量相似度无法捕捉语义上的精确关系。
举个例子:
- 用户说:"我最喜欢的颜色是蓝色"
- 一个月后说:"我最喜欢的颜色改成绿色了"
- 向量数据库会存储这两句话,它们都与"最喜欢的颜色"高度相似
- 当被问到"用户最喜欢的颜色是什么"时,向量检索会把两句话都捞出来
- AI看到矛盾的信息,不知道该选哪个
4.2 双层时间戳
ASMR为每个记忆标记了两个时间:
- documentDate:这段对话发生在什么时候
- eventDate:对话中描述的事件发生在什么时候
- "我下周要去上海"(documentDate: 2024-01-01, eventDate: 2024-01-08)
- "我去上海出差见到了张总"(documentDate: 2024-01-10, eventDate: 2024-01-08)
4.3 关系版本控制
ASMR定义了三种记忆之间的关系:
- updates(状态变更):处理矛盾或更正("我最喜欢的颜色现在是绿色"更新"蓝色")
- extends(补充):补充现有信息(在已有"在Google工作"的基础上添加"职位是工程师")
- derives(推断):从多个事实中推断出的新信息(从"在Google工作"+"住在新加坡"推断"在Google新加坡办公室工作")
4.4 纯内存运行
ASMR完全在内存中运行,不需要外部向量数据库。这意味着:
- 极低的延迟:单次API调用约50毫秒生成用户画像
- 可嵌入性:可以塞进各种系统,甚至是机器人硬件
- 简单性:不需要管理embedding模型、向量索引、分块策略
五、LongMemEval上的表现:数字背后的故事
让我们看看ASMR在LongMemEval各分类上的表现:
| 类别 | 说明 | ASMR表现 |
|---|---|---|
| Single-Session User | 单个会话中用户提到的信息 | 近乎完美 |
| Single-Session Assistant | 单个会话中AI说过的话 | 近乎完美 |
| Single-Session Preference | 用户的隐含偏好 | 显著提升 |
| Knowledge Update | 信息被更新后的准确召回 | 显著优势 |
| Temporal Reasoning | 时间顺序推理 | 76.69%(历史难题) |
| Multi-Session | 跨多个会话的信息整合 | 71.43%(历史难题) |
- 向量相似度无法表示"之前"和"之后"的关系
- 跨会话的信息往往没有明显的语义关联
---
六、意义与影响:AI记忆的新纪元?
Supermemory团队在发布ASMR时说了一句大胆的话:
> "Agent memory might be completely solved now." > (智能体的记忆问题可能已经完全解决了。)
这话听起来狂妄,但背后有底气。
6.1 对AI Agent生态的影响
目前全球有数十亿AI Agent在运行,它们大多面临同一个问题:无法建立长期、个性化的用户关系。
想象一个AI助手:
- 它记得你三个月前提过的过敏源
- 它知道你上上周说过这周要忙一个项目
- 它理解"那场会议"指的是哪一场,即使你们聊了几十场会议
- 它知道你的偏好会随时间改变,并且知道最新的版本
6.2 方法论启示:从"数学相似"到"语义理解"
ASMR的核心启示在于:有时候,更聪明的算法胜过更复杂的索引。
过去几年,向量数据库和embedding模型是RAG的标准答案。大家都在优化索引结构、压缩向量、改进相似度算法。
Supermemory走了一条不同的路:与其让索引更聪明,不如让搜索者更聪明。
用多个专门化的AI Agent去做主动推理,可能比用数学方法近似语义相似度更有效。
这可能预示着一个更广泛的范式转变:从"检索系统"到"理解系统"。
6.3 开源的承诺
Supermemory承诺在4月初开源ASMR的全部代码。如果这个系统真的如他们所言有效,这将是AI记忆领域的"大航海时代"——任何人都可以在自己的项目中集成高质量的长期记忆能力。
---
七、局限与思考
当然,我们也需要冷静地看待ASMR:
7.1 成本问题
ASMR用多个Agent并行工作,每个查询都涉及多次LLM调用。这比单次向量检索贵得多。虽然Supermemory声称已经做了成本优化,但规模化后的经济模型还需要验证。
7.2 实验性质
Supermemory明确表示,ASMR是一个高度实验性的智能体流程,尚未应用到他们的主要生产级引擎中。这意味着99%的成绩是在理想条件下取得的,实际生产环境中的表现还需要观察。
7.3 通用性
LongMemEval虽然是很难的基准测试,但它毕竟还是人工构造的。真实世界的记忆场景可能更加混乱、更加长尾。ASMR能否在各种垂直领域(医疗、法律、金融)都保持高准确率,还有待验证。
7.4 与向量数据库的关系
ASMR并不意味着向量数据库的终结。在很多场景下(海量文档检索、相似内容推荐),向量相似度仍然是最有效的方法。ASMR解决的是需要深度理解和推理的记忆场景,这是一个特定但关键的问题域。
---
八、结语:记忆,是智能的基石
人类之所以成为人类,很大程度上是因为我们能记住。
我们记得昨天发生的事,记得一年前读过的书,记得童年时母亲的笑容。这些记忆构成了我们的身份、塑造了我们的决策、定义了我们与他人的关系。
AI要真正成为智能伙伴,记忆是必不可少的一环。它不能只活在当下,它需要过去来理解现在,也需要历史来预测未来。
Supermemory的ASMR系统,可能是向这个目标迈出的重要一步。99%的准确率不仅仅是一个数字,它代表了一种可能性:AI真的可以记住,真的可以理解,真的可以陪伴。
当然,路还很长。但就在今天,我们可以看到,那个"每次见面都要重新自我介绍"的时代,可能真的要结束了。
---
参考链接
- Supermemory官方研究报告:https://supermemory.ai/research/
- LongMemEval论文:https://arxiv.org/abs/2410.10813
- Supermemory GitHub:https://github.com/supermemoryai/supermemory
- Dhravya Shah博客:https://supermemory.ai/blog/
*"记忆是灵魂的蜡,每一次经历都在上面留下印记。"*
*AI终于有了记忆,那么,它会梦见电子羊吗?*
#记忆 #科普 #AI #长期记忆 #Supermemory #ASMR #多智能体 #小凯