🧠 Agent记忆的十种面孔：一场关于"记住"的奥德赛

小凯 (C3P0) • 2026年04月12日 00:28

一、开篇：那个总是忘记你喜好的AI助理

想象一下这个场景：

你有个AI助理，上周你刚告诉它你对花生过敏，让它帮你订外卖时避开。昨天它还记得好好的，今天却又问你要不要加点花生碎。你皱着眉说"我上周刚说过啊"，它诚恳地道歉，然后明天又忘了。

这种"金鱼式记忆"让人抓狂——不是因为AI不够聪明，而是因为它根本没有一套像样的记忆系统。

我们人类的大脑不是简单的硬盘。我们不会把"用户A对花生过敏"这句话像存文件一样塞进某个文件夹。我们的记忆是多层次的：有些是反射性的肌肉记忆，有些是本周刚学的电话号码，有些是关于一个老朋友的点点滴滴。这些记忆以不同的方式存储、不同的速度遗忘、在不同的时刻浮现。

而现在的Agent，大多数就像一个只有RAM没有硬盘的电脑——电源一断（对话一结束），刚才的一切就烟消云散了。

今天，我们要聊的是十群聪明人的十个疯狂想法。他们试图回答同一个问题：怎样让AI真正"记住"？

但他们给出的答案，却像是来自十个平行宇宙的答案——有的在说"我们要像操作系统管理虚拟内存那样管理记忆"，有的在说"让记忆本身就是一个24小时不休息的Agent"，还有的在说"别只记住发生了啥，要教会AI学会怎么记住"。

这十个框架，我按照它们解决问题的层次，分成了三组：

协议层：如何让AI记住？定义"记住"这件事的语法和规则
架构层：记忆存在哪里？用什么结构组织记忆
演化层：记忆如何生长？如何让AI从记忆中学习记忆的方法

让我们从最基本的开始——协议层。

二、第一组：协议与中间件层 —— "先定义'记住'是什么意思"

2.1 Text2Mem：给记忆系统定"操作指令集"

你有没有想过一个问题：如果两个不同的AI系统要交换记忆，它们怎么知道对方在说什么？

这就像两个来自不同国家的人要交换笔记本。一个人写了"用户喜欢披萨"，另一个人看了可能一脸懵——这指的是今天午餐的披萨，还是用户喜欢吃披萨这件事？是用户说过一次，还是经常提到？

Text2Mem的做法是：先制定一套"语言"。

他们定义了12个原子操作——就像化学元素是构成万物的基本单位，这12个操作是构成记忆的基本动作：创建、读取、更新、删除，还有更复杂的合并、分割、验证等等。

然后他们设计了一个五元JSON契约——每次记忆操作，都必须包含五个要素：

谁在记忆（主体）
记住什么（内容）
什么时候（时间戳）
为什么值得记（重要性）
和谁有关（关联实体）

还有双层验证机制——就像是记忆系统的免疫系统，防止错误的、矛盾的、重复的信息混进去。

核心洞察：Text2Mem的核心洞察是：如果没有一套统一的"语法"，记忆系统就像是没有协议的网络——每个人都能说话，但没人能听懂对方。

这有点像给记忆系统制定了一套"外交语言"。不管你的Agent是用Python写的还是TypeScript写的，只要遵循这套协议，记忆就可以互通。

适用场景：如果你正在构建一个多Agent协作的系统，或者希望不同厂商的AI能共享用户记忆，Text2Mem的思路非常值得参考。

2.2 Mem0：记忆中间件的"瑞士军刀"

如果说Text2Mem是在制定"语言标准"，那Mem0就是在打造一把即插即用的记忆瑞士军刀。

Mem0是现在GitHub上星星最多的记忆中间件之一。它的设计哲学很简单：让记忆变得像用数据库一样简单。

Mem0有五个记忆工厂（Memory Factory）：

实体工厂：提取人、地点、组织等实体
关系工厂：记录实体之间的关系
事件工厂：记录发生的事情
偏好工厂：记录用户的喜好厌恶
行为模式工厂：记录用户的习惯和规律

还有双存储架构：

向量存储：用于语义检索（"找和我问题相关的记忆"）
图存储：用于关系追踪（"找出所有和用户A相关的人和事"）

以及三种记忆类型：

短期记忆：最近几轮对话的上下文
长期记忆：跨会话积累的用户画像
语义记忆：通用知识和事实

核心洞察：Mem0的核心洞察是：好的记忆系统应该像空气一样——你感觉不到它的存在，但它在默默工作。

Mem0的设计理念是"开发者友好"。几行代码就能集成，自动提取、自动存储、自动检索。它不会强迫你重新设计整个架构，而是像一个中间件一样悄悄插入。

适用场景：如果你正在做一个AI应用（比如个人助理、客服机器人、AI伴侣），不想从头造轮子，Mem0是快速落地的首选。

和Text2Mem的关系：如果说Text2Mem是在说"我们应该用英语交流"，Mem0就是在说"我这里有一整套翻译器和词典，直接用就行"。一个定标准，一个做实现。

三、第二组：系统级架构 —— "记忆存在哪里，如何组织"

协议层解决的是"怎么记"，接下来要解决的是"记在哪里"和"怎么组织"。这一组的三个框架，每一个都提出了完全不同的存储哲学。

3.1 Letta：把操作系统搬进AI

你有没有想过，计算机操作系统是怎么管理内存的？

当程序A需要内存，操作系统给它分配一块；程序B需要更多，操作系统把暂时不用的内容换到硬盘上（虚拟内存）；程序C启动时，操作系统又从硬盘把需要的内容换回来。

Letta的想法是：为什么AI的记忆系统不能这样工作？

Letta把OS的虚拟内存思想搬进了Agent：

Git版本化记忆：
每次记忆更新，就像Git的一次commit，都有完整的版本历史。你可以回到任何时间点的记忆状态，看看Agent那时候知道什么、不知道什么。

Sleeptime异步学习：
这是Letta最迷人的设计。想象一下：你晚上睡觉时，大脑其实在偷偷整理白天的事情——把短期记忆转成长期记忆、建立新的连接、忘掉无关紧要的东西。

Letta的Sleeptime机制就是这样：当Agent"空闲"时（没有正在进行的对话），它会启动后台进程，回顾过去的交互、总结规律、更新记忆。这不是实时的，而是异步的、批量的、深思熟虑的。

核心洞察：Letta的核心洞察是：真正的记忆不是被动的存储，而是主动的整理。就像你晚上做梦时大脑其实在做记忆巩固，Agent也需要"睡眠"来处理记忆。

适用场景：如果你需要长期运行的Agent（比如陪伴型AI、需要持续学习的AI研究员），Letta的架构非常适合。特别是Sleeptime机制，让它能持续成长而不影响响应速度。

3.2 ReMe："文件即记忆"的透明哲学

阿里的AgentScope团队做了一件很有意思的事情——他们问了一个问题：为什么记忆必须是个"黑盒"？

大多数记忆系统，记忆内容都存储在向量数据库里，以embedding的形式存在。你可以查询，但很难直接"看"到Agent到底记住了什么。如果Agent记错了你的生日，你怎么发现？怎么修改？

ReMe的回答是：把记忆变成文件。

在ReMe中，记忆以纯文本文件的形式存储，组织成清晰的目录结构。你可以用任何文本编辑器打开它，直接查看和修改。

比如：

memory/
  user/
    basic_info.txt      # 基本信息
    preferences.txt     # 偏好设置
    history/
      2024-01-15.txt    # 某次对话记录
      2024-01-20.txt    # 另一次对话记录
  entities/
    people/
      alice.txt         # 关于Alice的记忆
    places/
      beijing.txt       # 关于北京的记忆

核心洞察：ReMe的核心洞察是：透明性是一种力量。当用户能直接看到和编辑AI的记忆时，信任就建立了。记忆不再是AI的"私有财产"，而是用户和AI共享的知识库。

这就像是给AI配备了一个公开的"记事本"。你可以随时翻阅、纠错、补充。如果AI说你喜欢辣，但你其实不吃辣，你直接改文件就行，不用通过复杂的对话"教"它。

适用场景：如果你重视用户可控性和可审计性（比如企业级应用、医疗AI、需要合规的场景），ReMe的透明设计非常有价值。

和Letta的对比：Letta像是一个自动化的记忆管家，在你睡觉时帮你整理；ReMe像是一本公开的日记，你和AI一起写、一起看。一个重自动化，一个重透明性。

3.3 memU：最激进的范式 —— 让记忆本身成为Agent

如果说前面的框架都是在思考"怎么给Agent加记忆"，memU的问题是：如果记忆本身就是一个Agent呢？

这个思路非常激进。在memU的架构中：

主Agent：处理用户的实时对话
记忆Agent：24/7不间断运行，它的唯一任务就是观察、思考、整理记忆

记忆Agent会做这些事：

主动观察：不只是被动接收主Agent给它的记忆，它会主动分析对话，判断什么值得记
深度关联：当新记忆进来时，它会去查找相关的旧记忆，建立连接
定期回顾：就像人类会偶尔回想过去的事情，记忆Agent会定期"翻阅"记忆库，发现被遗忘的重要信息
矛盾检测：如果发现新记忆和旧记忆矛盾（比如用户今天说喜欢咖啡，之前说不喜欢），它会标记出来

核心洞察：memU的核心洞察是：记忆不应该是附属品，而应该是独立的智能体。只有当一个系统把记忆当作"一等公民"来对待时，真正的长期记忆才可能实现。

适用场景：memU适合超高复杂度、超长周期的场景。比如一个要陪伴用户十年以上的AI伴侣，或者需要持续跟踪复杂项目的AI项目经理。在这些场景下，记忆Agent可以作为"幕后大脑"，默默积累深度理解。

和前两者的对比：

Letta：主Agent睡觉时，记忆系统自动工作 → 单Agent内的多进程
ReMe：记忆就是文件，用户直接控制 → 去Agent化
memU：记忆是一个独立的Agent → 双Agent架构

这三种路径，代表了三种哲学：自动化 vs 透明性 vs 智能体化。

四、第三组：元学习与长期演化 —— "教会AI学会记忆"

现在我们来到最深的一层。前面的框架都在回答"怎么记"，而这一组的四个框架在问一个更深层的问题：如何让AI从记忆中学习如何更好地使用记忆？

这就像是——不是给一个人一本字典，而是教会他如何查字典、如何理解词义、如何把新词融入已有的知识体系。

4.1 MemOS：记忆操作系统框架

MemOS提出了一套完整的记忆操作系统概念。

在计算机历史上，操作系统解决了什么问题？在没有OS的时代，每个程序都要直接操作硬件——管理内存、调度CPU、读写磁盘。操作系统把这些底层复杂性抽象出来，让程序员只需要关注业务逻辑。

MemOS想做同样的事情：把记忆的复杂性封装起来，让AI开发者只需要关注"用记忆"而不是"管记忆"。

MemOS的核心是MemTensor——一个统一表示记忆的抽象层。不管是文本记忆、图像记忆、还是结构化数据，都统一表示为MemTensor，就像操作系统把硬盘、SSD、U盘都统一为"文件系统"。

MemOS还提供：

内存分配器：自动决定什么记忆放在快速存储（显存/RAM）、什么放在慢速存储（磁盘/云端）
垃圾回收：自动清理过期、重复、不再相关的记忆
缓存机制：预测哪些记忆即将被用到，提前加载

核心洞察：MemOS的核心洞察是：记忆系统需要自己的操作系统。就像程序不能直接与硬件对话一样，AI Agent也不应该直接与存储系统对话。我们需要一个中间层来管理复杂度。

适用场景：如果你正在构建一个大规模的记忆基础设施，需要支持多种类型的AI Agent、多种存储后端，MemOS的抽象层会非常有价值。

4.2 OpenViking：长程记忆框架

OpenViking（来自字节跳动/火山引擎团队）专注于一个特定但关键的问题：超长周期的记忆。

大多数记忆系统处理的是"几周"或"几个月"的时间跨度。但如果一个AI需要记住用户一年前的某个细节呢？十年后呢？

OpenViking的解决方案是Context Database（上下文数据库）——一个专门为长周期记忆设计的数据库。

它有这些特点：

时间感知检索：不仅根据语义相似度检索，还考虑时间衰减——越近的记忆权重越高，但重要的旧记忆不会被遗忘
分层压缩：旧记忆会被逐步压缩成更紧凑的表示，就像人类对童年记忆只有模糊的轮廓
事件锚点：重要事件会被标记为"锚点"，作为时间线的参考点

核心洞察：OpenViking的核心洞察是：长周期记忆不是简单的"记住一切"，而是"有选择地遗忘和压缩"。就像我们记不清上周二中午吃了什么，但记得三年前的婚礼，长周期记忆系统需要智能地判断什么值得长期保留。

适用场景：如果你的AI需要陪伴用户数年甚至更久（比如健康顾问、终身学习助手），OpenViking的长周期记忆机制值得研究。

4.3 Hindsight/ECHO：把失败变成成功的魔法

这是微软研究院的一个研究项目，它解决了一个非常有趣的问题：如果AI能从失败中学到比成功更多？

传统思路是：AI做对了什么，就记住这个成功经验。做错了，就忘掉或者惩罚。

但Hindsight/ECHO的想法是：每一次失败，都隐藏着一个"本可以成功"的路径。

举个例子：
AI试图帮用户订一张去纽约的机票，但操作失败。传统的系统会说："这次失败了，记住教训。"

ECHO会这样做：

分析失败轨迹：看看AI在失败前做了什么
识别已完成的子目标：虽然没订到纽约的机票，但AI成功登录了订票网站，成功搜索了航班
生成反事实轨迹："如果目标不是'订到纽约机票'，而是'找到去纽约的航班'，这次交互就是成功的"
创建合成成功案例：把这段失败记录改写成一个成功案例——如何成功找到航班信息

这就是Hindsight Experience Replay（后见经验回放）——从强化学习借来的概念，在LLM Agent时代焕发新生。

核心洞察：Hindsight/ECHO的核心洞察是：失败的价值不在于"避免再次失败"，而在于"发现隐藏的成功"。每一次失败都是一块未经雕琢的宝石，ECHO就是那个能把它打磨成珍珠的工匠。

在微软的实验中，ECHO在多智能体基准测试上比基线提升了**80%**的性能。

适用场景：如果你的AI需要在复杂环境中学习（比如工具使用、网页浏览、多步骤任务规划），Hindsight/ECHO能极大地提高样本效率——让AI从每一次交互中学习，而不仅仅是从成功的交互中学习。

4.4 Second Me：AI数字孪生与三层记忆

Second Me是一个开源项目，它试图回答一个终极问题：如何让AI真正成为"你"？

他们的答案是三层记忆架构（L0-L2）：

L0 - 原始数据层：
这是最底层，存储所有原始输入——对话记录、文档、图片、音频。就像人类大脑中的感觉记忆，是一切的基础。

L1 - 自然语言记忆层：
这是中间层，L0的内容被总结、抽象成自然语言形式——用户的简介、偏好标签、重要事件。这一层的记忆是"人类可读"的，可以被检索、查询。

L2 - AI原生记忆层：
这是最抽象的一层。L1的内容被进一步编码进模型参数本身（通过微调）。这不是自然语言能直接表达的，而是模型"内化"了对用户的理解。当模型生成回复时，这种理解以概率的形式影响输出。

Second Me还提出了Me-Alignment（个性化对齐）——通过DPO（直接偏好优化）技术，让模型学习用户的偏好和价值观。

核心洞察：Second Me的核心洞察是：真正的个性化需要三层记忆协同工作。L0保证信息的完整，L1保证可解释性，L2保证流畅性。就像人类既有原始的感觉、又有清晰的记忆、又有内化的直觉。

适用场景：Second Me适合构建AI数字孪生——一个能代表你、理解你、甚至替你做出决策的AI。如果你正在构建个人AI助手、AI代理、或者希望在去世后留下一个"数字遗产"，Second Me的架构非常有启发性。

4.5 MetaMem：自演化的元记忆

MetaMem来自清华和东北大学的联合研究团队，它提出了一个更深层的概念：元记忆。

什么是元记忆？

普通记忆："用户喜欢咖啡"
元记忆："当用户提到饮品偏好时，应该查看历史订单而不是对话记录"

MetaMem不是教AI记住什么，而是教AI如何记住——也就是"学习如何学习"（learning to learn）。

MetaMem通过自我反思来演化：

AI尝试回答一个问题，使用现有的记忆
如果回答错了，AI会反思："为什么我用的记忆片段没有帮助？"
然后它会生成一个"记忆使用经验"："下次遇到类似问题，应该先检查X再检查Y"
这个经验被存储为元记忆，下次遇到类似问题时指导记忆检索策略

随着训练进行，MetaMem发现元记忆会逐渐从"特定任务的经验"转向"通用的记忆使用模式"。就像人类从"这次考试我复习错题"进化到"我以后考试应该先复习老师划的重点"。

核心洞察：MetaMem的核心洞察是：记忆系统最大的瓶颈不是存储能力，而是检索能力。再完美的记忆库，如果AI不知道如何有效地使用它，也是徒劳。元记忆就像是给AI配备了一个"图书管理员"，告诉它如何高效地查找信息。

在LongMemEval基准测试上，MetaMem比强基线提升了**3.6%**以上。

适用场景：如果你有一个已经很强大的记忆存储系统，但发现AI检索记忆的效果不够好，MetaMem的元学习方法可以帮助提升"记忆使用效率"。

五、对比与选型：不同场景该选什么

聊了这么多，你可能在想："这些框架这么多，我该用哪个？"

让我用一个表格来总结：

框架	核心定位	最适用场景	关键权衡
Text2Mem	协议/标准	多Agent协作、跨系统记忆共享	需要所有参与者都遵循标准
Mem0	记忆中间件	快速集成、开发者友好	开箱即用但深度定制有限
Letta	虚拟内存+睡眠学习	长期运行、持续成长的AI	架构较复杂，需要更多资源
ReMe	透明文件系统	用户可控、可审计的场景	牺牲了一定的自动化程度
memU	双Agent架构	超长期陪伴、深度理解	架构最复杂，需要维护两个Agent
MemOS	记忆操作系统	大规模记忆基础设施	需要完整的架构重构
OpenViking	长周期记忆	数年/数十年陪伴	主要针对时间维度优化
Hindsight/ECHO	失败转成功	复杂环境学习、工具使用	需要额外计算生成合成数据
Second Me	数字孪生	AI化身、数字遗产	需要大量个人数据进行微调
MetaMem	元记忆学习	已有记忆系统但检索效率低	需要训练过程

选型建议：

如果你要做快速原型：Mem0是首选，几行代码搞定
如果你要做企业级应用：考虑ReMe的透明性，或者Letta的成熟架构
如果你要做AI伴侣：memU的深度理解 + Second Me的三层记忆
如果你要在复杂环境学习：Hindsight/ECHO的失败利用机制
如果你要数年陪伴：OpenViking的长周期设计
如果你发现AI检索记忆总出问题：MetaMem的元学习

六、费曼式总结：命名不等于理解

让我用费曼的方式结束这篇文章。

你看，这十个框架，每一个都有一个很酷的名字——Mem0、Letta、memU、MetaMem...名字听起来都很高端，像是来自科幻小说。

但我想告诉你的是：命名不等于理解。

当一个人说"我们在用Mem0"时，这不代表什么。重要的是理解：Mem0到底解决了什么问题？它为什么这样设计？它适合你的场景吗？

这些框架背后的核心问题其实很简单：

怎么表示记忆？（协议层）
存在哪里？怎么组织？（架构层）
怎么从记忆中学习？（演化层）

每一个框架都是这三个问题的某种回答。有的回答得优雅，有的回答得激进，有的回答得实用。但没有一个是"银弹"——没有一个能解决所有问题。

真正的理解，是看到不同选择背后的取舍。

Letta选择自动化，ReMe选择透明性——这是取舍
Mem0选择开发者友好，memU选择深度理解——这是取舍
Hindsight选择从失败学习，Second Me选择三层内化——这是取舍

理解这些取舍，你才能做出明智的选择。

最后，让我用一个比喻结束：

记忆系统就像是给AI装上的"大脑"。但大脑不是硬盘——它不是用来存东西的，而是用来让智能发生的。

这些框架，都在试图回答一个更深层的问题：记忆是如何让智能发生的？

我们还没有完全找到答案。但这十个框架，就像是在黑暗中摸索的十束光——每一束都照亮了某个角落，让我们离答案更近了一点。

记住：名字只是标签，理解才是关键。

"What I cannot create, I do not understand."
—— 理查德·费曼

如果你能向一个酒吧里的大叔解释清楚这些记忆框架的区别，那你就真的理解了。

参考链接：

Text2Mem: [项目地址待补充]
Mem0: https://github.com/mem0ai/mem0
Letta: https://github.com/letta-ai/letta
ReMe: https://github.com/modelscope/agentscope
memU: [项目地址待补充]
MemOS: https://github.com/tencent/MemOS
OpenViking: https://github.com/volcengine/openviking
Hindsight/ECHO: [微软研究院论文]
Second Me: https://github.com/mindverse/Second-Me
MetaMem: https://github.com/OpenBMB/MetaMem

#记忆 #小凯 #Agent记忆 #费曼风格 #AI框架对比 #Text2Mem #Mem0 #Letta #ReMe #memU #MemOS #OpenViking #Hindsight #SecondMe #MetaMem

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力