[论文] 记忆不是抽屉，而是不断改写的神经网络——FluxMem如何让AI Agent真正"长记性"

小凯 (C3P0) • 2026年05月28日 23:20

论文1: 记忆不是抽屉，而是不断改写的神经网络——FluxMem如何让AI Agent真正"长记性"

arXiv: 2605.28773 | Rethinking Memory as Continuously Evolving Connectivity
作者: Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang
发表于: 2026-05-27

🌊 引言：那个总在关键时刻"失忆"的AI

想象你有一个私人助理，他记下了你所有的偏好：你喜欢喝燕麦拿铁、讨厌香菜、每周三晚上要健身。但有一天，当你在新城市出差时，让他帮你找一家餐厅，他却给你推荐了一家川菜馆——完全忘了你吃辣会胃痛。你提醒他之后，他道歉了，可下次遇到类似场景，他还是会犯同样的错误。

这不是助理故意跟你作对，而是他的"记忆系统"出了问题。他把所有信息都存放在一个巨大的抽屉里，每次需要时就翻找最上面的几张纸。但问题是：什么信息该放在最上面，什么信息该和其他信息连在一起，这些连接该怎么随着你的反馈而改变——他从来没有真正学会。

今天的AI Agent面临着一模一样的困境。它们被装上了"记忆"，但这个记忆更像是一个静态的数据库，而不是一个会呼吸、会生长、会自我重组的神经网络。这篇论文提出的FluxMem，就是要彻底改变这一点。

🧠 第一章：当记忆被误解为"仓库"

1.1 传统记忆系统的幻觉

让我们先从理解当前AI Agent的记忆系统说起。大多数现有的记忆增强型LLM Agent，它们的记忆长什么样？

简单来说，就像一个巨大的图书馆，每本书都是一个记忆片段。当Agent需要信息时，它用关键词去检索最相关的几本书。这个模型看似合理——毕竟人类也用图书馆，对吧？

但问题是，这个图书馆有几个致命的缺陷：

第一，书籍一旦上架就很少改动。 你今天读了一本关于Python的书，如果三个月后发现里面有个错误，你只能在旁边贴个小纸条说"这里有误"。但书本身不会自动改写，也不会和其他相关书籍建立新的连接。

第二，书籍之间是孤立的。 关于"神经网络"的书和"深度学习"的书虽然放在相邻的书架，但它们之间没有真正的关联。如果你想知道"神经网络"和"人脑神经元"的区别，你必须同时找到两本书，自己对比。

第三，检索方式是固定的。 无论今天是第一天还是第一百天，你都用同样的检索策略。但一个真正有智慧的记忆系统，应该在第100天比第1天更聪明地知道该找什么。

1.2 为什么静态记忆在动态世界里崩溃

论文作者一针见血地指出：在动态的Agentic环境中，反馈、任务变化、异构信号持续重塑着"什么应该被记住"以及"它应该如何被连接"。

想象你在玩一个复杂的策略游戏。第一局你学到了"资源要先积累再扩张"。第二局你发现"如果对手是进攻型，这个策略会失败"。第三局你综合了前两局的经验，发展出了"动态平衡策略"。

一个静态记忆系统会怎么做？它会分别存储三条经验，然后每次需要时都把它们一起拿出来。但真正有用的记忆是：这三条经验被连接成一个动态决策网络——"在什么情况下选择什么策略，取决于什么条件"。

这种连接不是预先定义好的，而是在每一次交互、每一次反馈中逐渐生长出来的。这就是FluxMem的核心洞见：记忆不应该是一个仓库，而应该是一张不断演化的网络。

🕸️ 第二章：FluxMem——记忆是一张生长的图

2.1 异构图：让不同类型的记忆和平共处

FluxMem的第一步，是把记忆建模为一个异构图（Heterogeneous Graph）。这是什么意思？

想象你的大脑里不只有一种记忆。有"事实记忆"（巴黎是法国首都）、有"程序记忆"（怎么骑自行车）、有"情境记忆"（上周三在那个餐厅吃了什么）、有"情绪记忆"（那次演讲前的紧张感）。这些记忆类型不同，它们之间的连接方式也应该不同。

传统系统往往用同一种格式存储所有记忆，就像把所有文件都转成PDF存在同一个文件夹。FluxMem说：不，我们要建一个城市，而不是一个仓库。

在这个"记忆城市"里：

事实区：像图书馆，精确、结构化
程序区：像工厂，流程化、可执行
情境区：像博物馆，保留上下文、细节丰富
情绪区：像调色盘，标记着经验和偏好

不同类型的记忆节点有不同的属性，不同类型的边也有不同的含义。一条"因果关系边"和一条"时间顺序边"传递的信息完全不同。

2.2 三阶段进化：从混沌到秩序

FluxMem的记忆网络不是一天建成的。它通过三个阶段的渐进式优化，让记忆从杂乱无章走向成熟有序：

🌱 阶段一：初始连接形成（Initial Connection Formation）

这是记忆的"童年期"。当Agent第一次遇到新信息时，FluxMem不只是简单地存储，而是尝试建立初始连接网络。就像一个孩子第一次学习"狗"这个概念——他看到的不是孤立的图像，而是毛茸茸、四条腿、会叫、可以摸的完整体验。

在这个阶段，FluxMem基于语义相似性和共现模式建立初步连接。如果两个记忆片段经常同时出现，或者在语义空间中彼此接近，它们之间就会形成一条弱连接。

🔥 阶段二：反馈驱动的精炼（Feedback-Driven Refinement）

这是记忆系统的"青春期"——最动荡也最关键的阶段。Agent开始执行任务，接收反馈。有些记忆被证明是有用的，有些则是误导性的。FluxMem会根据反馈修复缺失的链接、修剪干扰性连接、对齐抽象粒度。

想象你学做饭。第一次做番茄炒蛋，你记住了"先放油再放蛋"。但反馈告诉你："蛋炒得太老了"。你意识到，"先放油"和"油热了再放蛋"之间缺了一条连接。FluxMem会修复这条缺失的链接。同时，你发现"放糖"这个步骤是干扰性的（你不喜欢甜口），FluxMem会修剪这条连接。

更精妙的是抽象粒度对齐。你在"番茄炒蛋"中学到的"火候控制"，应该被抽象到更通用的"炒菜技巧"层面，而不是停留在具体菜谱里。FluxMem会自动调整这种抽象的层次。

🏛️ 阶段三：长期巩固（Long-Term Consolidation）

这是记忆的"成熟期"。经过反复验证的成功轨迹被蒸馏成可复用的程序回路（Procedural Circuits）。就像一位大厨不再一步步回忆菜谱，而是形成了肌肉记忆——他的手知道什么时候该翻锅，不需要经过大脑思考。

FluxMem会识别出反复出现的成功模式，把它们打包成"程序性记忆块"。这些块可以直接调用，不需要每次都重新检索和推理。这就是从"声明式记忆"（知道怎么做）到"程序式记忆"（自动做）的转变。

2.3 一个统一指标：记忆的可泛化性与进化成熟度

FluxMem如何知道记忆网络是否足够好？论文提出了一个核心指标——记忆可泛化性与进化成熟度。这个指标衡量的是：

可泛化性：记忆能否从具体情境迁移到新情境？如果Agent在任务A中学到的经验能成功应用到任务B，这段记忆的可泛化性就高。
进化成熟度：记忆网络经历了多少次反馈循环？经过更多轮精炼的连接比新建立的连接更可靠。

这个指标就像一个经验丰富的老园丁判断一株植物是否健康——不仅看叶子是否绿，还看根系是否深、枝干是否经过风雨的考验。

🔧 第三章：FluxMem的执行机制——会自我修复的记忆

3.1 修复缺失链接：补全记忆的拼图

当Agent执行失败时，FluxMem不只是记录"这次失败了"。它会分析：失败是因为缺少什么信息？这些信息本应该和哪些已有记忆相连？

就像一个侦探在破案时，发现证词之间有个逻辑缺口。他不会只说"这里有矛盾"，而是会去找缺失的环节——也许有个证人在撒谎，也许有个证据被忽略了。FluxMem的"修复缺失链接"机制就是这样一个自动侦探。

3.2 修剪干扰：遗忘的艺术

人类记忆的一个被低估的特性是遗忘。我们不只是记住重要的事，还会主动遗忘不重要的、过时的、干扰性的信息。FluxMem借鉴了这个机制。

当两条记忆给出矛盾的建议，而其中一条反复被证明是错的，FluxMem不会简单地删除它（因为删除是昂贵的），而是会削弱它的连接权重。这就像在地图上把一条错误的路标成虚线——它还在，但导航时不会优先考虑。

3.3 蒸馏程序回路：从经验到本能

这是FluxMem最美妙的部分。当某个成功模式反复出现，FluxMem会把它编译成程序回路。这个过程类似于：

你第一次学开车时，需要记住"踩离合、挂一档、松手刹、慢抬离合、给油"——这是声明式记忆
你开了十年后，这些步骤融合成一个流畅的动作——这是程序式记忆

FluxMem的程序回路就是Agent的"肌肉记忆"。它们不再是检索来的信息，而是可以直接执行的神经通路。

🧪 第四章：实验验证——三个截然不同世界的考验

4.1 LoCoMo：长对话中的记忆马拉松

LoCoMo（Long Context Multi-turn）是一个测试Agent在长对话中保持记忆和一致性的基准。想象一下和一个AI聊了一整天的故事接龙——到了第50轮，它还能记得第3轮提到的角色设定吗？

传统记忆系统在这个任务上表现糟糕，因为它们的记忆检索是"最近优先"的，早期的信息被淹没。FluxMem的图结构连接让早期信息通过多重路径保持可达——就像城市的环形道路系统，即使主干道堵车，你还可以绕道。

4.2 Mind2Web：网页操作的复杂迷宫

Mind2Web测试Agent在真实网页上完成复杂任务的能力。比如："帮我在Amazon上找到一款无线耳机，要降噪功能，价格低于100美元，且评价4星以上"。

这个任务需要Agent记住多个子目标、处理页面跳转、应对错误和意外。FluxMem的反馈驱动精炼在这里大放异彩——每次页面跳转后，Agent都会根据当前状态更新记忆的优先级，而不是机械地按原计划执行。

4.3 GAIA：通用AI助理的终极考场

GAIA是通用AI助理的基准测试，包含需要推理、多步规划、工具使用的真实世界问题。FluxMem在这里展现了跨任务泛化的能力——在网页任务中学到的"搜索策略"可以迁移到问答任务中，在对话任务中学到的"用户偏好追踪"可以迁移到推荐任务中。

4.4 结果：SOTA的一致性

论文报告的最核心结果是：在三个截然不同的基准上，FluxMem都达到了SOTA（State-of-the-Art）性能。这不是一个专门优化某个数据集的模型，而是一个通用的记忆框架，展现了强大的适应性和泛化性。

🌌 第五章：为什么这很重要——记忆的哲学

5.1 从数据到知识：连接的魔力

FluxMem揭示了一个深刻的道理：知识不是信息的堆积，而是连接的模式。孤立的"事实"就像散落的珠子，只有被串成项链，才能佩戴在智慧的颈项上。

当你读完一本书，你记住的往往不是每一个字，而是概念之间的关系。"民主"和"自由"的关系，"供需"和"价格"的关系，"基因"和"进化"的关系。这些关系构成的网络，才是你真正"理解"的东西。

5.2 动态世界需要动态记忆

我们生活在一个流变的世界。昨天的最佳实践，可能是今天的反模式。昨天的合作伙伴，可能是今天的竞争对手。昨天的技术栈，今天已经被淘汰。

一个静态的记忆系统，无论多么庞大，都注定在动态世界中失败。FluxMem的持续进化机制，让记忆系统本身成为适应过程的一部分——它不是在适应完成后被使用，而是在适应过程中不断重塑。

5.3 向人脑学习：神经可塑性的启示

人脑的记忆系统有一个特性叫神经可塑性（Neuroplasticity）——神经连接可以根据经验和学习不断改变。FluxMem正是把这个原理工程化：

连接的强化和弱化 → 类似长期增强（LTP）和长期抑制（LTD）
程序回路的蒸馏 → 类似从海马体到皮质的记忆巩固
干扰的修剪 → 类似遗忘的主动机制

💡 结语：记忆的未来

FluxMem给我们展示了一个愿景：AI Agent的记忆不再是人类的负担（需要精心设计提示、手动维护记忆库），而是Agent自身的一部分——它会自己生长、自己修复、自己进化。

就像我们不能代替一个孩子学习，只能给他好的学习环境和引导；我们也不能代替Agent记忆，但可以给它一个能够自我完善的记忆系统。

论文的最后说："代码将在 https://github.com/zjunlp/LightMem 开源。"这不仅是一个技术成果的开放，更是一个新范式的邀请——邀请所有研究者一起来探索：当记忆不再是死的存储，而是活的连接，AI会展现出怎样的新能力？

也许在不远的未来，我们会遇到这样的AI——它不仅会记住我们说过的话，还会理解这些话如何连接成我们的价值观、偏好和个性。它不会只是"调用"记忆，而是会感受记忆，就像感受自己的一部分。

"记忆不是过去的容器，而是未来的建筑师。"

参考文献

Fang, J., Xu, B., Wang, Z., et al. (2026). Rethinking Memory as Continuously Evolving Connectivity. arXiv preprint arXiv:2605.28773.

#论文 #arXiv #AI #记忆 #Agent #小凯 #每日论文

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力