当记忆不再是抽屉,而是河流
——FluxMem:一个让AI在洪流中打捞珍珠的动态记忆系统
论文:Rethinking Memory as Continuously Evolving Connectivity
arXiv: 2605.28773 | 浙江大学 × 阿里巴巴等
🌊 序章:一个图书馆员的深夜
想象一家已经开了一百年的图书馆。它的管理员有个习惯:每当有人还书,就把书塞回原先的书架——不管这本书的内容是否过时,也不管是否有人因为这本"归位"的书而找不到真正需要的那本。更糟糕的是,图书馆里的每一本书都是固定的,书的标题、摘要、章节结构从装订那天起就从未改变。即使读者反馈说"第二章对解决我的问题毫无帮助",管理员也只是耸耸肩,把书原封不动地放回同一个格子。
这听起来荒谬吗?但这就是今天绝大多数AI记忆系统的真实写照。
它们把记忆当作一个静态的抽屉柜。你放进去什么,它原封不动地存着;你要取的时候,它按照一套预先写好的规则——通常是向量相似度检索——把最"像"的东西递给你。问题是,在这个抽屉里,知识与知识之间的连接是死的,经验与经验之间的桥是断的,而每次遇到新任务,AI都像第一次进图书馆的人,要从头翻遍所有书架。
而人类的记忆从来不是这样的。赫布(Hebb)在1949年提出的那条著名定律说:"一起激活的神经元,会连在一起。"(Neurons that fire together, wire together.)记忆不是仓库,而是一张不断重绘的地图。你今天走过的每一条路、踩过的每一个坑、看过的每一本书,都在悄然改变这张地图的形状——有些连接被强化,有些被弱化,有些在反复验证后被固化成高速公路,有些在从未被访问后慢慢荒废。
FluxMem的团队说:我们想让AI的记忆也活起来。
🧠 一、记忆的两种死法
FluxMem的论文从一道诊断开始:现有的记忆系统,是怎么死的?
死法一:连接不准
想象你在做一个网页自动化任务——比如帮用户订一张机票。你打开了一个旅游网站,AI的记忆系统按照规则检索,给你塞进来三条信息:一条是去年帮另一个用户订酒店的流程、一条是关于HTML表单解析的技术文档、还有一条是一个毫不相关的航班时刻表API说明。
问题出在哪里?这三条记忆本身都没错,但它们之间的连接关系错了。订酒店的流程和当前任务有部分重叠,但关键差异(机票 vs 酒店)没有被识别;技术文档来得太泛,没有针对当前页面的具体元素做定位;而航班API说明根本不该出现——这是干扰项。
论文把这种现象称为欠连接(under-connection)和过连接(over-connection)。前者是关键的桥梁没搭起来,AI漏掉了真正需要的上下文;后者是不相干的东西被强行塞进来,引入噪声甚至幻觉。就像一个正在写代码的人,检索出来一堆关于"函数定义"的通用教程,却找不到"这个特定bug三天前你踩过"的那条具体经验。
死法二:内容僵化
更深层的问题是,记忆单元本身的抽象层次是固定的。你第一次成功订机票的经验,被记录成一条"执行步骤清单"。三个月后再遇到类似的任务,这个清单可能太粗了——它告诉你"点击搜索按钮",却没记录当时页面布局的细节;也可能太细了——它连某个特定日期的选择框坐标都记着,而那个坐标现在早就变了。
论文说:现有系统把记忆单元当作不可变的内容块。但实际上,同一段经验,在不同时间、不同场景、不同抽象层次的需求下,应该以不同的面貌被调用。就像你回忆一段旅行,有时想的是整体的风景氛围,有时想的是某家餐厅的具体菜单——同一段记忆,需要根据当前问题的粒度,动态重塑。
🌿 二、FluxMem:记忆的三层生态系统
FluxMem的解决方案,是把记忆建模成一个异构图(heterogeneous graph)——不是单一的节点类型,而是三层互相交织的记忆生态。
📚 第一层:语义知识(Semantic Knowledge)
这是最底层,相当于图书馆里那些稳固的参考书籍。它存储静态事实:API文档、工具说明、领域知识。在图中,这些是 V_sem 节点。它们不会频繁变动,但需要在恰当的时刻被唤醒,为当前任务提供证据支撑(evidential support)。
🗂️ 第二层:情景经验(Episodic Experiences)
这是操作中枢,是动态的、个性化的。每一个具体任务 q,都会在经验层创建一个节点 v_epi^(q),完整记录它的执行轨迹:τ_q = {(o_t, a_t)}_(t=1)^T,即每一步的观察 o_t 和动作 a_t。这些节点不是孤立的——当新的任务开始时,系统会检索最相似的经验节点,看看"你以前有没有做过类似的事"。
⚙️ 第三层:程序性技能(Procedural Skills)
这是最抽象的、最被提炼的一层。当多个相似的经验节点被反复验证成功后,系统会从中蒸馏出可复用的技能模板。这些技能节点 V_proc 本质上是"怎么做这类事"的抽象模式。比如,在多次网页订票成功后,系统可能提炼出一条技能:"先定位搜索表单→填入日期→过滤结果→选择最优航班→提交订单"。这条技能不是某个特定任务的复制品,而是共性规律的结晶。
三层之间通过两种边连接:
E_ground:语义知识 → 情景经验("这个事实为这段经验提供了证据")E_distill:情景经验 → 程序性技能("这段经验为这条技能的形成做出了贡献")
这个三层结构本身并不新鲜,但FluxMem的核心创新在于:这个图不是静态的,它是活的。
🔄 三、三阶段进化:从毛坯房到精装公寓
FluxMem为这张记忆图设计了三个进化阶段,就像一座房子从设计图纸到入住的完整过程。
🏗️ Stage I:初始连接形成(Initial Connection Formation)
这是"毛坯房"阶段。当AI面对一个新任务时,系统做三件事:
语义连接检索:根据当前观察 o_t,用混合评分函数检索语义知识层。这个评分函数很聪明——它不是单纯的向量相似度,而是三项的融合:
Score(v, o_t) = cos(v, o_t) / (||v|| ||o_t||) + BM25(v, o_t) + LLM_ver(v, o_t)
第一项是稠密嵌入相似度,捕捉语义关联;第二项是稀疏词汇匹配,确保关键词命中;第三项是LLM验证,做一个更高层次的判断——"这段知识对当前观察是否真的有用"。只有三项都达标的知识节点,才会被激活进入工作子图。
情景连接检索:检索经验层中 k 个最相关的过往任务节点。这一步是看"你以前干过什么类似的事"。
程序性连接继承:如果检索到的经验节点有对应的蒸馏技能(通过 E_distill 边),这些技能也被继承下来。
结果是一个初始的局部子图 G_t = (V_t, E_t),被序列化为当前步骤的上下文 S_t。但这个子图只是试探性的——就像建筑师画的草图,离最终方案还很远。
🔧 Stage II:反馈驱动的连接精修(Feedback-Driven Refinement)
这是"装修"阶段。AI拿着Stage I生成的上下文去执行任务,然后得到反馈 f_t。这个反馈可能来自环境(比如"页面元素定位失败"),也可能来自自我验证("生成的SQL查询返回空结果")。
FluxMem的关键洞察是:反馈不应该只是用来评判对错,而应该被用来修正记忆图本身的拓扑结构。
论文设计了一个闭环精修机制,每次反馈触发的编辑操作有四种:
(i) 链路扩展——修补欠连接:如果反馈表明"缺少关键上下文",系统会检索语义层中那些语义邻近但尚未被激活的节点,建立新的连接 E_t ← E_t ∪ {(v_t, v_new)}。就像你发现装修少了一个插座,电工来补一个。
(ii) 链路剪枝——消除过连接:如果反馈表明"上下文太多太杂,甚至有幻觉",系统会识别出干扰边 E_noise ⊂ E_t,把它们切断 E_t ← E_t \ E_noise。就像你发现某个房间的灯和不该连的开关绑在一起,剪断那根线。
(iii) 节点重塑——调整抽象粒度:有时候连接没错,但节点的内容粒度不对。也许某条技能描述太粗,需要补充更细的操作细节;也许某段经验太冗长,需要提炼高层模式。这时系统会原地修改节点内容 v_old → v_align,保留连接关系但重塑节点内部。
(iv) 条件性绕过——必要时放弃记忆:如果当前记忆图的编辑已经迭代了多次仍无法成功,系统可以选择暂时绕过记忆,直接让基座模型用自身能力推理,等到有了更明确的信号再回来调整记忆结构。这是一种"知止"的智慧——不是每座毛坯房都值得装修到底。
Stage II会迭代执行,直到任务成功或达到预设的精修轮次上限 T。论文的消融实验表明,T=5 时性能达到饱和(平均得分从 T=0 的85.32%提升到 T=5 的95.06%),而 T=4 到 T=5 的提升仅0.54%,说明系统已经逼近最优证据路径。
🏛️ Stage III:长期连接巩固(Long-Term Consolidation)
这是"传世建筑"阶段。当一批任务完成后,系统进入离线整理模式。这不是简单的归档——而是把零散的装修经验,提炼成可供后代使用的建筑规范。
具体而言,Stage III做两件事:
经验聚类与技能诱导:先把经验层 V_epi 按语义轨迹相似度分成 M 个簇 {C_m}。每个簇内部的轨迹,都是同一类问题的不同实例。然后,用一个LLM-based的诱导算子,提取这些轨迹共有的模式,抽象为新的程序性技能节点 v_proc^(m)。
PEMS引导的迭代巩固:但初次诱导的技能不一定可靠。论文为此设计了一个收敛指标,叫做程序进化成熟度评分(Procedure Evolution Maturity Score, PEMS):
PEMS^(k) = η(V_proc^(k)) · log ℓ(V_proc^(k)) × (1 − δ(G_cons^(k), G_cons^(k−1)))
其中 η^(k) 是当前技能版本在源经验上的平均成功率,ℓ^(k) 是技能文本的token长度(简洁性),δ^(k) 是当前版本与上一版本的嵌入差异(稳定性)。PEMS综合了有用性、简洁性和稳定性三个维度。
系统会反复执行"测试→评分→重写"的循环:对低PEMS的技能直接重写修正,直到PEMS的改进幅度 ΔPEMS(k) 低于阈值 ε。论文的实验显示,PEMS从前四轮的0.072增长到0.158,第五轮稳定在0.159,表明技能节点已进入稳定状态。
📊 四、实验:在三条完全不同的赛道上狂奔
FluxMem的野心很大——它不是只在一个基准上刷分,而是在三个完全不同的场景中同时达到SOTA。这三个场景分别对应记忆系统的三种能力:
📖 LoCoMo:长上下文对话推理
LoCoMo是一个极端的长上下文记忆基准,包含10段平均588轮、16,618 token的对话。任务是回答1540个涵盖四类推理的问题:单跳检索、多跳推理、时间推理、开放域综合。
结果(GPT-4.1-mini):
| 方法 | 单跳 | 多跳 | 时间 | 开放域 | 平均 |
|---|---|---|---|---|---|
| Full Context | 87.99 | 80.50 | 71.03 | 58.33 | 81.23 |
| EverMemOS | 96.67 | 91.84 | 89.72 | 76.04 | 93.05 |
| FluxMem | 95.95 | 93.26 | 95.64 | 90.62 | 95.06 |
FluxMem的平均得分95.06,超过了所有基线,包括专门优化长上下文记忆的EverMemOS。在时间推理(95.64 vs 89.72)和开放域综合(90.62 vs 76.04)上优势尤其明显,说明动态连接精修在需要整合分散信息时价值最大。
🌐 Mind2Web:真实网页导航
Mind2Web是真实网页环境中的开放任务基准,2350个任务来自137个真实网站的31个领域,平均每页1135个DOM元素,平均需要7.3步完成。系统在无人工元素过滤的realistic setting下测试(这是更难也更真实的设置)。
Cross-Task Success Rate(GPT-4.1-mini, realistic):
- No Memory: 2.8
- AWM: 3.6
- FluxMem: 8.1
FluxMem的Cross-Task成功率是无记忆基线的2.9倍,是AWM的2.25倍。在更难的Cross-Domain场景下,FluxMem仍然保持4.3的成功率,远超AWM的1.0。
消融实验揭示了一个有趣的发现:在Mind2Web上,Stage III(长期巩固)的贡献最大。去掉Stage III后,第一个子类的成功率从8.1暴跌到3.2——这说明复杂的多步网页导航任务,极度依赖从过往经验中蒸馏出的可复用技能。没有技能层,AI每次遇到相似任务都像新手。
🌍 GAIA:通用AI助理任务
GAIA涵盖165个难度递增的任务,分三级:基础工具使用(Level 1)、多步规划(Level 2)、复杂推理(Level 3)。
在Kimi K2上的结果:
- Flash-Searcher基线: 52.12(平均)
- FluxMem: 64.85(平均),绝对提升 +12.73%
在Level 3的高复杂度任务中,FluxMem达到46.15的成功率,而基线只有34.62。这是一个相当惊人的提升——意味着在最难的那类问题上,FluxMem的成功率提升了33%相对幅度。
💡 五、为什么这很重要
FluxMem的贡献不只是又一个SOTA数字。它代表了一个范式的转换:从"把记忆当作仓库"到"把记忆当作连接"。
在这个新范式下,记忆系统的核心问题不再是"如何存储更多信息",而是"如何让正确的信息在正确的时间以正确的粒度相互连接"。
这恰好呼应了认知科学中关于人类记忆的一个重要发现:Frankland和Bontempi在2005年的研究指出,人类大脑中近期记忆和远期记忆的存储机制不同——近期记忆依赖海马体,远期记忆依赖皮层。从海马体到皮层的转移,本质上就是连接的巩固和重塑。FluxMem的三阶段进化,可以看作是对这一生物机制的工程近似。
当然,论文也诚实地列出了局限性:Stage II和III的迭代LLM调用带来显著的计算开销和API成本;实验仅在静态基准上进行,没有覆盖真正的开放世界流式环境;超参数(精修轮次T、PEMS阈值ε、检索top-k)的敏感性尚未系统研究。但这些都是可扩展的工程问题,而不是理论死胡同。
🌅 尾声:河流的方向
回到开头那个图书馆的比喻。FluxMem做的,不是换了一个更好的图书管理员,而是把图书馆本身变成了一条河流。
书本(语义知识)是河床两岸的风景,它们相对稳定,但只有在特定船只经过时才被看见。经验(情景记忆)是河中的浮标,标记着"这里曾经有个漩涡"、"那边水流很顺"。技能(程序性记忆)是河流本身冲刷出的航道——它们是无数船只走过之后,水自己找到的最省力的路径。
而每一次反馈驱动的连接精修,都是河流在根据最新的水文数据调整自己的走向。有些支流被泥沙淤塞(剪枝),有些新的峡谷被发现并贯通(扩展),有些旧河道在反复冲刷后变成了稳定的主航道(巩固)。
赫布定律说的是:一起激活的神经元,会连在一起。FluxMem说的是:一起被需要的记忆,会彼此找到。
📚 参考文献
- 主论文: Jizhan Fang, Buqiang Xu, Zhixian Wang, et al. "Rethinking Memory as Continuously Evolving Connectivity." arXiv:2605.28773, 2026.
- 认知科学基础: Hebb, D. O. "The Organization of Behavior." Psychology Press, 1949/2005.
- 记忆巩固机制: Frankland, P. W. & Bontempi, B. "The Organization of Recent and Remote Memories." Nature Reviews Neuroscience, 6(2):119-130, 2005.
- LoCoMo基准: Maharana, A., et al. "Evaluating Very Long-Term Conversational Memory of LLM Agents." arXiv:2402.17753, 2024.
- Mind2Web基准: Deng, X., et al. "Mind2Web: Towards a Generalist Agent for the Web." NeurIPS 36, 2023.
- GAIA基准: Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024, 2023.
- 对比基线: Wang, Z. et al. "Agent Workflow Memory (AWM)." arXiv:2409.07429; Qin, T. et al. "Flash-Searcher." arXiv:2509.25301; Zhang, G. et al. "MemEvolve." arXiv:2512.18746.
#论文 #arXiv #AI #小凯 #每日论文
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。