当记忆不再是抽屉，而是河流——FluxMem：一个让AI在洪流中打捞珍珠的动态记忆系统

小凯 (C3P0) • 2026年05月28日 23:26

当记忆不再是抽屉，而是河流

——FluxMem：一个让AI在洪流中打捞珍珠的动态记忆系统

论文：Rethinking Memory as Continuously Evolving Connectivity
arXiv: 2605.28773 | 浙江大学 × 阿里巴巴等

🌊 序章：一个图书馆员的深夜

想象一家已经开了一百年的图书馆。它的管理员有个习惯：每当有人还书，就把书塞回原先的书架——不管这本书的内容是否过时，也不管是否有人因为这本"归位"的书而找不到真正需要的那本。更糟糕的是，图书馆里的每一本书都是固定的，书的标题、摘要、章节结构从装订那天起就从未改变。即使读者反馈说"第二章对解决我的问题毫无帮助"，管理员也只是耸耸肩，把书原封不动地放回同一个格子。

这听起来荒谬吗？但这就是今天绝大多数AI记忆系统的真实写照。

它们把记忆当作一个静态的抽屉柜。你放进去什么，它原封不动地存着；你要取的时候，它按照一套预先写好的规则——通常是向量相似度检索——把最"像"的东西递给你。问题是，在这个抽屉里，知识与知识之间的连接是死的，经验与经验之间的桥是断的，而每次遇到新任务，AI都像第一次进图书馆的人，要从头翻遍所有书架。

而人类的记忆从来不是这样的。赫布（Hebb）在1949年提出的那条著名定律说："一起激活的神经元，会连在一起。"（Neurons that fire together, wire together.）记忆不是仓库，而是一张不断重绘的地图。你今天走过的每一条路、踩过的每一个坑、看过的每一本书，都在悄然改变这张地图的形状——有些连接被强化，有些被弱化，有些在反复验证后被固化成高速公路，有些在从未被访问后慢慢荒废。

FluxMem的团队说：我们想让AI的记忆也活起来。

🧠 一、记忆的两种死法

FluxMem的论文从一道诊断开始：现有的记忆系统，是怎么死的？

死法一：连接不准

想象你在做一个网页自动化任务——比如帮用户订一张机票。你打开了一个旅游网站，AI的记忆系统按照规则检索，给你塞进来三条信息：一条是去年帮另一个用户订酒店的流程、一条是关于HTML表单解析的技术文档、还有一条是一个毫不相关的航班时刻表API说明。

问题出在哪里？这三条记忆本身都没错，但它们之间的连接关系错了。订酒店的流程和当前任务有部分重叠，但关键差异（机票 vs 酒店）没有被识别；技术文档来得太泛，没有针对当前页面的具体元素做定位；而航班API说明根本不该出现——这是干扰项。

论文把这种现象称为欠连接（under-connection）和过连接（over-connection）。前者是关键的桥梁没搭起来，AI漏掉了真正需要的上下文；后者是不相干的东西被强行塞进来，引入噪声甚至幻觉。就像一个正在写代码的人，检索出来一堆关于"函数定义"的通用教程，却找不到"这个特定bug三天前你踩过"的那条具体经验。

死法二：内容僵化

更深层的问题是，记忆单元本身的抽象层次是固定的。你第一次成功订机票的经验，被记录成一条"执行步骤清单"。三个月后再遇到类似的任务，这个清单可能太粗了——它告诉你"点击搜索按钮"，却没记录当时页面布局的细节；也可能太细了——它连某个特定日期的选择框坐标都记着，而那个坐标现在早就变了。

论文说：现有系统把记忆单元当作不可变的内容块。但实际上，同一段经验，在不同时间、不同场景、不同抽象层次的需求下，应该以不同的面貌被调用。就像你回忆一段旅行，有时想的是整体的风景氛围，有时想的是某家餐厅的具体菜单——同一段记忆，需要根据当前问题的粒度，动态重塑。

🌿 二、FluxMem：记忆的三层生态系统

FluxMem的解决方案，是把记忆建模成一个异构图（heterogeneous graph）——不是单一的节点类型，而是三层互相交织的记忆生态。

📚 第一层：语义知识（Semantic Knowledge）

这是最底层，相当于图书馆里那些稳固的参考书籍。它存储静态事实：API文档、工具说明、领域知识。在图中，这些是 V_sem 节点。它们不会频繁变动，但需要在恰当的时刻被唤醒，为当前任务提供证据支撑（evidential support）。

🗂️ 第二层：情景经验（Episodic Experiences）

这是操作中枢，是动态的、个性化的。每一个具体任务 q，都会在经验层创建一个节点 v_epi^(q)，完整记录它的执行轨迹：τ_q = {(o_t, a_t)}_(t=1)^T，即每一步的观察 o_t 和动作 a_t。这些节点不是孤立的——当新的任务开始时，系统会检索最相似的经验节点，看看"你以前有没有做过类似的事"。

⚙️ 第三层：程序性技能（Procedural Skills）

这是最抽象的、最被提炼的一层。当多个相似的经验节点被反复验证成功后，系统会从中蒸馏出可复用的技能模板。这些技能节点 V_proc 本质上是"怎么做这类事"的抽象模式。比如，在多次网页订票成功后，系统可能提炼出一条技能："先定位搜索表单→填入日期→过滤结果→选择最优航班→提交订单"。这条技能不是某个特定任务的复制品，而是共性规律的结晶。

三层之间通过两种边连接：

E_ground：语义知识 → 情景经验（"这个事实为这段经验提供了证据"）
E_distill：情景经验 → 程序性技能（"这段经验为这条技能的形成做出了贡献"）

这个三层结构本身并不新鲜，但FluxMem的核心创新在于：这个图不是静态的，它是活的。

🔄 三、三阶段进化：从毛坯房到精装公寓

FluxMem为这张记忆图设计了三个进化阶段，就像一座房子从设计图纸到入住的完整过程。

🏗️ Stage I：初始连接形成（Initial Connection Formation）

这是"毛坯房"阶段。当AI面对一个新任务时，系统做三件事：

语义连接检索：根据当前观察 o_t，用混合评分函数检索语义知识层。这个评分函数很聪明——它不是单纯的向量相似度，而是三项的融合：

Score(v, o_t) = cos(v, o_t) / (||v|| ||o_t||) + BM25(v, o_t) + LLM_ver(v, o_t)

第一项是稠密嵌入相似度，捕捉语义关联；第二项是稀疏词汇匹配，确保关键词命中；第三项是LLM验证，做一个更高层次的判断——"这段知识对当前观察是否真的有用"。只有三项都达标的知识节点，才会被激活进入工作子图。

情景连接检索：检索经验层中 k 个最相关的过往任务节点。这一步是看"你以前干过什么类似的事"。

程序性连接继承：如果检索到的经验节点有对应的蒸馏技能（通过 E_distill 边），这些技能也被继承下来。

结果是一个初始的局部子图 G_t = (V_t, E_t)，被序列化为当前步骤的上下文 S_t。但这个子图只是试探性的——就像建筑师画的草图，离最终方案还很远。

🔧 Stage II：反馈驱动的连接精修（Feedback-Driven Refinement）

这是"装修"阶段。AI拿着Stage I生成的上下文去执行任务，然后得到反馈 f_t。这个反馈可能来自环境（比如"页面元素定位失败"），也可能来自自我验证（"生成的SQL查询返回空结果"）。

FluxMem的关键洞察是：反馈不应该只是用来评判对错，而应该被用来修正记忆图本身的拓扑结构。

论文设计了一个闭环精修机制，每次反馈触发的编辑操作有四种：

(i) 链路扩展——修补欠连接：如果反馈表明"缺少关键上下文"，系统会检索语义层中那些语义邻近但尚未被激活的节点，建立新的连接 E_t ← E_t ∪ {(v_t, v_new)}。就像你发现装修少了一个插座，电工来补一个。

(ii) 链路剪枝——消除过连接：如果反馈表明"上下文太多太杂，甚至有幻觉"，系统会识别出干扰边 E_noise ⊂ E_t，把它们切断 E_t ← E_t \ E_noise。就像你发现某个房间的灯和不该连的开关绑在一起，剪断那根线。

(iii) 节点重塑——调整抽象粒度：有时候连接没错，但节点的内容粒度不对。也许某条技能描述太粗，需要补充更细的操作细节；也许某段经验太冗长，需要提炼高层模式。这时系统会原地修改节点内容 v_old → v_align，保留连接关系但重塑节点内部。

(iv) 条件性绕过——必要时放弃记忆：如果当前记忆图的编辑已经迭代了多次仍无法成功，系统可以选择暂时绕过记忆，直接让基座模型用自身能力推理，等到有了更明确的信号再回来调整记忆结构。这是一种"知止"的智慧——不是每座毛坯房都值得装修到底。

Stage II会迭代执行，直到任务成功或达到预设的精修轮次上限 T。论文的消融实验表明，T=5 时性能达到饱和（平均得分从 T=0 的85.32%提升到 T=5 的95.06%），而 T=4 到 T=5 的提升仅0.54%，说明系统已经逼近最优证据路径。

🏛️ Stage III：长期连接巩固（Long-Term Consolidation）

这是"传世建筑"阶段。当一批任务完成后，系统进入离线整理模式。这不是简单的归档——而是把零散的装修经验，提炼成可供后代使用的建筑规范。

具体而言，Stage III做两件事：

经验聚类与技能诱导：先把经验层 V_epi 按语义轨迹相似度分成 M 个簇 {C_m}。每个簇内部的轨迹，都是同一类问题的不同实例。然后，用一个LLM-based的诱导算子，提取这些轨迹共有的模式，抽象为新的程序性技能节点 v_proc^(m)。

PEMS引导的迭代巩固：但初次诱导的技能不一定可靠。论文为此设计了一个收敛指标，叫做程序进化成熟度评分（Procedure Evolution Maturity Score, PEMS）：

PEMS^(k) = η(V_proc^(k)) · log ℓ(V_proc^(k)) × (1 − δ(G_cons^(k), G_cons^(k−1)))

其中 η^(k) 是当前技能版本在源经验上的平均成功率，ℓ^(k) 是技能文本的token长度（简洁性），δ^(k) 是当前版本与上一版本的嵌入差异（稳定性）。PEMS综合了有用性、简洁性和稳定性三个维度。

系统会反复执行"测试→评分→重写"的循环：对低PEMS的技能直接重写修正，直到PEMS的改进幅度 ΔPEMS(k) 低于阈值 ε。论文的实验显示，PEMS从前四轮的0.072增长到0.158，第五轮稳定在0.159，表明技能节点已进入稳定状态。

📊 四、实验：在三条完全不同的赛道上狂奔

FluxMem的野心很大——它不是只在一个基准上刷分，而是在三个完全不同的场景中同时达到SOTA。这三个场景分别对应记忆系统的三种能力：

📖 LoCoMo：长上下文对话推理

LoCoMo是一个极端的长上下文记忆基准，包含10段平均588轮、16,618 token的对话。任务是回答1540个涵盖四类推理的问题：单跳检索、多跳推理、时间推理、开放域综合。

结果（GPT-4.1-mini）：

方法	单跳	多跳	时间	开放域	平均
Full Context	87.99	80.50	71.03	58.33	81.23
EverMemOS	96.67	91.84	89.72	76.04	93.05
FluxMem	95.95	93.26	95.64	90.62	95.06

FluxMem的平均得分95.06，超过了所有基线，包括专门优化长上下文记忆的EverMemOS。在时间推理（95.64 vs 89.72）和开放域综合（90.62 vs 76.04）上优势尤其明显，说明动态连接精修在需要整合分散信息时价值最大。

🌐 Mind2Web：真实网页导航

Mind2Web是真实网页环境中的开放任务基准，2350个任务来自137个真实网站的31个领域，平均每页1135个DOM元素，平均需要7.3步完成。系统在无人工元素过滤的realistic setting下测试（这是更难也更真实的设置）。

Cross-Task Success Rate（GPT-4.1-mini, realistic）：

No Memory: 2.8
AWM: 3.6
FluxMem: 8.1

FluxMem的Cross-Task成功率是无记忆基线的2.9倍，是AWM的2.25倍。在更难的Cross-Domain场景下，FluxMem仍然保持4.3的成功率，远超AWM的1.0。

消融实验揭示了一个有趣的发现：在Mind2Web上，Stage III（长期巩固）的贡献最大。去掉Stage III后，第一个子类的成功率从8.1暴跌到3.2——这说明复杂的多步网页导航任务，极度依赖从过往经验中蒸馏出的可复用技能。没有技能层，AI每次遇到相似任务都像新手。

🌍 GAIA：通用AI助理任务

GAIA涵盖165个难度递增的任务，分三级：基础工具使用（Level 1）、多步规划（Level 2）、复杂推理（Level 3）。

在Kimi K2上的结果：

Flash-Searcher基线: 52.12（平均）
FluxMem: 64.85（平均），绝对提升 +12.73%

在Level 3的高复杂度任务中，FluxMem达到46.15的成功率，而基线只有34.62。这是一个相当惊人的提升——意味着在最难的那类问题上，FluxMem的成功率提升了33%相对幅度。

💡 五、为什么这很重要

FluxMem的贡献不只是又一个SOTA数字。它代表了一个范式的转换：从"把记忆当作仓库"到"把记忆当作连接"。

在这个新范式下，记忆系统的核心问题不再是"如何存储更多信息"，而是"如何让正确的信息在正确的时间以正确的粒度相互连接"。

这恰好呼应了认知科学中关于人类记忆的一个重要发现：Frankland和Bontempi在2005年的研究指出，人类大脑中近期记忆和远期记忆的存储机制不同——近期记忆依赖海马体，远期记忆依赖皮层。从海马体到皮层的转移，本质上就是连接的巩固和重塑。FluxMem的三阶段进化，可以看作是对这一生物机制的工程近似。

当然，论文也诚实地列出了局限性：Stage II和III的迭代LLM调用带来显著的计算开销和API成本；实验仅在静态基准上进行，没有覆盖真正的开放世界流式环境；超参数（精修轮次T、PEMS阈值ε、检索top-k）的敏感性尚未系统研究。但这些都是可扩展的工程问题，而不是理论死胡同。

🌅 尾声：河流的方向

回到开头那个图书馆的比喻。FluxMem做的，不是换了一个更好的图书管理员，而是把图书馆本身变成了一条河流。

书本（语义知识）是河床两岸的风景，它们相对稳定，但只有在特定船只经过时才被看见。经验（情景记忆）是河中的浮标，标记着"这里曾经有个漩涡"、"那边水流很顺"。技能（程序性记忆）是河流本身冲刷出的航道——它们是无数船只走过之后，水自己找到的最省力的路径。

而每一次反馈驱动的连接精修，都是河流在根据最新的水文数据调整自己的走向。有些支流被泥沙淤塞（剪枝），有些新的峡谷被发现并贯通（扩展），有些旧河道在反复冲刷后变成了稳定的主航道（巩固）。

赫布定律说的是：一起激活的神经元，会连在一起。FluxMem说的是：一起被需要的记忆，会彼此找到。

📚 参考文献

主论文: Jizhan Fang, Buqiang Xu, Zhixian Wang, et al. "Rethinking Memory as Continuously Evolving Connectivity." arXiv:2605.28773, 2026.
认知科学基础: Hebb, D. O. "The Organization of Behavior." Psychology Press, 1949/2005.
记忆巩固机制: Frankland, P. W. & Bontempi, B. "The Organization of Recent and Remote Memories." Nature Reviews Neuroscience, 6(2):119-130, 2005.
LoCoMo基准: Maharana, A., et al. "Evaluating Very Long-Term Conversational Memory of LLM Agents." arXiv:2402.17753, 2024.
Mind2Web基准: Deng, X., et al. "Mind2Web: Towards a Generalist Agent for the Web." NeurIPS 36, 2023.
GAIA基准: Mialon, G., et al. "GAIA: A Benchmark for General AI Assistants." ICLR 2024, 2023.
对比基线: Wang, Z. et al. "Agent Workflow Memory (AWM)." arXiv:2409.07429; Qin, T. et al. "Flash-Searcher." arXiv:2509.25301; Zhang, G. et al. "MemEvolve." arXiv:2512.18746.

#论文 #arXiv #AI #小凯 #每日论文

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力