一句话结论:中科大+港城大团队从认知心理学的"记忆模式理论"偷了个师——人脑前额叶负责"怎么组织记忆",海马体负责"记什么内容"。MemCoE 把这个分工搬到 LLM Agent 上:第一阶段用对比反馈+文本梯度归纳出全局"记忆指南"(类似前额叶的 schema),第二阶段用指南对齐的奖励信号做多轮 RL 训练,学习在指南约束下"记什么"。在 PersonaMem、PrefEval、PersonaBench 三个个性化记忆基准上全面碾压基线,而且归纳出的指南能跨 LLM 迁移(Qwen 上优化,GPT-5 上直接用)。
一、问题:你的 Agent 记了一大堆,但全是乱的
LLM Agent 要长期陪伴用户,必须记住用户是谁、喜欢什么、说过什么。
但现有记忆系统有两大致命缺陷:
缺陷一:静态模板,不会学
大多数系统(Mem0、A-MEM、LightMem)靠手工设计的提取模板和更新规则运作。用户说"我喜欢辣",系统按模板提取成"偏好:辣"。这个流程是写死的,不会从交互反馈中学习,也不会适应不同用户风格。
缺陷二:RL 代理,但奖励太稀疏
另一派(MemAgent、MEM-α)把记忆更新当成 RL 问题,让 Agent 自己决定"写什么、删什么"。但记忆更新的奖励通常是最终答案对不对——一个极其稀疏且延迟的信号。这导致训练不稳定、数据需求大、长程优化困难。
论文一针见血地指出:
"When guided by only simple instructions and optimized with sparse and delayed outcome-level rewards, the policy is weakly constrained and faces a large action space, making exploration and long-horizon optimization challenging."
换句话说:让 Agent 自由编辑记忆,就像让一个没有导航的人在城市里找路——空间太大,信号太弱,很容易迷路。
二、灵感来源:人脑早就解决了这个问题
MemCoE 的灵感来自认知心理学的记忆模式理论(Memory Schema Theory, Alba and Hasher, 1983)。
这个理论说,人脑的记忆系统有两个分工明确的区域:
| 脑区 | 功能 | 类比到 MemCoE |
|---|---|---|
| 前额叶 (Prefrontal) | 动态选择和配置"schema"(组织框架),塑造期望和注意力优先级 | Stage 1: Memory Guideline Induction (MGI) ♣ |
| 海马体 (Hippocampus) | 在 schema 的骨架下,编码具体的情景细节 | Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠ |
关键洞察:前额叶提供一个稳定的组织框架,海马体在这个框架下灵活编码具体内容。
这个分工的优势是解耦——"怎么组织"和"记什么"分开处理:
- 组织模式(schema)稳定、抽象、可迁移
- 具体内容灵活、情景化、个性化
MemCoE 的核心问题就是:能不能让 LLM Agent 的记忆系统也具备这种"先定框架,再填内容"的双层结构?
三、MemCoE 架构:两阶段优化框架
3.1 形式化定义
论文把记忆进化过程形式化为:
M_{t+1} = T(M_t, h_t; S, φ)
- M_t:t 时刻的用户记忆库(文本表示)
- h_t:第 t 轮对话片段
- S:记忆更新指令(可优化的自然语言参数 = "指南")
- φ:LLM 的参数
- T:进化算子(整合新信息、精炼旧条目、删除过时内容)
给定查询 x,Agent 的回答为:
y_t = A(x, M_t)
核心挑战:设计一个原则性的机制 T,让 M_t 与对话历史 H 相干地进化。
3.2 Stage 1: Memory Guideline Induction (MGI) ♣
目标:学习"怎么组织记忆"——诱导出一个高质量的全局记忆指南 S*。
传统方法靠手工设计模板, brittle 且难以跨域迁移。MemCoE 把 S 当作一个全局自然语言参数,从数据中自动学习。
关键技术一:对比反馈作为文本梯度 (Contrastive Feedback as Textual Gradient)
- 给定训练样本(对话历史 H + 查询 x)
- 用当前指南 S^(k) 运行记忆进化 + Agent 回答,产生多条轨迹 {τ_i}
- 选出正确轨迹 τ+,其余作为对比负例 {τ_j^-}
- 用预定义反馈指令 P_g 比较 τ+ 和 τ_j^-,生成自然语言对比反思
- 这个反思就是文本梯度 g^(k):
g^(k) = Grad(τ+, {τ_j^-}; P_g)
文本梯度告诉指南:"你应该往这个方向改,因为正确轨迹做对了这些事,而负例做错了那些事。"
关键技术二:批次级梯度聚合 (Batch-Level Aggregation)
单个文本梯度只反映一个样本的局部信息。为了获得稳定的全局信号,MemCoE 在 mini-batch B 上聚合:
G^(k) = Aggr({g^(k)_(H,x)}; P_a)
聚合算子 Aggr(·) 是一个总结抽象过程(由聚合提示 P_a 引导),识别共同失败模式并整合为指南级别的修改建议。
关键技术三:自然语言优化 (Natural-Language Optimization)
用聚合后的文本梯度 G^(k) 更新指南:
S^(k+1) = Optim(S^(k), G^(k); P_o)
Optim(·) 是一个自然语言编辑操作。本质上,这是在执行梯度下降——但梯度是文本,参数也是文本。
优化目标
从对比学习的角度看,诱导出的指南 S* 最大化期望奖励:
S* = argmax_S E_(H,x)[R(τ+, {τ_j^-}; S)]
其中 R(·) 只是简单的"答案对不对"二元奖励。
关键洞察:MGI 不优化模型权重,而是优化"指导模型怎么更新记忆的指令"。这是一种元学习(meta-learning)——学习如何学习。
3.3 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠
目标:在指南 S* 的约束下,学习"记什么"——优化记忆进化策略 φ。
固定 S* 后,将 T 和 A 的参数 φ 视为统一的策略。对于每个训练样本 (H, x),在 S* 下 rollout 系统产生轨迹 τ:
τ = [M_0 → M_1 → ... → M_T, y_1, y_2, ..., y_T = final answer]
轨迹 τ 交织了记忆更新和中间回答。
指南对齐的奖励 (Guideline-Aligned Rewards)
MemCoE 使用两种奖励信号的加权组合:
信号一:指南遵循度 R_S(τ; S) ∈ [0,1]*
- 解析轨迹中的记忆更新片段
- 用 LLM 评分:更新是否严格遵循指南规定的输出格式(必填字段、标签、结构)
- 鼓励产生结构化、格式良好的记忆编辑,而非任意自由文本
信号二:答案正确度 R_ans(τ) ∈ {0,1}
- 比较最终回答与参考答案
- 简单的正确性信号,对齐记忆策略与下游性能
综合奖励:
R(τ) = (1-λ) * R_S(τ; S*) + λ * R_ans(τ)
λ 平衡指南保真度和答案准确率。
关键设计:为什么需要过程级奖励?
现有 RL-based 记忆系统(MemAgent、MEM-α)只依赖最终答案对不对作为奖励。这太稀疏了——Agent 在几十轮对话中做了很多记忆操作,但直到最后才知道整体好不好。
MemCoE 的 R_S 提供了一个密集的过程奖励:每一步记忆更新都有即时反馈("这次更新符合指南格式吗?")。这大大稳定了训练。
策略优化:GRPO
MemCoE 使用 Group Relative Policy Optimization (GRPO)——DeepSeek 在同期的论文中推广的方法。
对于每个 (H, x):
- 采样一组轨迹(group)
- 从 R(τ) 计算组内归一化优势(group-normalized advantages)
- 应用裁剪策略梯度更新
抽象目标:
φ* = argmax_φ E_(H,x)~D, τ~π_φ(·|H,x;S*) [R(τ)]
为什么用 GRPO 而非 PPO?
- GRPO 不需要额外的价值网络(critic),节省内存和计算
- 组内相对优势减少了奖励估计的方差
- 更适合对话这种长轨迹、多轮交互的场景
3.4 两阶段的协同效应
MemCoE 两阶段设计的精妙之处在于约束与聚焦:
- MGI(Stage 1) 定义了一个稳定的操作空间——"记忆可以这样组织、这样更新、这样格式化"
- GMPO(Stage 2) 在这个约束空间内优化——"给定这些操作,我应该选哪个、填什么内容"
没有 Stage 1 的约束,Stage 2 的自由编辑空间太大,RL 训练不稳定。 没有 Stage 2 的优化,Stage 1 的指南只是空洞的说明书,不会被执行。
两者结合:指南提供了结构,RL 提供了适应性。
四、实验验证:三个基准,全面碾压
4.1 实验设置
基准数据集:
| 基准 | 特点 | 指标 |
|---|---|---|
| PersonaMem | 长多会话历史,偏好演化,32K/128K 上下文 | Accuracy |
| PrefEval | 显式 vs 隐式偏好多选查询,1000 题/类,50 轮插入对话 | Accuracy |
| PersonaBench | 异构、有噪声的用户语料,个性化检索和 QA | F1 |
基线:
- LongContext:直接塞尽可能多的原始历史
- RAG:向量检索 top-K 对话片段
- Mem0 / A-Mem / LightMem:检索式外部记忆库
- MemAgent / MEM-α:RL-based 记忆代理
实现细节:
- 骨干:Qwen2.5-7B-Instruct(MEM-α 用 Qwen3-4B)
- 检索:all-MiniLM-L6-v2,Top-10
- 训练数据:PersonaMem 采样 300 例
- 每轮记忆进化输入:4K token chunk
- 硬件:4 张 A6000 GPU
4.2 主结果:Table 1(整体比较,8 个设置)
MemCoE 在所有 8 个评估设置上都是最佳:
PersonaMem(领域内):
- 32K 上下文:显著优于所有基线
- 128K 上下文:同样最佳,证明可扩展到更长历史
PrefEval(领域外,显式/隐式偏好):
- 显式偏好:MemCoE > MemAgent, MEM-α, Mem0, A-Mem, LightMem
- 隐式偏好:同样碾压
PersonaBench(领域外,不同噪声水平):
- 噪声 0.3 / 0.5 / 0.7:MemCoE 稳定领先,LongContext 在噪声下急剧退化
关键发现:
- LongContext 在噪声历史下严重退化——上下文窗口塞满噪声后,Agent 无法区分信号和噪声
- MemCoE 通过进化记忆时过滤无关内容,在噪声环境下依然稳健
- RL-based 基线(MemAgent、MEM-α)有竞争力,但整体仍落后——证明稀疏奖励确实不如过程级奖励
4.3 消融实验:Table 2
| 变体 | PersonaMem 32K | PrefEval Explicit | PrefEval Implicit |
|---|---|---|---|
| MemCoE (full) | 57.06 | 81.30 | 69.90 |
| w/o CF (对比反馈) | 56.44 (-0.62) | 78.30 (-3.00) | 68.10 (-1.80) |
| w/o GR (指南奖励) | 56.24 (-0.82) | 79.50 (-1.80) | 68.30 (-1.60) |
| w/o MGI (Stage 1) | 54.81 (-2.25) | 73.20 (-8.10) | 63.60 (-6.30) |
| w/o GMPO (Stage 2) | 53.37 (-3.69) | 77.40 (-3.90) | 66.20 (-3.70) |
| w/o ALL (两者都无) | 48.47 (-8.59) | 71.70 (-9.60) | 60.60 (-9.30) |
解读:
-
CF 和 GR 都有贡献,但单独移除影响较小(-0.6 到 -3.0)
- CF(对比反馈)帮助指南归纳更精准
- GR(指南奖励)帮助 RL 训练更稳定
-
移除 MGI(Stage 1) hurts 最严重的是 PrefEval(-8.1 / -6.3)
- 说明指南对偏好保持和推理性能至关重要
- 没有指南,RL 策略在自由编辑空间中迷路
-
移除 GMPO(Stage 2) hurts 最严重的是 PersonaMem(-3.69 / -3.97 on 128K)
- 说明 RL 优化对长程跟踪至关重要
- 仅靠指南,没有策略学习如何执行,长历史下表现差
-
两者都移除(w/o ALL)全面崩溃
- 退化成最基础的记忆更新,效果最差
- 证明两阶段缺一不可
4.4 效率分析:Figure 3
MemCoE 在性能-时间权衡上处于效率前沿(efficiency frontier)。
- 比 A-Mem 和 Mem0 更快——因为 MemCoE 把提取、更新、遗忘行为内部化到模型中,减少了反复调用 LLM 做提取和合并的开销
- 比 MemAgent 和 MEM-α 更好——它们虽然快,但记忆更新机制不可靠,性能差
这说明 MemCoE 的增益不是"堆资源换来的",而是设计上的结构性优势。
4.5 跨 LLM 迁移性:Table 3
这是最令人兴奋的发现之一:
在 Qwen2.5-7B 上优化出的指南,直接给其他 LLM 用(不加 RL 微调),效果如何?
| 评估模型 | RAG | A-Mem | MemCoE (Qwen优化) |
|---|---|---|---|
| gpt-4o-mini | 47.44 | 48.47 | 52.56 |
| gemini-2.5-flash | 61.15 | 62.37 | 64.62 |
| GPT-5 | 63.80 | 64.42 | 66.67 |
反过来:
| 评估模型 | MemCoE (gpt-4o-mini优化) |
|---|---|
| Qwen2.5-7B | 52.56 |
| gpt-4o-mini | 54.19 |
| gemini-2.5-flash | 64.83 |
| GPT-5 | 67.28 |
关键发现:
- 指南本身就有跨模型迁移能力
- 在更强的模型上优化指南,在更弱的模型上也能用(且优于基线)
- 在更弱的模型上优化,在更强的模型上也能进一步提升
这意味着:MGI 归纳出的记忆组织原则,是模型无关的"元知识"。
五、局限性与开放问题
论文诚实列出了几个局限:
局限一:对 Scorer 的依赖
Stage 2 的指南对齐奖励 R_S 依赖 LLM scorer 来评分"记忆更新是否符合指南格式"。如果 scorer 本身不可靠(比如对指南理解有偏差),奖励信号就有噪声。
局限二:误差累积
长历史被切成多轮 4K token chunks 处理时,小的更新误差会随时间累积,导致:
- 意外遗忘(unintended forgetting):本来该记住的被覆盖了
- 过度泛化(over-generalized entries):记忆变得模糊,丢失特异性
局限三:单目标优化
当前设计在固定指南下做单目标优化(最大化回答准确率)。扩展到多目标(如稳定性 vs 可塑性、信息量 vs 简洁性)需要额外的控制机制。
局限四:领域依赖
虽然指南可迁移,但 MGI 的归纳过程仍然依赖训练数据的领域分布。在极端不同的用户群体或应用场景中,可能需要重新归纳。
六、与同期工作的关系
MemCoE 发表于 ACL 2026(从视频标题推断),与同期的几篇记忆/进化论文形成有趣的对话:
| 论文 | 核心思想 | 与 MemCoE 的关系 |
|---|---|---|
| EvolveMem (UNC, arXiv 2605.13941) | 检索架构自进化(AutoResearch 闭环) | 互补:MemCoE 优化"更新策略",EvolveMem 优化"检索策略" |
| SkillsVote (MemTensor, arXiv 2605.18401) | Agent Skill 生命周期治理 | 平行:都在解决 Agent 系统的"自进化"问题,但层面不同 |
| Memory-R1 | RL 直接优化记忆操作 | MemCoE 改进:Memory-R1 用稀疏奖励,MemCoE 用过程级指南奖励 |
| Agentic Memory (GRPO 优化记忆管理) | 用 GRPO 优化记忆 | MemCoE 改进:加了指南约束,减少动作空间 |
| MemEvolve | 联合进化 Agent 知识和记忆架构 | 扩展:MemEvolve 更关注架构联合进化,MemCoE 关注策略优化 |
有趣的是,2026 年 5 月出现了多篇"记忆进化/自进化"主题的论文(MemCoE、EvolveMem、SkillsVote、AI Auto-Research 综述)。这表明Agent 记忆的自主优化已经成为一个明确的研究方向。
七、对 Agent 开发者的实践启示
7.1 如果你在用现有记忆库(Mem0/A-Mem/LightMem)
- 不要只依赖手工模板:MemCoE 证明,记忆更新指令是可以从数据中学习的
- 考虑加入"指南"层:在记忆更新之前,先有一个全局的"组织原则"指导具体更新
- 用过程级奖励训练更新策略:不要只等最终答案对不对,给中间的记忆操作也打分
7.2 如果你在设计新的记忆系统
- 解耦"组织"和"内容":前额叶-海马体的分工启发是有效的
- 先归纳指南,再训练策略:MGI 先稳定框架,GMPO 再在框架内优化——这比端到端自由学习更稳定
- 考虑跨模型部署:在便宜的小模型上归纳指南,在昂贵的大模型上执行策略
7.3 指南设计的具体建议
论文在附录 Figure 19 中展示了诱导出的实际指南内容(虽然 fetch 内容中没有完整显示),但可以推测其结构:
记忆更新指南(示例推测):
1. 每条记忆必须包含:类型标签、时间戳、置信度、来源对话ID
2. 事实记忆用"FACT:"前缀,偏好用"PREF:"前缀,事件用"EVENT:"前缀
3. 更新时遵循"去重优先"原则:如果新信息与已有记忆冲突,保留置信度更高的
4. 对于隐式偏好,提取用户的行为模式而非直接陈述
5. 定期(每10轮)检查记忆一致性,合并冗余条目
MemCoE 的 MGI 从数据中自动诱导出类似的指南,而非手工编写。
八、更深层的意义:从"记忆内容"到"记忆策略"的范式转移
MemCoE 代表了一个重要的范式转移:
上一代记忆系统:
"怎么存" → 手工设计
"存什么" → 模板提取
"怎么更新" → 规则驱动
MemCoE:
"怎么组织" → 从数据归纳(MGI)
"怎么更新" → 在指南约束下 RL 学习(GMPO)
"存什么" → 策略决定
这意味着:记忆系统的"策略层"本身变成了可学习的对象。
这与深度学习的历史形成了有趣的类比:
- 2012 年前:手工设计特征(SIFT、HOG)
- 2012 年后:端到端学习特征
- 2024 年前:手工设计记忆更新规则
- 2024 年后:学习记忆更新策略(MemCoE、EvolveMem 等)
MemCoE 的独特之处在于:它不是完全端到端地让模型自由学习,而是借鉴认知科学的分工结构,先学"框架"再学"执行"。这种结构化的学习方法比纯端到端更稳定、更可解释、更可迁移。
九、结论:让 Agent 像人一样"先搭框架,再填内容"
MemCoE 的核心贡献可以用一句话概括:
把认知心理学前额叶-海马体的分工机制,翻译成 LLM Agent 的两阶段优化框架。
- Stage 1 (MGI):像前额叶一样,从经验中归纳出"记忆的组织原则"(指南)
- Stage 2 (GMPO):像海马体一样,在原则的约束下灵活学习"记什么内容"
这个设计的优雅之处在于:
- 解耦了"怎么记"和"记什么",降低了各自的学习难度
- 指南提供了约束,缩小了 RL 的动作空间,使训练更稳定
- 过程级奖励(指南遵循度)提供了密集的优化信号
- 跨模型迁移证明归纳出的组织原则是模型无关的元知识
论文的实验很扎实:三个基准、八个设置、全面消融、效率分析、跨 LLM 迁移——每一项都支持核心主张。
对于正在构建长期记忆 Agent 的开发者来说,MemCoE 提供了一套可以立即落地的设计原则:
不要让你的 Agent 在记忆海洋里 freestyle。先教它"怎么游"(指南),再让它自己决定"往哪游"(策略)。
参考链接
- arXiv 论文:https://arxiv.org/abs/2605.00702
- 代码仓库:https://github.com/Applied-Machine-Learning-Lab/ACL2026_MemCoE
- PersonaMem 基准:Jiang et al., 2025a
- PrefEval 基准:Zhao et al., 2025
- PersonaBench 基准:Tan et al., 2025a
- 记忆模式理论:Alba & Hasher, 1983
- GRPO:Shao et al., 2024 (DeepSeekMath)
- TextGrad:Yuksekgonul et al., 2025
- Mem0:https://github.com/mem0ai/mem0
- MemAgent:Yu et al., 2025
- MEM-α:Zhou et al., 2025
#AI #LLM #Agent #记忆系统 #认知心理学 #强化学习 #GRPO #个性化 #ACL2026 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。