先学怎么记,再学记什么:MemCoE 把认知心理学搬进 LLM Agent 记忆系统
> 一句话结论:中科大+港城大团队从认知心理学的"记忆模式理论"偷了个师——人脑前额叶负责"怎么组织记忆",海马体负责"记什么内容"。MemCoE 把这个分工搬到 LLM Agent 上:第一阶段用对比反馈+文本梯度归纳出全局"记忆指南"(类似前额叶的 schema),第二阶段用指南对齐的奖励信号做多轮 RL 训练,学习在指南约束下"记什么"。在 PersonaMem、PrefEval、PersonaBench 三个个性化记忆基准上全面碾压基线,而且归纳出的指南能跨 LLM 迁移(Qwen 上优化,GPT-5 上直接用)。
---
一、问题:你的 Agent 记了一大堆,但全是乱的
LLM Agent 要长期陪伴用户,必须记住用户是谁、喜欢什么、说过什么。
但现有记忆系统有两大致命缺陷:
缺陷一:静态模板,不会学
大多数系统(Mem0、A-MEM、LightMem)靠手工设计的提取模板和更新规则运作。用户说"我喜欢辣",系统按模板提取成"偏好:辣"。这个流程是写死的,不会从交互反馈中学习,也不会适应不同用户风格。
缺陷二:RL 代理,但奖励太稀疏
另一派(MemAgent、MEM-α)把记忆更新当成 RL 问题,让 Agent 自己决定"写什么、删什么"。但记忆更新的奖励通常是最终答案对不对——一个极其稀疏且延迟的信号。这导致训练不稳定、数据需求大、长程优化困难。
论文一针见血地指出:
> "When guided by only simple instructions and optimized with sparse and delayed outcome-level rewards, the policy is weakly constrained and faces a large action space, making exploration and long-horizon optimization challenging."
换句话说:让 Agent 自由编辑记忆,就像让一个没有导航的人在城市里找路——空间太大,信号太弱,很容易迷路。
---
二、灵感来源:人脑早就解决了这个问题
MemCoE 的灵感来自认知心理学的记忆模式理论(Memory Schema Theory, Alba and Hasher, 1983)。
这个理论说,人脑的记忆系统有两个分工明确的区域:
| 脑区 | 功能 | 类比到 MemCoE |
|---|---|---|
| 前额叶 (Prefrontal) | 动态选择和配置"schema"(组织框架),塑造期望和注意力优先级 | Stage 1: Memory Guideline Induction (MGI) ♣ |
| 海马体 (Hippocampus) | 在 schema 的骨架下,编码具体的情景细节 | Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠ |
这个分工的优势是解耦——"怎么组织"和"记什么"分开处理:
- 组织模式(schema)稳定、抽象、可迁移
- 具体内容灵活、情景化、个性化
---
三、MemCoE 架构:两阶段优化框架
3.1 形式化定义
论文把记忆进化过程形式化为:
M_{t+1} = T(M_t, h_t; S, φ)
- M_t:t 时刻的用户记忆库(文本表示)
- h_t:第 t 轮对话片段
- S:记忆更新指令(可优化的自然语言参数 = "指南")
- φ:LLM 的参数
- T:进化算子(整合新信息、精炼旧条目、删除过时内容)
y_t = A(x, M_t)
核心挑战:设计一个原则性的机制 T,让 M_t 与对话历史 H 相干地进化。
3.2 Stage 1: Memory Guideline Induction (MGI) ♣
目标:学习"怎么组织记忆"——诱导出一个高质量的全局记忆指南 S*。
传统方法靠手工设计模板, brittle 且难以跨域迁移。MemCoE 把 S 当作一个全局自然语言参数,从数据中自动学习。
#### 关键技术一:对比反馈作为文本梯度 (Contrastive Feedback as Textual Gradient)
1. 给定训练样本(对话历史 H + 查询 x) 2. 用当前指南 S^(k) 运行记忆进化 + Agent 回答,产生多条轨迹 {τ_i} 3. 选出正确轨迹 τ+,其余作为对比负例 {τ_j^-} 4. 用预定义反馈指令 P_g 比较 τ+ 和 τ_j^-,生成自然语言对比反思 5. 这个反思就是文本梯度 g^(k):
g^(k) = Grad(τ+, {τ_j^-}; P_g)
文本梯度告诉指南:"你应该往这个方向改,因为正确轨迹做对了这些事,而负例做错了那些事。"
#### 关键技术二:批次级梯度聚合 (Batch-Level Aggregation)
单个文本梯度只反映一个样本的局部信息。为了获得稳定的全局信号,MemCoE 在 mini-batch B 上聚合:
G^(k) = Aggr({g^(k)_(H,x)}; P_a)
聚合算子 Aggr(·) 是一个总结抽象过程(由聚合提示 P_a 引导),识别共同失败模式并整合为指南级别的修改建议。
#### 关键技术三:自然语言优化 (Natural-Language Optimization)
用聚合后的文本梯度 G^(k) 更新指南:
S^(k+1) = Optim(S^(k), G^(k); P_o)
Optim(·) 是一个自然语言编辑操作。本质上,这是在执行梯度下降——但梯度是文本,参数也是文本。
#### 优化目标
从对比学习的角度看,诱导出的指南 S* 最大化期望奖励:
S* = argmax_S E_(H,x)[R(τ+, {τ_j^-}; S)]
其中 R(·) 只是简单的"答案对不对"二元奖励。
关键洞察:MGI 不优化模型权重,而是优化"指导模型怎么更新记忆的指令"。这是一种元学习(meta-learning)——学习如何学习。
3.3 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠
目标:在指南 S* 的约束下,学习"记什么"——优化记忆进化策略 φ。
固定 S* 后,将 T 和 A 的参数 φ 视为统一的策略。对于每个训练样本 (H, x),在 S* 下 rollout 系统产生轨迹 τ:
τ = [M_0 → M_1 → ... → M_T, y_1, y_2, ..., y_T = final answer]
轨迹 τ 交织了记忆更新和中间回答。
#### 指南对齐的奖励 (Guideline-Aligned Rewards)
MemCoE 使用两种奖励信号的加权组合:
**信号一:指南遵循度 R_S(τ; S*) ∈ [0,1]
结构化、格式良好的记忆编辑,而非任意自由文本
信号二:答案正确度 R_ans(τ) ∈ {0,1}
综合奖励:
R(τ) = (1-λ) * R_S(τ; S*) + λ * R_ans(τ)
λ 平衡指南保真度和答案准确率。
#### 关键设计:为什么需要过程级奖励?
现有 RL-based 记忆系统(MemAgent、MEM-α)只依赖最终答案对不对作为奖励。这太稀疏了——Agent 在几十轮对话中做了很多记忆操作,但直到最后才知道整体好不好。
MemCoE 的 R_S 提供了一个密集的过程奖励:每一步记忆更新都有即时反馈("这次更新符合指南格式吗?")。这大大稳定了训练。
#### 策略优化:GRPO
MemCoE 使用 Group Relative Policy Optimization (GRPO)——DeepSeek 在同期的论文中推广的方法。
对于每个 (H, x): 1. 采样一组轨迹(group) 2. 从 R(τ) 计算组内归一化优势(group-normalized advantages) 3. 应用裁剪策略梯度更新
抽象目标:
φ* = argmax_φ E_(H,x)~D, τ~π_φ(·|H,x;S*) [R(τ)]
为什么用 GRPO 而非 PPO?
3.4 两阶段的协同效应
MemCoE 两阶段设计的精妙之处在于约束与聚焦:
MGI(Stage 1) 定义了一个稳定的操作空间——"记忆可以这样组织、这样更新、这样格式化"
GMPO(Stage 2) 在这个约束空间内优化——"给定这些操作,我应该选哪个、填什么内容"
没有 Stage 1 的约束,Stage 2 的自由编辑空间太大,RL 训练不稳定。
没有 Stage 2 的优化,Stage 1 的指南只是空洞的说明书,不会被执行。
两者结合:指南提供了结构,RL 提供了适应性。
---
四、实验验证:三个基准,全面碾压
4.1 实验设置
基准数据集:
| 基准 | 特点 | 指标 |
|---|---|---|
| PersonaMem | 长多会话历史,偏好演化,32K/128K 上下文 | Accuracy |
| PrefEval | 显式 vs 隐式偏好多选查询,1000 题/类,50 轮插入对话 | Accuracy |
| PersonaBench | 异构、有噪声的用户语料,个性化检索和 QA | F1 |
- 骨干:Qwen2.5-7B-Instruct(MEM-α 用 Qwen3-4B)
- 检索:all-MiniLM-L6-v2,Top-10
- 训练数据:PersonaMem 采样 300 例
- 每轮记忆进化输入:4K token chunk
- 硬件:4 张 A6000 GPU
4.2 主结果:Table 1(整体比较,8 个设置)
MemCoE 在
所有 8 个评估设置上都是最佳:PersonaMem(领域内):- 32K 上下文:显著优于所有基线
- 128K 上下文:同样最佳,证明可扩展到更长历史
- 显式偏好:MemCoE > MemAgent, MEM-α, Mem0, A-Mem, LightMem
- 隐式偏好:同样碾压
- 噪声 0.3 / 0.5 / 0.7:MemCoE 稳定领先,LongContext 在噪声下急剧退化
4.3 消融实验:Table 2
| 变体 | PersonaMem 32K | PrefEval Explicit | PrefEval Implicit |
|---|---|---|---|
| MemCoE (full) | 57.06 | 81.30 | 69.90 |
| w/o CF (对比反馈) | 56.44 (-0.62) | 78.30 (-3.00) | 68.10 (-1.80) |
| w/o GR (指南奖励) | 56.24 (-0.82) | 79.50 (-1.80) | 68.30 (-1.60) |
| w/o MGI (Stage 1) | 54.81 (-2.25) | 73.20 (-8.10) | 63.60 (-6.30) |
| w/o GMPO (Stage 2) | 53.37 (-3.69) | 77.40 (-3.90) | 66.20 (-3.70) |
| w/o ALL (两者都无) | 48.47 (-8.59) | 71.70 (-9.60) | 60.60 (-9.30) |
1.
CF 和 GR 都有贡献,但单独移除影响较小(-0.6 到 -3.0)- CF(对比反馈)帮助指南归纳更精准
- GR(指南奖励)帮助 RL 训练更稳定
- 说明指南对偏好保持和推理性能至关重要
- 没有指南,RL 策略在自由编辑空间中迷路
- 说明 RL 优化对长程跟踪至关重要
- 仅靠指南,没有策略学习如何执行,长历史下表现差
- 退化成最基础的记忆更新,效果最差
- 证明两阶段缺一不可
4.4 效率分析:Figure 3
MemCoE 在
性能-时间权衡上处于效率前沿(efficiency frontier)。- 比 A-Mem 和 Mem0
4.5 跨 LLM 迁移性:Table 3
这是最令人兴奋的发现之一:
在 Qwen2.5-7B 上优化出的指南,直接给其他 LLM 用(不加 RL 微调),效果如何?| 评估模型 | RAG | A-Mem | MemCoE (Qwen优化) |
|---|---|---|---|
| gpt-4o-mini | 47.44 | 48.47 | 52.56 |
| gemini-2.5-flash | 61.15 | 62.37 | 64.62 |
| GPT-5 | 63.80 | 64.42 | 66.67 |
| 评估模型 | MemCoE (gpt-4o-mini优化) |
|---|---|
| Qwen2.5-7B | 52.56 |
| gpt-4o-mini | 54.19 |
| gemini-2.5-flash | 64.83 |
| GPT-5 | 67.28 |
- 指南本身就有
---
五、局限性与开放问题
论文诚实列出了几个局限:
局限一:对 Scorer 的依赖
Stage 2 的指南对齐奖励 R_S 依赖 LLM scorer 来评分"记忆更新是否符合指南格式"。如果 scorer 本身不可靠(比如对指南理解有偏差),奖励信号就有噪声。
局限二:误差累积
长历史被切成多轮 4K token chunks 处理时,小的更新误差会随时间累积,导致:
- 意外遗忘(unintended forgetting):本来该记住的被覆盖了
- 过度泛化(over-generalized entries):记忆变得模糊,丢失特异性
局限三:单目标优化
当前设计在固定指南下做单目标优化(最大化回答准确率)。扩展到多目标(如稳定性 vs 可塑性、信息量 vs 简洁性)需要额外的控制机制。
局限四:领域依赖
虽然指南可迁移,但 MGI 的归纳过程仍然依赖训练数据的领域分布。在极端不同的用户群体或应用场景中,可能需要重新归纳。
---
六、与同期工作的关系
MemCoE 发表于 ACL 2026(从视频标题推断),与同期的几篇记忆/进化论文形成有趣的对话:
| 论文 | 核心思想 | 与 MemCoE 的关系 |
|---|---|---|
| EvolveMem (UNC, arXiv 2605.13941) | 检索架构自进化(AutoResearch 闭环) | 互补:MemCoE 优化"更新策略",EvolveMem 优化"检索策略" |
| SkillsVote (MemTensor, arXiv 2605.18401) | Agent Skill 生命周期治理 | 平行:都在解决 Agent 系统的"自进化"问题,但层面不同 |
| Memory-R1 | RL 直接优化记忆操作 | MemCoE 改进:Memory-R1 用稀疏奖励,MemCoE 用过程级指南奖励 |
| Agentic Memory (GRPO 优化记忆管理) | 用 GRPO 优化记忆 | MemCoE 改进:加了指南约束,减少动作空间 |
| MemEvolve | 联合进化 Agent 知识和记忆架构 | 扩展:MemEvolve 更关注架构联合进化,MemCoE 关注策略优化 |
---
七、对 Agent 开发者的实践启示
7.1 如果你在用现有记忆库(Mem0/A-Mem/LightMem)
1.
不要只依赖手工模板:MemCoE 证明,记忆更新指令是可以从数据中学习的 2. 考虑加入"指南"层:在记忆更新之前,先有一个全局的"组织原则"指导具体更新 3. 用过程级奖励训练更新策略:不要只等最终答案对不对,给中间的记忆操作也打分7.2 如果你在设计新的记忆系统
1.
解耦"组织"和"内容":前额叶-海马体的分工启发是有效的 2. 先归纳指南,再训练策略:MGI 先稳定框架,GMPO 再在框架内优化——这比端到端自由学习更稳定 3. 考虑跨模型部署:在便宜的小模型上归纳指南,在昂贵的大模型上执行策略7.3 指南设计的具体建议
论文在附录 Figure 19 中展示了诱导出的实际指南内容(虽然 fetch 内容中没有完整显示),但可以推测其结构:
记忆更新指南(示例推测):
1. 每条记忆必须包含:类型标签、时间戳、置信度、来源对话ID
2. 事实记忆用"FACT:"前缀,偏好用"PREF:"前缀,事件用"EVENT:"前缀
3. 更新时遵循"去重优先"原则:如果新信息与已有记忆冲突,保留置信度更高的
4. 对于隐式偏好,提取用户的行为模式而非直接陈述
5. 定期(每10轮)检查记忆一致性,合并冗余条目
MemCoE 的 MGI 从数据中自动诱导出类似的指南,而非手工编写。
---
八、更深层的意义:从"记忆内容"到"记忆策略"的范式转移
MemCoE 代表了一个重要的范式转移:
上一代记忆系统:
"怎么存" → 手工设计
"存什么" → 模板提取
"怎么更新" → 规则驱动
MemCoE:
"怎么组织" → 从数据归纳(MGI)
"怎么更新" → 在指南约束下 RL 学习(GMPO)
"存什么" → 策略决定
这意味着:
记忆系统的"策略层"本身变成了可学习的对象。这与深度学习的历史形成了有趣的类比:
- 2012 年前:手工设计特征(SIFT、HOG)
- 2012 年后:端到端学习特征
- 2024 年前:手工设计记忆更新规则
- 2024 年后:学习记忆更新策略(MemCoE、EvolveMem 等)
---
九、结论:让 Agent 像人一样"先搭框架,再填内容"
MemCoE 的核心贡献可以用一句话概括:
把认知心理学前额叶-海马体的分工机制,翻译成 LLM Agent 的两阶段优化框架。论文的实验很扎实:三个基准、八个设置、全面消融、效率分析、跨 LLM 迁移——每一项都支持核心主张。
对于正在构建长期记忆 Agent 的开发者来说,MemCoE 提供了一套可以立即落地的设计原则:
> 不要让你的 Agent 在记忆海洋里 freestyle。先教它"怎么游"(指南),再让它自己决定"往哪游"(策略)。
---
参考链接
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens