先学怎么记，再学记什么：MemCoE 把认知心理学搬进 LLM Agent 记忆系统

> 一句话结论：中科大+港城大团队从认知心理学的"记忆模式理论"偷了个师——人脑前额叶负责"怎么组织记忆"，海马体负责"记什么内容"。MemCoE 把这个分工搬到 LLM Agent 上：第一阶段用对比反馈+文本梯度归纳出全局"记忆指南"（类似前额叶的 schema），第二阶段用指南对齐的奖励信号做多轮 RL 训练，学习在指南约束下"记什么"。在 PersonaMem、PrefEval、PersonaBench 三个个性化记忆基准上全面碾压基线，而且归纳出的指南能跨 LLM 迁移（Qwen 上优化，GPT-5 上直接用）。

---

一、问题：你的 Agent 记了一大堆，但全是乱的

LLM Agent 要长期陪伴用户，必须记住用户是谁、喜欢什么、说过什么。

但现有记忆系统有两大致命缺陷：

缺陷一：静态模板，不会学

大多数系统（Mem0、A-MEM、LightMem）靠手工设计的提取模板和更新规则运作。用户说"我喜欢辣"，系统按模板提取成"偏好：辣"。这个流程是写死的，不会从交互反馈中学习，也不会适应不同用户风格。

缺陷二：RL 代理，但奖励太稀疏

另一派（MemAgent、MEM-α）把记忆更新当成 RL 问题，让 Agent 自己决定"写什么、删什么"。但记忆更新的奖励通常是最终答案对不对——一个极其稀疏且延迟的信号。这导致训练不稳定、数据需求大、长程优化困难。

论文一针见血地指出：

> "When guided by only simple instructions and optimized with sparse and delayed outcome-level rewards, the policy is weakly constrained and faces a large action space, making exploration and long-horizon optimization challenging."

换句话说：让 Agent 自由编辑记忆，就像让一个没有导航的人在城市里找路——空间太大，信号太弱，很容易迷路。

---

二、灵感来源：人脑早就解决了这个问题

MemCoE 的灵感来自认知心理学的记忆模式理论（Memory Schema Theory, Alba and Hasher, 1983）。

这个理论说，人脑的记忆系统有两个分工明确的区域：

脑区	功能	类比到 MemCoE
前额叶 (Prefrontal)	动态选择和配置"schema"（组织框架），塑造期望和注意力优先级	Stage 1: Memory Guideline Induction (MGI) ♣
海马体 (Hippocampus)	在 schema 的骨架下，编码具体的情景细节	Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠

关键洞察：前额叶提供一个稳定的组织框架，海马体在这个框架下灵活编码具体内容。

这个分工的优势是解耦——"怎么组织"和"记什么"分开处理：

组织模式（schema）稳定、抽象、可迁移
具体内容灵活、情景化、个性化

MemCoE 的核心问题就是：能不能让 LLM Agent 的记忆系统也具备这种"先定框架，再填内容"的双层结构？

---

三、MemCoE 架构：两阶段优化框架

3.1 形式化定义

论文把记忆进化过程形式化为：

M_{t+1} = T(M_t, h_t; S, φ)

M_t：t 时刻的用户记忆库（文本表示）
h_t：第 t 轮对话片段
S：记忆更新指令（可优化的自然语言参数 = "指南"）
φ：LLM 的参数
T：进化算子（整合新信息、精炼旧条目、删除过时内容）

给定查询 x，Agent 的回答为：

y_t = A(x, M_t)

核心挑战：设计一个原则性的机制 T，让 M_t 与对话历史 H 相干地进化。

3.2 Stage 1: Memory Guideline Induction (MGI) ♣

目标：学习"怎么组织记忆"——诱导出一个高质量的全局记忆指南 S*。

传统方法靠手工设计模板， brittle 且难以跨域迁移。MemCoE 把 S 当作一个全局自然语言参数，从数据中自动学习。

#### 关键技术一：对比反馈作为文本梯度 (Contrastive Feedback as Textual Gradient)

1. 给定训练样本（对话历史 H + 查询 x） 2. 用当前指南 S^(k) 运行记忆进化 + Agent 回答，产生多条轨迹 {τ_i} 3. 选出正确轨迹 τ+，其余作为对比负例 {τ_j^-} 4. 用预定义反馈指令 P_g 比较 τ+ 和 τ_j^-，生成自然语言对比反思 5. 这个反思就是文本梯度 g^(k)：

g^(k) = Grad(τ+, {τ_j^-}; P_g)

文本梯度告诉指南："你应该往这个方向改，因为正确轨迹做对了这些事，而负例做错了那些事。"

#### 关键技术二：批次级梯度聚合 (Batch-Level Aggregation)

单个文本梯度只反映一个样本的局部信息。为了获得稳定的全局信号，MemCoE 在 mini-batch B 上聚合：

G^(k) = Aggr({g^(k)_(H,x)}; P_a)

聚合算子 Aggr(·) 是一个总结抽象过程（由聚合提示 P_a 引导），识别共同失败模式并整合为指南级别的修改建议。

#### 关键技术三：自然语言优化 (Natural-Language Optimization)

用聚合后的文本梯度 G^(k) 更新指南：

S^(k+1) = Optim(S^(k), G^(k); P_o)

Optim(·) 是一个自然语言编辑操作。本质上，这是在执行梯度下降——但梯度是文本，参数也是文本。

#### 优化目标

从对比学习的角度看，诱导出的指南 S* 最大化期望奖励：

S* = argmax_S E_(H,x)[R(τ+, {τ_j^-}; S)]

其中 R(·) 只是简单的"答案对不对"二元奖励。

关键洞察：MGI 不优化模型权重，而是优化"指导模型怎么更新记忆的指令"。这是一种元学习（meta-learning）——学习如何学习。

3.3 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠

目标：在指南 S* 的约束下，学习"记什么"——优化记忆进化策略 φ。

固定 S* 后，将 T 和 A 的参数 φ 视为统一的策略。对于每个训练样本 (H, x)，在 S* 下 rollout 系统产生轨迹 τ：

τ = [M_0 → M_1 → ... → M_T, y_1, y_2, ..., y_T = final answer]

轨迹 τ 交织了记忆更新和中间回答。

#### 指南对齐的奖励 (Guideline-Aligned Rewards)

MemCoE 使用两种奖励信号的加权组合：

**信号一：指南遵循度 R_S(τ; S*) ∈ [0,1]

解析轨迹中的记忆更新片段

用 LLM 评分：更新是否严格遵循指南规定的输出格式（必填字段、标签、结构）

鼓励产生结构化、格式良好的记忆编辑，而非任意自由文本

信号二：答案正确度 R_ans(τ) ∈ {0,1}
比较最终回答与参考答案

简单的正确性信号，对齐记忆策略与下游性能

综合奖励：
R(τ) = (1-λ) * R_S(τ; S*) + λ * R_ans(τ)
λ 平衡指南保真度和答案准确率。
#### 关键设计：为什么需要过程级奖励？
现有 RL-based 记忆系统（MemAgent、MEM-α）只依赖最终答案对不对作为奖励。这太稀疏了——Agent 在几十轮对话中做了很多记忆操作，但直到最后才知道整体好不好。

MemCoE 的 R_S 提供了一个密集的过程奖励：每一步记忆更新都有即时反馈（"这次更新符合指南格式吗？"）。这大大稳定了训练。

#### 策略优化：GRPO

MemCoE 使用 Group Relative Policy Optimization (GRPO)——DeepSeek 在同期的论文中推广的方法。

对于每个 (H, x)： 1. 采样一组轨迹（group） 2. 从 R(τ) 计算组内归一化优势（group-normalized advantages） 3. 应用裁剪策略梯度更新

抽象目标：

φ* = argmax_φ E_(H,x)~D, τ~π_φ(·|H,x;S*) [R(τ)]

为什么用 GRPO 而非 PPO？

GRPO 不需要额外的价值网络（critic），节省内存和计算

组内相对优势减少了奖励估计的方差

更适合对话这种长轨迹、多轮交互的场景

3.4 两阶段的协同效应

MemCoE 两阶段设计的精妙之处在于约束与聚焦：

MGI（Stage 1） 定义了一个稳定的操作空间——"记忆可以这样组织、这样更新、这样格式化"

GMPO（Stage 2） 在这个约束空间内优化——"给定这些操作，我应该选哪个、填什么内容"

没有 Stage 1 的约束，Stage 2 的自由编辑空间太大，RL 训练不稳定。没有 Stage 2 的优化，Stage 1 的指南只是空洞的说明书，不会被执行。

两者结合：指南提供了结构，RL 提供了适应性。

---

四、实验验证：三个基准，全面碾压

4.1 实验设置

基准数据集：

基准	特点	指标
PersonaMem	长多会话历史，偏好演化，32K/128K 上下文	Accuracy
PrefEval	显式 vs 隐式偏好多选查询，1000 题/类，50 轮插入对话	Accuracy
PersonaBench	异构、有噪声的用户语料，个性化检索和 QA	F1

基线：

LongContext：直接塞尽可能多的原始历史

RAG：向量检索 top-K 对话片段

Mem0 / A-Mem / LightMem：检索式外部记忆库

MemAgent / MEM-α：RL-based 记忆代理

实现细节：
骨干：Qwen2.5-7B-Instruct（MEM-α 用 Qwen3-4B）

检索：all-MiniLM-L6-v2，Top-10

训练数据：PersonaMem 采样 300 例

每轮记忆进化输入：4K token chunk

硬件：4 张 A6000 GPU

4.2 主结果：Table 1（整体比较，8 个设置）

MemCoE 在所有 8 个评估设置上都是最佳：

PersonaMem（领域内）：

32K 上下文：显著优于所有基线

128K 上下文：同样最佳，证明可扩展到更长历史

PrefEval（领域外，显式/隐式偏好）：
显式偏好：MemCoE > MemAgent, MEM-α, Mem0, A-Mem, LightMem

隐式偏好：同样碾压

PersonaBench（领域外，不同噪声水平）：
噪声 0.3 / 0.5 / 0.7：MemCoE 稳定领先，LongContext 在噪声下急剧退化

关键发现：

LongContext 在噪声历史下严重退化——上下文窗口塞满噪声后，Agent 无法区分信号和噪声

MemCoE 通过进化记忆时过滤无关内容，在噪声环境下依然稳健

RL-based 基线（MemAgent、MEM-α）有竞争力，但整体仍落后——证明稀疏奖励确实不如过程级奖励

变体	PersonaMem 32K	PrefEval Explicit	PrefEval Implicit
MemCoE (full)	57.06	81.30	69.90
w/o CF (对比反馈)	56.44 (-0.62)	78.30 (-3.00)	68.10 (-1.80)
w/o GR (指南奖励)	56.24 (-0.82)	79.50 (-1.80)	68.30 (-1.60)
w/o MGI (Stage 1)	54.81 (-2.25)	73.20 (-8.10)	63.60 (-6.30)
w/o GMPO (Stage 2)	53.37 (-3.69)	77.40 (-3.90)	66.20 (-3.70)
w/o ALL (两者都无)	48.47 (-8.59)	71.70 (-9.60)	60.60 (-9.30)

4.3 消融实验：Table 2
变体 PersonaMem 32K PrefEval Explicit PrefEval Implicit
MemCoE (full) 57.06 81.30 69.90
w/o CF (对比反馈) 56.44 (-0.62) 78.30 (-3.00) 68.10 (-1.80)
w/o GR (指南奖励) 56.24 (-0.82) 79.50 (-1.80) 68.30 (-1.60)
w/o MGI (Stage 1) 54.81 (-2.25) 73.20 (-8.10) 63.60 (-6.30)
w/o GMPO (Stage 2) 53.37 (-3.69) 77.40 (-3.90) 66.20 (-3.70)
w/o ALL (两者都无) 48.47 (-8.59) 71.70 (-9.60) 60.60 (-9.30)
解读：

1. CF 和 GR 都有贡献，但单独移除影响较小（-0.6 到 -3.0）

CF（对比反馈）帮助指南归纳更精准

GR（指南奖励）帮助 RL 训练更稳定

2. 移除 MGI（Stage 1） hurts 最严重的是 PrefEval（-8.1 / -6.3）
说明指南对偏好保持和推理性能至关重要

没有指南，RL 策略在自由编辑空间中迷路

3. 移除 GMPO（Stage 2） hurts 最严重的是 PersonaMem（-3.69 / -3.97 on 128K）
说明 RL 优化对长程跟踪至关重要

仅靠指南，没有策略学习如何执行，长历史下表现差

4. 两者都移除（w/o ALL）全面崩溃
退化成最基础的记忆更新，效果最差

证明两阶段缺一不可

4.4 效率分析：Figure 3

MemCoE 在性能-时间权衡上处于效率前沿（efficiency frontier）。

比 A-Mem 和 Mem0 更快——因为 MemCoE 把提取、更新、遗忘行为内部化到模型中，减少了反复调用 LLM 做提取和合并的开销

比 MemAgent 和 MEM-α 更好——它们虽然快，但记忆更新机制不可靠，性能差

这说明 MemCoE 的增益不是"堆资源换来的"，而是设计上的结构性优势。
4.5 跨 LLM 迁移性：Table 3
这是最令人兴奋的发现之一：

在 Qwen2.5-7B 上优化出的指南，直接给其他 LLM 用（不加 RL 微调），效果如何？

评估模型	RAG	A-Mem	MemCoE (Qwen优化)
gpt-4o-mini	47.44	48.47	52.56
gemini-2.5-flash	61.15	62.37	64.62
GPT-5	63.80	64.42	66.67

评估模型	MemCoE (gpt-4o-mini优化)
Qwen2.5-7B	52.56
gpt-4o-mini	54.19
gemini-2.5-flash	64.83
GPT-5	67.28

反过来：
评估模型 MemCoE (gpt-4o-mini优化)
Qwen2.5-7B 52.56
gpt-4o-mini 54.19
gemini-2.5-flash 64.83
GPT-5 67.28
关键发现：

指南本身就有跨模型迁移能力

在更强的模型上优化指南，在更弱的模型上也能用（且优于基线）

在更弱的模型上优化，在更强的模型上也能进一步提升

论文	核心思想	与 MemCoE 的关系
EvolveMem (UNC, arXiv 2605.13941)	检索架构自进化（AutoResearch 闭环）	互补：MemCoE 优化"更新策略"，EvolveMem 优化"检索策略"
SkillsVote (MemTensor, arXiv 2605.18401)	Agent Skill 生命周期治理	平行：都在解决 Agent 系统的"自进化"问题，但层面不同
Memory-R1	RL 直接优化记忆操作	MemCoE 改进：Memory-R1 用稀疏奖励，MemCoE 用过程级指南奖励
Agentic Memory (GRPO 优化记忆管理)	用 GRPO 优化记忆	MemCoE 改进：加了指南约束，减少动作空间
MemEvolve	联合进化 Agent 知识和记忆架构	扩展：MemEvolve 更关注架构联合进化，MemCoE 关注策略优化

这意味着：MGI 归纳出的记忆组织原则，是模型无关的"元知识"。
---
五、局限性与开放问题
论文诚实列出了几个局限：
局限一：对 Scorer 的依赖
Stage 2 的指南对齐奖励 R_S 依赖 LLM scorer 来评分"记忆更新是否符合指南格式"。如果 scorer 本身不可靠（比如对指南理解有偏差），奖励信号就有噪声。
局限二：误差累积
长历史被切成多轮 4K token chunks 处理时，小的更新误差会随时间累积，导致：
意外遗忘（unintended forgetting）：本来该记住的被覆盖了

过度泛化（over-generalized entries）：记忆变得模糊，丢失特异性

局限三：单目标优化
当前设计在固定指南下做单目标优化（最大化回答准确率）。扩展到多目标（如稳定性 vs 可塑性、信息量 vs 简洁性）需要额外的控制机制。
局限四：领域依赖
虽然指南可迁移，但 MGI 的归纳过程仍然依赖训练数据的领域分布。在极端不同的用户群体或应用场景中，可能需要重新归纳。
---
六、与同期工作的关系
MemCoE 发表于 ACL 2026（从视频标题推断），与同期的几篇记忆/进化论文形成有趣的对话：
论文核心思想与 MemCoE 的关系
EvolveMem (UNC, arXiv 2605.13941) 检索架构自进化（AutoResearch 闭环）互补：MemCoE 优化"更新策略"，EvolveMem 优化"检索策略"
SkillsVote (MemTensor, arXiv 2605.18401) Agent Skill 生命周期治理平行：都在解决 Agent 系统的"自进化"问题，但层面不同
Memory-R1 RL 直接优化记忆操作 MemCoE 改进：Memory-R1 用稀疏奖励，MemCoE 用过程级指南奖励
Agentic Memory (GRPO 优化记忆管理) 用 GRPO 优化记忆 MemCoE 改进：加了指南约束，减少动作空间
MemEvolve 联合进化 Agent 知识和记忆架构扩展：MemEvolve 更关注架构联合进化，MemCoE 关注策略优化
有趣的是，2026 年 5 月出现了多篇"记忆进化/自进化"主题的论文（MemCoE、EvolveMem、SkillsVote、AI Auto-Research 综述）。这表明Agent 记忆的自主优化已经成为一个明确的研究方向。
---
七、对 Agent 开发者的实践启示
7.1 如果你在用现有记忆库（Mem0/A-Mem/LightMem）

1. 不要只依赖手工模板：MemCoE 证明，记忆更新指令是可以从数据中学习的 2. 考虑加入"指南"层：在记忆更新之前，先有一个全局的"组织原则"指导具体更新 3. 用过程级奖励训练更新策略：不要只等最终答案对不对，给中间的记忆操作也打分

7.2 如果你在设计新的记忆系统

1. 解耦"组织"和"内容"：前额叶-海马体的分工启发是有效的 2. 先归纳指南，再训练策略：MGI 先稳定框架，GMPO 再在框架内优化——这比端到端自由学习更稳定 3. 考虑跨模型部署：在便宜的小模型上归纳指南，在昂贵的大模型上执行策略

7.3 指南设计的具体建议

论文在附录 Figure 19 中展示了诱导出的实际指南内容（虽然 fetch 内容中没有完整显示），但可以推测其结构：

记忆更新指南（示例推测）：
1. 每条记忆必须包含：类型标签、时间戳、置信度、来源对话ID
2. 事实记忆用"FACT:"前缀，偏好用"PREF:"前缀，事件用"EVENT:"前缀
3. 更新时遵循"去重优先"原则：如果新信息与已有记忆冲突，保留置信度更高的
4. 对于隐式偏好，提取用户的行为模式而非直接陈述
5. 定期（每10轮）检查记忆一致性，合并冗余条目

MemCoE 的 MGI 从数据中自动诱导出类似的指南，而非手工编写。

---

八、更深层的意义：从"记忆内容"到"记忆策略"的范式转移

MemCoE 代表了一个重要的范式转移：

上一代记忆系统：
  "怎么存" → 手工设计
  "存什么" → 模板提取
  "怎么更新" → 规则驱动

MemCoE：
  "怎么组织" → 从数据归纳（MGI）
  "怎么更新" → 在指南约束下 RL 学习（GMPO）
  "存什么" → 策略决定

这意味着：记忆系统的"策略层"本身变成了可学习的对象。

这与深度学习的历史形成了有趣的类比：

2012 年前：手工设计特征（SIFT、HOG）

2012 年后：端到端学习特征

2024 年前：手工设计记忆更新规则

2024 年后：学习记忆更新策略（MemCoE、EvolveMem 等）

MemCoE 的独特之处在于：它不是完全端到端地让模型自由学习，而是借鉴认知科学的分工结构，先学"框架"再学"执行"。这种结构化的学习方法比纯端到端更稳定、更可解释、更可迁移。
---
九、结论：让 Agent 像人一样"先搭框架，再填内容"
MemCoE 的核心贡献可以用一句话概括：

把认知心理学前额叶-海马体的分工机制，翻译成 LLM Agent 的两阶段优化框架。

Stage 1 (MGI)：像前额叶一样，从经验中归纳出"记忆的组织原则"（指南）

Stage 2 (GMPO)：像海马体一样，在原则的约束下灵活学习"记什么内容"

这个设计的优雅之处在于： 1. 解耦了"怎么记"和"记什么"，降低了各自的学习难度 2. 指南提供了约束，缩小了 RL 的动作空间，使训练更稳定 3. 过程级奖励（指南遵循度）提供了密集的优化信号 4. 跨模型迁移证明归纳出的组织原则是模型无关的元知识
论文的实验很扎实：三个基准、八个设置、全面消融、效率分析、跨 LLM 迁移——每一项都支持核心主张。
对于正在构建长期记忆 Agent 的开发者来说，MemCoE 提供了一套可以立即落地的设计原则：
> 不要让你的 Agent 在记忆海洋里 freestyle。先教它"怎么游"（指南），再让它自己决定"往哪游"（策略）。
---
参考链接

arXiv 论文：https://arxiv.org/abs/2605.00702

代码仓库：https://github.com/Applied-Machine-Learning-Lab/ACL2026_MemCoE

PersonaMem 基准：Jiang et al., 2025a

PrefEval 基准：Zhao et al., 2025

PersonaBench 基准：Tan et al., 2025a

记忆模式理论：Alba & Hasher, 1983

GRPO：Shao et al., 2024 (DeepSeekMath)

TextGrad：Yuksekgonul et al., 2025

Mem0：https://github.com/mem0ai/mem0

MemAgent：Yu et al., 2025

MEM-α**：Zhou et al., 2025

#AI #LLM #Agent #记忆系统 #认知心理学 #强化学习 #GRPO #个性化 #ACL2026 #小凯

先学怎么记，再学记什么：MemCoE 把认知心理学搬进 LLM Agent 记忆系统

一、问题：你的 Agent 记了一大堆，但全是乱的

二、灵感来源：人脑早就解决了这个问题

三、MemCoE 架构：两阶段优化框架

3.1 形式化定义

3.2 Stage 1: Memory Guideline Induction (MGI) ♣

3.3 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠

3.4 两阶段的协同效应

四、实验验证：三个基准，全面碾压

4.1 实验设置

4.2 主结果：Table 1（整体比较，8 个设置）

4.3 消融实验：Table 2

4.4 效率分析：Figure 3

4.5 跨 LLM 迁移性：Table 3

五、局限性与开放问题

局限一：对 Scorer 的依赖

局限二：误差累积

局限三：单目标优化

局限四：领域依赖

六、与同期工作的关系

七、对 Agent 开发者的实践启示

7.1 如果你在用现有记忆库（Mem0/A-Mem/LightMem）

7.2 如果你在设计新的记忆系统

7.3 指南设计的具体建议

八、更深层的意义：从"记忆内容"到"记忆策略"的范式转移

九、结论：让 Agent 像人一样"先搭框架，再填内容"

参考链接

🌟 智谱 GLM-5 已上线