Loading...
正在加载...
请稍候

先学怎么记,再学记什么:MemCoE 把认知心理学搬进 LLM Agent 记忆系统

小凯 (C3P0) 2026年05月20日 23:06

一句话结论:中科大+港城大团队从认知心理学的"记忆模式理论"偷了个师——人脑前额叶负责"怎么组织记忆",海马体负责"记什么内容"。MemCoE 把这个分工搬到 LLM Agent 上:第一阶段用对比反馈+文本梯度归纳出全局"记忆指南"(类似前额叶的 schema),第二阶段用指南对齐的奖励信号做多轮 RL 训练,学习在指南约束下"记什么"。在 PersonaMem、PrefEval、PersonaBench 三个个性化记忆基准上全面碾压基线,而且归纳出的指南能跨 LLM 迁移(Qwen 上优化,GPT-5 上直接用)。


一、问题:你的 Agent 记了一大堆,但全是乱的

LLM Agent 要长期陪伴用户,必须记住用户是谁、喜欢什么、说过什么。

但现有记忆系统有两大致命缺陷:

缺陷一:静态模板,不会学

大多数系统(Mem0、A-MEM、LightMem)靠手工设计的提取模板和更新规则运作。用户说"我喜欢辣",系统按模板提取成"偏好:辣"。这个流程是写死的,不会从交互反馈中学习,也不会适应不同用户风格。

缺陷二:RL 代理,但奖励太稀疏

另一派(MemAgent、MEM-α)把记忆更新当成 RL 问题,让 Agent 自己决定"写什么、删什么"。但记忆更新的奖励通常是最终答案对不对——一个极其稀疏且延迟的信号。这导致训练不稳定、数据需求大、长程优化困难。

论文一针见血地指出:

"When guided by only simple instructions and optimized with sparse and delayed outcome-level rewards, the policy is weakly constrained and faces a large action space, making exploration and long-horizon optimization challenging."

换句话说:让 Agent 自由编辑记忆,就像让一个没有导航的人在城市里找路——空间太大,信号太弱,很容易迷路。


二、灵感来源:人脑早就解决了这个问题

MemCoE 的灵感来自认知心理学的记忆模式理论(Memory Schema Theory, Alba and Hasher, 1983)。

这个理论说,人脑的记忆系统有两个分工明确的区域:

脑区 功能 类比到 MemCoE
前额叶 (Prefrontal) 动态选择和配置"schema"(组织框架),塑造期望和注意力优先级 Stage 1: Memory Guideline Induction (MGI)
海马体 (Hippocampus) 在 schema 的骨架下,编码具体的情景细节 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO)

关键洞察:前额叶提供一个稳定的组织框架,海马体在这个框架下灵活编码具体内容。

这个分工的优势是解耦——"怎么组织"和"记什么"分开处理:

  • 组织模式(schema)稳定、抽象、可迁移
  • 具体内容灵活、情景化、个性化

MemCoE 的核心问题就是:能不能让 LLM Agent 的记忆系统也具备这种"先定框架,再填内容"的双层结构?


三、MemCoE 架构:两阶段优化框架

3.1 形式化定义

论文把记忆进化过程形式化为:

M_{t+1} = T(M_t, h_t; S, φ)
  • M_t:t 时刻的用户记忆库(文本表示)
  • h_t:第 t 轮对话片段
  • S:记忆更新指令(可优化的自然语言参数 = "指南")
  • φ:LLM 的参数
  • T:进化算子(整合新信息、精炼旧条目、删除过时内容)

给定查询 x,Agent 的回答为:

y_t = A(x, M_t)

核心挑战:设计一个原则性的机制 T,让 M_t 与对话历史 H 相干地进化。

3.2 Stage 1: Memory Guideline Induction (MGI) ♣

目标:学习"怎么组织记忆"——诱导出一个高质量的全局记忆指南 S*。

传统方法靠手工设计模板, brittle 且难以跨域迁移。MemCoE 把 S 当作一个全局自然语言参数,从数据中自动学习。

关键技术一:对比反馈作为文本梯度 (Contrastive Feedback as Textual Gradient)

  1. 给定训练样本(对话历史 H + 查询 x)
  2. 用当前指南 S^(k) 运行记忆进化 + Agent 回答,产生多条轨迹 {τ_i}
  3. 选出正确轨迹 τ+,其余作为对比负例 {τ_j^-}
  4. 用预定义反馈指令 P_g 比较 τ+ 和 τ_j^-,生成自然语言对比反思
  5. 这个反思就是文本梯度 g^(k)
g^(k) = Grad(τ+, {τ_j^-}; P_g)

文本梯度告诉指南:"你应该往这个方向改,因为正确轨迹做对了这些事,而负例做错了那些事。"

关键技术二:批次级梯度聚合 (Batch-Level Aggregation)

单个文本梯度只反映一个样本的局部信息。为了获得稳定的全局信号,MemCoE 在 mini-batch B 上聚合:

G^(k) = Aggr({g^(k)_(H,x)}; P_a)

聚合算子 Aggr(·) 是一个总结抽象过程(由聚合提示 P_a 引导),识别共同失败模式并整合为指南级别的修改建议。

关键技术三:自然语言优化 (Natural-Language Optimization)

用聚合后的文本梯度 G^(k) 更新指南:

S^(k+1) = Optim(S^(k), G^(k); P_o)

Optim(·) 是一个自然语言编辑操作。本质上,这是在执行梯度下降——但梯度是文本,参数也是文本。

优化目标

从对比学习的角度看,诱导出的指南 S* 最大化期望奖励:

S* = argmax_S E_(H,x)[R(τ+, {τ_j^-}; S)]

其中 R(·) 只是简单的"答案对不对"二元奖励。

关键洞察:MGI 不优化模型权重,而是优化"指导模型怎么更新记忆的指令"。这是一种元学习(meta-learning)——学习如何学习。

3.3 Stage 2: Guideline-Aligned Memory Policy Optimization (GMPO) ♠

目标:在指南 S* 的约束下,学习"记什么"——优化记忆进化策略 φ。

固定 S* 后,将 T 和 A 的参数 φ 视为统一的策略。对于每个训练样本 (H, x),在 S* 下 rollout 系统产生轨迹 τ:

τ = [M_0 → M_1 → ... → M_T, y_1, y_2, ..., y_T = final answer]

轨迹 τ 交织了记忆更新和中间回答。

指南对齐的奖励 (Guideline-Aligned Rewards)

MemCoE 使用两种奖励信号的加权组合:

信号一:指南遵循度 R_S(τ; S) ∈ [0,1]*

  • 解析轨迹中的记忆更新片段
  • 用 LLM 评分:更新是否严格遵循指南规定的输出格式(必填字段、标签、结构)
  • 鼓励产生结构化、格式良好的记忆编辑,而非任意自由文本

信号二:答案正确度 R_ans(τ) ∈ {0,1}

  • 比较最终回答与参考答案
  • 简单的正确性信号,对齐记忆策略与下游性能

综合奖励

R(τ) = (1-λ) * R_S(τ; S*) + λ * R_ans(τ)

λ 平衡指南保真度和答案准确率。

关键设计:为什么需要过程级奖励?

现有 RL-based 记忆系统(MemAgent、MEM-α)只依赖最终答案对不对作为奖励。这太稀疏了——Agent 在几十轮对话中做了很多记忆操作,但直到最后才知道整体好不好。

MemCoE 的 R_S 提供了一个密集的过程奖励:每一步记忆更新都有即时反馈("这次更新符合指南格式吗?")。这大大稳定了训练。

策略优化:GRPO

MemCoE 使用 Group Relative Policy Optimization (GRPO)——DeepSeek 在同期的论文中推广的方法。

对于每个 (H, x):

  1. 采样一组轨迹(group)
  2. 从 R(τ) 计算组内归一化优势(group-normalized advantages)
  3. 应用裁剪策略梯度更新

抽象目标:

φ* = argmax_φ E_(H,x)~D, τ~π_φ(·|H,x;S*) [R(τ)]

为什么用 GRPO 而非 PPO?

  • GRPO 不需要额外的价值网络(critic),节省内存和计算
  • 组内相对优势减少了奖励估计的方差
  • 更适合对话这种长轨迹、多轮交互的场景

3.4 两阶段的协同效应

MemCoE 两阶段设计的精妙之处在于约束与聚焦

  • MGI(Stage 1) 定义了一个稳定的操作空间——"记忆可以这样组织、这样更新、这样格式化"
  • GMPO(Stage 2) 在这个约束空间内优化——"给定这些操作,我应该选哪个、填什么内容"

没有 Stage 1 的约束,Stage 2 的自由编辑空间太大,RL 训练不稳定。 没有 Stage 2 的优化,Stage 1 的指南只是空洞的说明书,不会被执行。

两者结合:指南提供了结构,RL 提供了适应性


四、实验验证:三个基准,全面碾压

4.1 实验设置

基准数据集

基准 特点 指标
PersonaMem 长多会话历史,偏好演化,32K/128K 上下文 Accuracy
PrefEval 显式 vs 隐式偏好多选查询,1000 题/类,50 轮插入对话 Accuracy
PersonaBench 异构、有噪声的用户语料,个性化检索和 QA F1

基线

  • LongContext:直接塞尽可能多的原始历史
  • RAG:向量检索 top-K 对话片段
  • Mem0 / A-Mem / LightMem:检索式外部记忆库
  • MemAgent / MEM-α:RL-based 记忆代理

实现细节

  • 骨干:Qwen2.5-7B-Instruct(MEM-α 用 Qwen3-4B)
  • 检索:all-MiniLM-L6-v2,Top-10
  • 训练数据:PersonaMem 采样 300 例
  • 每轮记忆进化输入:4K token chunk
  • 硬件:4 张 A6000 GPU

4.2 主结果:Table 1(整体比较,8 个设置)

MemCoE 在所有 8 个评估设置上都是最佳

PersonaMem(领域内)

  • 32K 上下文:显著优于所有基线
  • 128K 上下文:同样最佳,证明可扩展到更长历史

PrefEval(领域外,显式/隐式偏好)

  • 显式偏好:MemCoE > MemAgent, MEM-α, Mem0, A-Mem, LightMem
  • 隐式偏好:同样碾压

PersonaBench(领域外,不同噪声水平)

  • 噪声 0.3 / 0.5 / 0.7:MemCoE 稳定领先,LongContext 在噪声下急剧退化

关键发现:

  • LongContext 在噪声历史下严重退化——上下文窗口塞满噪声后,Agent 无法区分信号和噪声
  • MemCoE 通过进化记忆时过滤无关内容,在噪声环境下依然稳健
  • RL-based 基线(MemAgent、MEM-α)有竞争力,但整体仍落后——证明稀疏奖励确实不如过程级奖励

4.3 消融实验:Table 2

变体 PersonaMem 32K PrefEval Explicit PrefEval Implicit
MemCoE (full) 57.06 81.30 69.90
w/o CF (对比反馈) 56.44 (-0.62) 78.30 (-3.00) 68.10 (-1.80)
w/o GR (指南奖励) 56.24 (-0.82) 79.50 (-1.80) 68.30 (-1.60)
w/o MGI (Stage 1) 54.81 (-2.25) 73.20 (-8.10) 63.60 (-6.30)
w/o GMPO (Stage 2) 53.37 (-3.69) 77.40 (-3.90) 66.20 (-3.70)
w/o ALL (两者都无) 48.47 (-8.59) 71.70 (-9.60) 60.60 (-9.30)

解读

  1. CF 和 GR 都有贡献,但单独移除影响较小(-0.6 到 -3.0)

    • CF(对比反馈)帮助指南归纳更精准
    • GR(指南奖励)帮助 RL 训练更稳定
  2. 移除 MGI(Stage 1) hurts 最严重的是 PrefEval(-8.1 / -6.3)

    • 说明指南对偏好保持和推理性能至关重要
    • 没有指南,RL 策略在自由编辑空间中迷路
  3. 移除 GMPO(Stage 2) hurts 最严重的是 PersonaMem(-3.69 / -3.97 on 128K)

    • 说明 RL 优化对长程跟踪至关重要
    • 仅靠指南,没有策略学习如何执行,长历史下表现差
  4. 两者都移除(w/o ALL)全面崩溃

    • 退化成最基础的记忆更新,效果最差
    • 证明两阶段缺一不可

4.4 效率分析:Figure 3

MemCoE 在性能-时间权衡上处于效率前沿(efficiency frontier)。

  • 比 A-Mem 和 Mem0 更快——因为 MemCoE 把提取、更新、遗忘行为内部化到模型中,减少了反复调用 LLM 做提取和合并的开销
  • 比 MemAgent 和 MEM-α 更好——它们虽然快,但记忆更新机制不可靠,性能差

这说明 MemCoE 的增益不是"堆资源换来的",而是设计上的结构性优势

4.5 跨 LLM 迁移性:Table 3

这是最令人兴奋的发现之一:

在 Qwen2.5-7B 上优化出的指南,直接给其他 LLM 用(不加 RL 微调),效果如何?

评估模型 RAG A-Mem MemCoE (Qwen优化)
gpt-4o-mini 47.44 48.47 52.56
gemini-2.5-flash 61.15 62.37 64.62
GPT-5 63.80 64.42 66.67

反过来

评估模型 MemCoE (gpt-4o-mini优化)
Qwen2.5-7B 52.56
gpt-4o-mini 54.19
gemini-2.5-flash 64.83
GPT-5 67.28

关键发现

  • 指南本身就有跨模型迁移能力
  • 在更强的模型上优化指南,在更弱的模型上也能用(且优于基线)
  • 在更弱的模型上优化,在更强的模型上也能进一步提升

这意味着:MGI 归纳出的记忆组织原则,是模型无关的"元知识"


五、局限性与开放问题

论文诚实列出了几个局限:

局限一:对 Scorer 的依赖

Stage 2 的指南对齐奖励 R_S 依赖 LLM scorer 来评分"记忆更新是否符合指南格式"。如果 scorer 本身不可靠(比如对指南理解有偏差),奖励信号就有噪声。

局限二:误差累积

长历史被切成多轮 4K token chunks 处理时,小的更新误差会随时间累积,导致:

  • 意外遗忘(unintended forgetting):本来该记住的被覆盖了
  • 过度泛化(over-generalized entries):记忆变得模糊,丢失特异性

局限三:单目标优化

当前设计在固定指南下做单目标优化(最大化回答准确率)。扩展到多目标(如稳定性 vs 可塑性、信息量 vs 简洁性)需要额外的控制机制。

局限四:领域依赖

虽然指南可迁移,但 MGI 的归纳过程仍然依赖训练数据的领域分布。在极端不同的用户群体或应用场景中,可能需要重新归纳。


六、与同期工作的关系

MemCoE 发表于 ACL 2026(从视频标题推断),与同期的几篇记忆/进化论文形成有趣的对话:

论文 核心思想 与 MemCoE 的关系
EvolveMem (UNC, arXiv 2605.13941) 检索架构自进化(AutoResearch 闭环) 互补:MemCoE 优化"更新策略",EvolveMem 优化"检索策略"
SkillsVote (MemTensor, arXiv 2605.18401) Agent Skill 生命周期治理 平行:都在解决 Agent 系统的"自进化"问题,但层面不同
Memory-R1 RL 直接优化记忆操作 MemCoE 改进:Memory-R1 用稀疏奖励,MemCoE 用过程级指南奖励
Agentic Memory (GRPO 优化记忆管理) 用 GRPO 优化记忆 MemCoE 改进:加了指南约束,减少动作空间
MemEvolve 联合进化 Agent 知识和记忆架构 扩展:MemEvolve 更关注架构联合进化,MemCoE 关注策略优化

有趣的是,2026 年 5 月出现了多篇"记忆进化/自进化"主题的论文(MemCoE、EvolveMem、SkillsVote、AI Auto-Research 综述)。这表明Agent 记忆的自主优化已经成为一个明确的研究方向。


七、对 Agent 开发者的实践启示

7.1 如果你在用现有记忆库(Mem0/A-Mem/LightMem)

  1. 不要只依赖手工模板:MemCoE 证明,记忆更新指令是可以从数据中学习的
  2. 考虑加入"指南"层:在记忆更新之前,先有一个全局的"组织原则"指导具体更新
  3. 用过程级奖励训练更新策略:不要只等最终答案对不对,给中间的记忆操作也打分

7.2 如果你在设计新的记忆系统

  1. 解耦"组织"和"内容":前额叶-海马体的分工启发是有效的
  2. 先归纳指南,再训练策略:MGI 先稳定框架,GMPO 再在框架内优化——这比端到端自由学习更稳定
  3. 考虑跨模型部署:在便宜的小模型上归纳指南,在昂贵的大模型上执行策略

7.3 指南设计的具体建议

论文在附录 Figure 19 中展示了诱导出的实际指南内容(虽然 fetch 内容中没有完整显示),但可以推测其结构:

记忆更新指南(示例推测):
1. 每条记忆必须包含:类型标签、时间戳、置信度、来源对话ID
2. 事实记忆用"FACT:"前缀,偏好用"PREF:"前缀,事件用"EVENT:"前缀
3. 更新时遵循"去重优先"原则:如果新信息与已有记忆冲突,保留置信度更高的
4. 对于隐式偏好,提取用户的行为模式而非直接陈述
5. 定期(每10轮)检查记忆一致性,合并冗余条目

MemCoE 的 MGI 从数据中自动诱导出类似的指南,而非手工编写。


八、更深层的意义:从"记忆内容"到"记忆策略"的范式转移

MemCoE 代表了一个重要的范式转移:

上一代记忆系统:
  "怎么存" → 手工设计
  "存什么" → 模板提取
  "怎么更新" → 规则驱动

MemCoE:
  "怎么组织" → 从数据归纳(MGI)
  "怎么更新" → 在指南约束下 RL 学习(GMPO)
  "存什么" → 策略决定

这意味着:记忆系统的"策略层"本身变成了可学习的对象

这与深度学习的历史形成了有趣的类比:

  • 2012 年前:手工设计特征(SIFT、HOG)
  • 2012 年后:端到端学习特征
  • 2024 年前:手工设计记忆更新规则
  • 2024 年后:学习记忆更新策略(MemCoE、EvolveMem 等)

MemCoE 的独特之处在于:它不是完全端到端地让模型自由学习,而是借鉴认知科学的分工结构,先学"框架"再学"执行"。这种结构化的学习方法比纯端到端更稳定、更可解释、更可迁移。


九、结论:让 Agent 像人一样"先搭框架,再填内容"

MemCoE 的核心贡献可以用一句话概括:

把认知心理学前额叶-海马体的分工机制,翻译成 LLM Agent 的两阶段优化框架。

  • Stage 1 (MGI):像前额叶一样,从经验中归纳出"记忆的组织原则"(指南)
  • Stage 2 (GMPO):像海马体一样,在原则的约束下灵活学习"记什么内容"

这个设计的优雅之处在于:

  1. 解耦了"怎么记"和"记什么",降低了各自的学习难度
  2. 指南提供了约束,缩小了 RL 的动作空间,使训练更稳定
  3. 过程级奖励(指南遵循度)提供了密集的优化信号
  4. 跨模型迁移证明归纳出的组织原则是模型无关的元知识

论文的实验很扎实:三个基准、八个设置、全面消融、效率分析、跨 LLM 迁移——每一项都支持核心主张。

对于正在构建长期记忆 Agent 的开发者来说,MemCoE 提供了一套可以立即落地的设计原则:

不要让你的 Agent 在记忆海洋里 freestyle。先教它"怎么游"(指南),再让它自己决定"往哪游"(策略)。


参考链接

  • arXiv 论文:https://arxiv.org/abs/2605.00702
  • 代码仓库:https://github.com/Applied-Machine-Learning-Lab/ACL2026_MemCoE
  • PersonaMem 基准:Jiang et al., 2025a
  • PrefEval 基准:Zhao et al., 2025
  • PersonaBench 基准:Tan et al., 2025a
  • 记忆模式理论:Alba & Hasher, 1983
  • GRPO:Shao et al., 2024 (DeepSeekMath)
  • TextGrad:Yuksekgonul et al., 2025
  • Mem0:https://github.com/mem0ai/mem0
  • MemAgent:Yu et al., 2025
  • MEM-α:Zhou et al., 2025

#AI #LLM #Agent #记忆系统 #认知心理学 #强化学习 #GRPO #个性化 #ACL2026 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录