MemTrain:自监督上下文记忆训练——让大模型Agent学会"长记性",不依赖标注数据
论文:《MemTrain: Self-Supervised Context Memory Training》
作者:Ziheng Li, Xingrun Xing, Haoqing Wang, Zhi-Hong Deng (Peking University), Yehui Tang (Samsung Research, Beijing)
链接:https://arxiv.org/abs/2606.03197
核心洞察:记忆学习≠推理学习,记忆目标天然是隐态和过程依赖的,需要同时监督结果和过程
一、问题:Agent的"失忆症"
想象你在和一个超级聪明的助手对话。聊了很久,它突然忘了你三分钟前刚告诉它的关键信息。不是因为它不聪明——它的脑子(上下文窗口)装满了,后面的信息把前面的"挤"了出去。
这就是当前长程LLM Agent的痛点:记忆。
1.1 现有方案的问题
主流的记忆Agent方案通常是:
收集下游任务标注数据 → 端到端强化学习训练 → 模型学会记忆策略
但问题来了:
- 标注成本高:需要为记忆密集型场景(长文档阅读、多轮搜索、复杂任务执行)收集高质量标注数据,这很贵
- 数据多样性不足:收集到的数据往往覆盖不了所有记忆行为(保存、压缩、遗忘、检索、整合...),模型学到的记忆策略很狭窄
- 泛化差:在某个任务上训出来的记忆能力,换个任务就失效
1.2 记忆的内在挑战
记忆和推理不一样。
推理是单轮的、显式的——你输入一个问题,模型输出思考过程和答案,对错一目了然。
记忆是多轮的、隐态的——模型必须持续决定:什么信息该保留?什么该压缩?什么该遗忘?什么时候该检索?这些决策的正确性,不能只看最终答案,还要看中间过程的记忆状态是否完整、是否可用。
这就像训练一个秘书:你不能只看最终会议纪要写得好不好,还要看她在开会过程中记下的笔记是否完整、是否能支撑后续的写作。
二、MemTrain:自监督记忆训练框架
MemTrain的核心思路很简单:不要等下游任务来教记忆,用自监督代理任务直接从大规模无标注文本中训练通用记忆能力。
2.1 基础架构:上下文记忆Agent
MemTrain基于MemAgent的上下文记忆框架,核心设计:
固定长度记忆状态 \(m_t\):每个交互轮次维护一个固定长度的记忆(比如1024个token),不随交互轮次增加而膨胀。
每次交互的更新:
输入: (上一记忆 m_{t-1}, 上一轮动作 a_{t-1}, 环境反馈 i_t)
↓
模型生成: (新记忆 m_t, 本轮动作 a_t)
关键优势:
- 恒定计算开销:无论交互多少轮,上下文长度始终固定(8192 tokens),不随轮次增加
- 突破原生上下文限制:通过记忆压缩,可以处理远超模型原生上下文窗口的长文档(实验中处理到896k tokens)
- 缓解注意力稀释:固定长度意味着注意力始终聚焦,不会分散到越来越长的历史中
2.2 两个代理任务:兼顾结果和过程
MemTrain设计了两个耦合的代理任务,从两个角度监督记忆质量:
任务一:端到端掩码重建(End-to-End Masked Reconstruction)
目标:从"最终结果"角度倒逼记忆质量。
做法:
- 从维基百科中随机选一个段落作为"中心段落"
- 检索29个语义相关段落 + 120个随机段落 → 拼成一个长文档(24k-40k tokens)
- 从中心段落中随机选一个实体(数字、地名、人名等),把文档中所有该实体替换为[MASK]
- 把文档切分成多个块(每块约5k tokens),模型需要分多轮读取、更新记忆
- 最终要求:仅凭最后一轮更新后的记忆,还原被[MASK]的实体
训练信号:
- 如果记忆没有完整保留关键实体信息,最终无法还原 → 奖励低
- 如果记忆冗余太多、关键信息被压缩丢了 → 奖励低
- 只有记忆"既精简又完整",才能拿到高奖励
这就像训练一个秘书:给她一份超长的报告,让她边读边记笔记,最后只凭笔记回答一个关键数字。笔记必须既精简又包含关键信息。
任务二:中间记忆召回(Intermediate Memory Recall)
目标:从"中间过程"角度监督记忆完整性。
做法:
- 在完整的多轮读取轨迹中,随机选择一个中间记忆状态(比如读到第3块时的记忆)
- 从之前已经读过的块中,选一个被遮蔽的实体
- 要求模型直接从当前中间记忆中还原这个实体
训练信号:
- 如果中间记忆"信息不完整"或"不可检索" → 无法还原 → 奖励低
- 迫使记忆在每一轮都保持完整、可检索,不能只"为了最后能答对"
这就像在会议中途随机抽查秘书的笔记:"你刚才记的笔记里,能告诉我第三页提到的那个数字吗?"——笔记必须随时可用,不能只在会议结束时才整理清楚。
两个任务的互补性
| 维度 | 端到端掩码重建 | 中间记忆召回 |
|---|---|---|
| 监督角度 | 结果视角(最终记忆能否回答问题) | 过程视角(中间记忆是否完整可用) |
| 防止的问题 | 记忆冗余、最终答不出 | 中间信息丢失、记忆不可检索 |
| 鼓励的能力 | 精简而关键的信息保留 | 全程信息完整、忠实压缩 |
单独用任务一:模型可能学到"只在最后时刻把关键信息塞进记忆",中间过程的记忆是垃圾。
单独用任务二:模型可能学到"把所有信息都塞进记忆",从不遗忘,最终记忆冗余爆炸。
两个任务一起:模型必须在全程保持精简而完整的记忆——既不能太冗余,又不能丢失关键信息。
2.3 GRPO联合优化
两个任务用GRPO(Group Relative Policy Optimization)联合优化:
总奖励 = 端到端重建精确匹配奖励 + λ * 中间记忆召回奖励
其中λ=0.5,平衡两个任务的重要性。
GRPO的优势:
- 不需要价值函数:用组内相对奖励代替critic模型,减少训练开销
- KL正则化:防止策略偏离太远,保持稳定性(KL系数1e-3)
- 过滤极端样本:过滤掉奖励全0或全1的样本,避免训练不稳定
训练细节:
- 语料:维基百科(30k训练文档,长度24k-40k tokens)
- 实体识别:spaCy NER
- 每文档:30个段落(1个中心+29个相关+120个随机)
- 上下文长度:8192 tokens(指令1024 + 输入块5120 + 记忆1024 + 响应1024)
- 每块约5k tokens,每文档约8个块
- 批次大小:32
- 每组生成:G1=8个端到端轨迹,每个轨迹G2=8个中间召回轨迹
- 训练步数:300步
- 学习率:1e-6
- 模型:Qwen3-4B-Instruct-2507 和 Qwen2.5-7B-Instruct
三、实验结果:记忆训练是通用"增强剂"
3.1 长文本问答(Long-Text QA)
在HotpotQA长上下文基准上测试,输入长度从7k到896k tokens。
Qwen3-4B-Instruct:
| 方法 | 7k | 14k | 28k | 56k | 112k | 224k | 448k | 896k | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| 原始模型 | 57.8 | 51.6 | 34.4 | 10.9 | 8.6 | 4.7 | 3.9 | 3.9 | 22.0 |
| +MemTrain | 63.3 | 60.2 | 60.2 | 57.0 | 60.9 | 58.6 | 48.4 | 40.6 | 56.2 |
| +MemAgent | 70.3 | 64.1 | 71.9 | 62.5 | 64.8 | 66.4 | 64.1 | 57.0 | 65.1 |
| +MemTrain+MemAgent | 79.7 | 73.4 | 75.8 | 73.4 | 68.8 | 67.2 | 61.7 | 62.5 | 70.3 |
Qwen2.5-7B-Instruct:
| 方法 | 7k | 14k | 28k | 56k | 112k | 224k | 448k | 896k | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| 原始模型 | 53.1 | 51.6 | 35.2 | 13.3 | 10.2 | 1.6 | 1.6 | 0.0 | 20.8 |
| +MemTrain | 59.4 | 55.5 | 48.4 | 46.1 | 42.2 | 38.3 | 39.8 | 33.6 | 45.4 |
| +MemAgent | 64.1 | 67.2 | 62.5 | 59.4 | 55.5 | 50.0 | 46.9 | 41.4 | 55.9 |
| +MemTrain+MemAgent | 76.6 | 79.7 | 77.3 | 75.0 | 70.3 | 75.8 | 64.8 | 68.8 | 73.5 |
关键发现:
- MemTrain alone就显著提升了原始模型(Qwen3-4B: 22.0→56.2,+34.2分;Qwen2.5-7B: 20.8→45.4,+24.6分)
- MemTrain+MemAgent相比单独MemAgent,Qwen3-4B提升5.17分,Qwen2.5-7B提升17.67分
- 上下文越长,提升越明显:在896k tokens时,原始模型几乎归零(3.9和0.0),MemTrain+MemAgent仍保持62.5和68.8
- MemTrain是通用增强剂:MemTrain不针对特定任务训练,但能全面提升下游MemAgent的表现
3.2 基于搜索的问答(Search-Based QA)
在搜索型QA任务上,MemTrain+MemAgent同样显著优于单独MemAgent:
- Qwen3-4B:平均提升10.58分
- Qwen2.5-7B:平均提升8.50分
3.3 定性分析:为什么MemTrain有效?
论文展示了一个案例:
- 问题:Adriana Trigiani 的职业是什么?
- 文档:在块1中提到了 Adriana Trigiani 的身份/地点信息,在块2中提到了她作为导演的信息
- 无MemTrain的模型:在块1中保留了信息,但在块2记忆更新时"忘记"了,导致无法回答
- MemTrain模型:成功从块1保留关键实体信息到最终记忆,在块2正确推导答案
MemTrain训练出的模型,更擅长在多轮信息更新中保持关键实体不丢失。
四、技术深度:为什么是GRPO?为什么是这两个任务?
4.1 为什么不用简单的next-token prediction?
论文提到了RPT、RLPT、PretrainZero等基于next-token prediction的强化学习预训练。这些方法在推理能力提升上很有效,但记忆不同:
- 推理是单轮显式:输入→思考→输出,奖励函数可以只看最终答案对不对
- 记忆是多轮隐态:每轮的记忆状态是隐变量,你无法直接知道"这个记忆状态好不好",只能间接通过后续表现推断
所以需要两个角度的监督:最终能不能用(端到端)、中间能不能用(中间召回),才能全面评估记忆质量。
4.2 为什么用维基百科?
- 通用性:维基百科覆盖各种实体类型(人名、地名、数字、日期),记忆行为足够多样
- 无标注:不需要人工标注,自动构造训练样本
- 语义相关性:通过检索相关段落,模拟真实场景中的信息关联(不同段落可能涉及同一实体)
- 规模:30k文档,24k-40k tokens,足以训练通用记忆策略
4.3 固定上下文长度的工程意义
8192 tokens固定上下文,这是经过验证的实用配置:
- 指令1024:系统提示、任务描述
- 输入块5120:当前读取的文档块(约5k tokens)
- 记忆1024:固定长度记忆状态
- 响应1024:模型输出
无论读多少轮,这个结构不变。计算成本恒定,不会因为长文档而爆炸。
五、局限与未来方向
5.1 局限
- 实体类型有限:目前只遮蔽数字和命名实体(人名、地名等),更复杂的概念、关系、事件的记忆未覆盖
- 单一文档类型:仅用维基百科,其他领域(代码、对话、科学文献)的记忆行为可能不同
- 记忆长度固定:1024 tokens的记忆是否足够复杂任务?可能需要自适应记忆长度
- GRPO的样本效率:每步生成8+64=72个轨迹,计算开销较大
5.2 未来方向
- 多领域记忆训练:扩展到代码、科学文献、对话等,训练更通用的记忆策略
- 层次化记忆:短期记忆(几轮)+ 长期记忆(跨任务),MemTrain目前只覆盖短期
- 与其他Agent组件的联合训练:MemTrain只训练记忆,但完整的Agent还需要推理、规划、工具使用等能力,联合训练可能有协同效应
- 记忆的可解释性:当前记忆是隐向量,能否让记忆更可解释(如显式的键值对、摘要)?
六、对业界的启示
6.1 记忆训练=通用"能力增强剂"
MemTrain的最大价值在于:它不是针对某个任务的训练,而是通用记忆能力的预训练。
就像预训练让模型学会语言,MemTrain让模型学会"如何记住东西"。这个能力可以迁移到任何需要长程记忆的下游任务:
- 长文档阅读
- 多轮对话
- 复杂任务执行
- 代码理解(长文件)
- 科学研究(多论文交叉)
6.2 数据效率
传统方法:为每个下游任务收集标注数据 → 训练 → 泛化差。
MemTrain:用维基百科自监督训练 → 一次训练 → 全面提升所有下游任务。
数据效率提升了指数级。
6.3 和MemAgent的协同
MemAgent是任务特定的记忆训练(端到端RL在下游任务上)。
MemTrain是通用的记忆训练(自监督在维基百科上)。
两者关系:
- MemTrain提供好的初始化(模型已经知道怎么记东西)
- MemAgent提供任务优化(针对具体任务微调记忆策略)
就像:MemTrain教秘书"怎么记笔记",MemAgent教秘书"怎么写会议纪要"。前者通用,后者专用,两者结合最强。
七、结论
MemTrain的核心洞察:记忆是一种可以独立于任务、通过自监督预训练习得的通用能力。
它通过两个巧妙的代理任务——端到端掩码重建(结果监督)和中间记忆召回(过程监督)——从维基百科中大规模训练,让模型学会在多轮交互中保持精简而完整的记忆。
实验表明,这种通用记忆训练可以作为下游任务特定训练的"增强剂",Qwen2.5-7B上提升高达17.67分,且上下文越长优势越明显(896k tokens时仍保持高性能)。
对于构建长程LLM Agent的从业者,MemTrain意味着:
- 不再依赖昂贵的下游标注数据
- 一次训练,全面提升记忆密集型任务
- 恒定计算成本,突破上下文限制
记忆是Agent的"长程 backbone"。MemTrain让这个 backbone 可以通用、可扩展、自监督地训练——这是Agent基础设施的关键一步。
参考来源
- Li Z, Xing X, Wang H, et al. MemTrain: Self-Supervised Context Memory Training. arXiv:2606.03197, 2026.
- Yu Z, et al. MemAgent: Context Memory for LLM Agents. 2025.
- Dong L, et al. RPT: Reasoning Pre-Training. 2025.
- Xing X, et al. PretrainZero: Active Pre-Training. 2025.
#MemTrain #ContextMemory #SelfSupervised #LLMAgent #LongContext #GRPO #MemoryTraining #PekingUniversity #SamsungResearch #AgentInfrastructure
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。