MEMO:记忆不是外挂,是一个独立的模型
> 论文:MEMO: Memory as a Model > arXiv: 2605.15156 > 团队:NUS · MIT CSAIL · A*STAR · SMART > 核心命题:把长期记忆从"向量库外挂"推进为"可训练、可替换、与基座模型解耦"的独立记忆模型
---
01|为什么现有的知识注入方法都有问题?
LLM预训练完就冻住了。世界在变,模型不变。把新知识塞进去,有三种主流方法,三种都有硬伤:
| 方法 | 代表 | 问题 |
|---|---|---|
| 非参数化(RAG、ICL) | 向量检索、上下文学习 | 检索噪音敏感;跨文档推理弱;上下文长度有限 |
| 参数化(持续预训练、SFT) | 继续预训练、监督微调 | 计算成本极高;灾难性遗忘;闭源模型无法操作 |
| 隐式记忆(soft tokens) | AutoCompressor、Gist、ICAE | 表征耦合——记忆和产生它的模型绑死,无法迁移到其他模型 |
MEMO 的解法粗暴但有效:让记忆成为一个独立的小模型,任何大模型都能调用它。
---
02|架构:两个模型,分工明确
用户查询 → EXECUTIVE MODEL(大模型,冻结)
↓ 三阶段多轮协议
MEMORY MODEL(小模型,训练过,懂语料库)
↓
答案 + 推理过程
EXECUTIVE MODEL:你的主力 LLM。32B、70B、甚至 Claude Opus——都行。参数完全冻结,不需要访问权重,不需要 logits。把它当黑盒用。
MEMORY MODEL:一个 1.5B-14B 的小模型。它接受过专门训练,把目标语料库的内部化成了参数知识。回答问题时直接生成,不需要检索原始文档。
这个设计的关键是 解耦——记忆和推理彻底分离。你可以换 EXECUTIVE 模型而不重训 MEMORY,也可以更新 MEMORY 而不碰 EXECUTIVE。
---
03|五步数据管道:把语料库变成"反思QA"
MEMORY 模型不是直接把文档塞进去训。团队设计了一个五步数据合成管道,用 GENERATOR 模型(可以是 EXECUTIVE 本身或更小的模型)把原始语料蒸馏成结构化 QA 对:
Step 1:事实提取
- 直接提取:文档中明确陈述的事实
- 间接提取:从文本推断出的隐含信息
- 把共享上下文的 QA 对合并成多事实问题,训练跨事实整合能力
- 检查每个 QA 对是否自包含——脱离原文也能理解和回答
- 不合格的(代词未解析、引用未消除)重写或丢弃
- 为每个命名实体生成"间接描述→实体身份"的 QA 对
- 直接对抗反转诅咒(reversal curse)——模型学会从描述反推实体
- 在主题相关的文档组上生成跨文档 QA 对
- 捕捉两类关系:汇聚线索(多文档互补指向同一实体)和平行属性(不同实体共享属性,支持类比推理)
最终产出的是 Q_final——一个既包含单文档事实、又包含跨文档关系的反思 QA 数据集。
---
04|训练:小模型背下整个语料库
MEMORY 模型用 Q_final 做监督微调。训练目标很简洁:
loss = 只优化答案 token 的 next-token prediction
条件 = 只有问题文本,没有原始文档
这强制 MEMORY 把知识内化成参数,而不是训练成"文档复制器"。
实验配置:
- MEMORY 模型:Qwen2.5-14B-Instruct(默认),消融实验用 1.5B
- 训练:3 epochs,Fused AdamW,学习率 2×10⁻⁵
- 单语料库训练成本:90-180 GPU-hours(NVIDIA H200)
05|推理:三阶段多轮协议
EXECUTIVE 模型调用 MEMORY 模型不是单次问答,而是三阶段多轮对话:
Stage 1: grounding( grounding)
- EXECUTIVE 把用户查询分解成原子化的线索探测子问题
- MEMORY 独立回答每个子问题,不共享上下文
- 产出 grounding 响应
- EXECUTIVE 用 grounding 结果迭代缩小候选实体范围
- 向 MEMORY 发 follow-up 查询,直到收敛到单一实体或预算耗尽
- 利用 Step 4 训练的实体浮现能力
- 基于识别的实体,EXECUTIVE 向 MEMORY 查询额外支撑事实
- 最终答案由 EXECUTIVE 综合所有 MEMORY 响应自主生成
---
06|实验结果:数字说话
在三个长上下文、多跳推理基准上测试:
BrowseComp-Plus(深度研究,多文档检索推理)
| 方法 | Qwen2.5-32B | Gemini-3-Flash |
|---|---|---|
| Perfect Retrieval(理论上限) | 79.67% | 88.33% |
| BM25 | 1.11% | 27.00% |
| NV-Embed-V2 | 50.67% | 57.00% |
| HippoRAG2(SOTA RAG) | 56.11% | 66.33% |
| MEMO | 54.22% | 66.67% |
NarrativeQA(长文档理解)
| 方法 | Qwen2.5-32B | Gemini-3-Flash |
|---|---|---|
| Perfect Retrieval | 51.42% | 60.41% |
| HippoRAG2 | 21.39% | 23.21% |
| MEMO | 26.85% | 53.58% |
MuSiQue(多跳推理)
| 方法 | Qwen2.5-32B | Gemini-3-Flash |
|---|---|---|
| Perfect Retrieval | 62.83% | 73.00% |
| HippoRAG2 | 42.17% | 57.00% |
| MEMO | 48.30% | 60.20% |
1. 换 EXECUTIVE 模型不重新训练 MEMORY:把 EXECUTIVE 从 Qwen2.5-32B 换成 Gemini-3-Flash,同一个 MEMORY 模型在三个数据集上分别提升 +12.45%、+26.73%、+11.90%。证明跨模型迁移是真实的。
2. 抗检索噪音:HippoRAG2 加入噪音后在 BrowseComp-Plus 下降 6.22%,MEMO 变化 +0.55%(在误差范围内)。因为 MEMORY 不依赖检索,噪音不影响它。
3. 小模型也能扛:用 1.5B 的 MEMORY 模型(Qwen2.5-1.5B)在 NarrativeQA 上达到 21.16%,接近 HippoRAG2 的 21.39%。1.5B 参数背下整个语料库还能回答问题,这本身就是突破。
---
07|持续集成:模型合并,不用重训
新语料库来了怎么办?不是重训整个 MEMORY,而是训练一个新的 MEMORY 模型,然后在参数空间合并。
- 每个语料库 D_i 训练一个独立的 MEMORY 模型 M_φ_i
- 所有模型从同一个预训练基座 M_φ₀ 初始化
- 任务向量:τ_i = φ_i − φ₀
- 合并:φ_merged = Merge(φ₀, {τ_i})
这解决了流式知识注入的痛点:新数据来了,增量训练,不用把所有历史数据重新过一遍。
---
08|方法对比:MEMO 在哪些维度赢?
| 属性 | 非参数化(RAG) | 参数化(SFT) | 隐式记忆 | MEMO |
|---|---|---|---|---|
| 冻结基座 LLM | ✓ | ✗ | ✓ | ✓ |
| 无需检索索引 | ✗ | ✓ | ✓ | ✓ |
| 黑盒兼容(闭源模型) | ✓ | ✗ | ✗ | ✓ |
| 无灾难性遗忘 | ✓ | ✗ | ✓ | ✓ |
| 常数大小记忆 | ✗ | ✓ | ✗ | ✓ |
| 跨模型可迁移 | ✓ | ✗ | ✗ | ✓ |
---
09|局限与质疑
1. 数据生成成本不低
- BrowseComp-Plus 的反思 QA 生成需要约 240 GPU-hours
- 加上训练 180 GPU-hours,单个语料库总成本约 420 GPU-hours
- 这比 RAG 的索引构建贵得多,但比全量 SFT 便宜
- 训练数据是 GENERATOR 模型从语料库合成的,覆盖了它"能想到"的问题类型
- 如果用户问法超出训练分布,MEMORY 可能表现不佳
- 但这是所有参数化方法的共同问题
- HippoRAG2 在 BrowseComp-Plus 上 56.11% vs MEMO 54.22%,RAG 路线仍在进步
- MEMO 的优势场景是跨文档推理和检索噪音环境,不是单纯的检索精度
- 虽然理论上支持黑盒模型,但调用 Gemini-3-Flash 做 EXECUTIVE 仍然需要 API 访问
- 高频调用下,API 成本可能比本地 RAG 更高
10|为什么这件事重要?
MEMO 的真正价值不是某个 benchmark 上的分数,而是它重新定义了"记忆"在 AI 系统中的位置。
从外挂到模块:RAG 把记忆当数据库外挂,MEMO 把记忆当一个可独立训练、独立部署、独立替换的模型。这像是把显卡从 CPU 的协处理器变成独立计算单元——架构解耦带来工程自由度。
从检索到内化:RAG 的瓶颈永远是"检索到什么",MEMO 的瓶颈是"训练时学到了什么"。前者依赖检索算法的质量,后者依赖数据合成的质量。在长上下文、多跳推理的场景,内化比检索更可靠。
从绑定到迁移:一个 MEMORY 模型可以服务多个 EXECUTIVE 模型。企业可以训练一个 MEMORY 背下内部知识库,然后让不同团队用不同的大模型调用它。这是目前任何 RAG 系统都做不到的。
最激进的含义:如果 MEMORY 模型小到 1.5B 就能背下整个语料库,那么"个人知识库"的概念就变了。你的读书笔记、工作文档、项目资料——全部训进一个 1.5B 模型,挂在你常用的 Claude 或 GPT 后面。不需要向量数据库,不需要检索管道,不需要担心 chunk 边界切断语义。
---
结论
MEMO 不是 RAG 的替代品,而是另一条路线——把知识从"检索时拉取"变成"推理时调用"。
在需要跨文档合成、抗检索噪音、支持多 EXECUTIVE 模型的场景,MEMO 有结构性优势。在纯检索精度、成本敏感、查询分布与训练分布差异大的场景,RAG 仍然更实用。
但 MEMO 提出的"记忆即模型"范式值得认真对待。它可能不是终局,但它是知识注入架构演进中一个清晰的里程碑。
> 参考来源 > - arXiv: 2605.15156 — Quek et al., "MEMO: Memory as a Model", May 2026 > - Marktechpost coverage: https://www.marktechpost.com/2026/05/26/memo-a-modular-framework/ > - NeurIPS 2023 LongMem paper (related work on decoupled memory)
#MEMO #长期记忆 #LLM架构 #知识注入 #RAG #MIT #NUS #论文解读
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens