MEMO：记忆不是外挂，是一个独立的模型

> 论文：MEMO: Memory as a Model > arXiv: 2605.15156 > 团队：NUS · MIT CSAIL · A*STAR · SMART > 核心命题：把长期记忆从"向量库外挂"推进为"可训练、可替换、与基座模型解耦"的独立记忆模型

---

01｜为什么现有的知识注入方法都有问题？

LLM预训练完就冻住了。世界在变，模型不变。把新知识塞进去，有三种主流方法，三种都有硬伤：

方法	代表	问题
非参数化（RAG、ICL）	向量检索、上下文学习	检索噪音敏感；跨文档推理弱；上下文长度有限
参数化（持续预训练、SFT）	继续预训练、监督微调	计算成本极高；灾难性遗忘；闭源模型无法操作
隐式记忆（soft tokens）	AutoCompressor、Gist、ICAE	表征耦合——记忆和产生它的模型绑死，无法迁移到其他模型

表征耦合是最大痛点。你把一堆文档压缩成 soft tokens，这些 tokens 只能被同一个模型家族理解。换一家模型？重新编码。开源换闭源？不可能。

MEMO 的解法粗暴但有效：让记忆成为一个独立的小模型，任何大模型都能调用它。

---

02｜架构：两个模型，分工明确

用户查询 → EXECUTIVE MODEL（大模型，冻结）
               ↓ 三阶段多轮协议
         MEMORY MODEL（小模型，训练过，懂语料库）
               ↓
         答案 + 推理过程

EXECUTIVE MODEL：你的主力 LLM。32B、70B、甚至 Claude Opus——都行。参数完全冻结，不需要访问权重，不需要 logits。把它当黑盒用。

MEMORY MODEL：一个 1.5B-14B 的小模型。它接受过专门训练，把目标语料库的内部化成了参数知识。回答问题时直接生成，不需要检索原始文档。

这个设计的关键是解耦——记忆和推理彻底分离。你可以换 EXECUTIVE 模型而不重训 MEMORY，也可以更新 MEMORY 而不碰 EXECUTIVE。

---

03｜五步数据管道：把语料库变成"反思QA"

MEMORY 模型不是直接把文档塞进去训。团队设计了一个五步数据合成管道，用 GENERATOR 模型（可以是 EXECUTIVE 本身或更小的模型）把原始语料蒸馏成结构化 QA 对：

Step 1：事实提取

直接提取：文档中明确陈述的事实
间接提取：从文本推断出的隐含信息

Step 2：合并

把共享上下文的 QA 对合并成多事实问题，训练跨事实整合能力

Step 3：验证与重写

检查每个 QA 对是否自包含——脱离原文也能理解和回答
不合格的（代词未解析、引用未消除）重写或丢弃

Step 4：实体浮现

为每个命名实体生成"间接描述→实体身份"的 QA 对
直接对抗反转诅咒（reversal curse）——模型学会从描述反推实体

Step 5：跨文档合成

在主题相关的文档组上生成跨文档 QA 对
捕捉两类关系：汇聚线索（多文档互补指向同一实体）和平行属性（不同实体共享属性，支持类比推理）

关键约束：整个过程中不嵌入文档标识符或水印，防止 MEMORY 模型走捷径。

最终产出的是 Q_final——一个既包含单文档事实、又包含跨文档关系的反思 QA 数据集。

---

04｜训练：小模型背下整个语料库

MEMORY 模型用 Q_final 做监督微调。训练目标很简洁：

loss = 只优化答案 token 的 next-token prediction
条件 = 只有问题文本，没有原始文档

这强制 MEMORY 把知识内化成参数，而不是训练成"文档复制器"。

实验配置：

MEMORY 模型：Qwen2.5-14B-Instruct（默认），消融实验用 1.5B
训练：3 epochs，Fused AdamW，学习率 2×10⁻⁵
单语料库训练成本：90-180 GPU-hours（NVIDIA H200）

---

05｜推理：三阶段多轮协议

EXECUTIVE 模型调用 MEMORY 模型不是单次问答，而是三阶段多轮对话：

Stage 1： grounding（ grounding）

EXECUTIVE 把用户查询分解成原子化的线索探测子问题
MEMORY 独立回答每个子问题，不共享上下文
产出 grounding 响应

Stage 2：实体识别

EXECUTIVE 用 grounding 结果迭代缩小候选实体范围
向 MEMORY 发 follow-up 查询，直到收敛到单一实体或预算耗尽
利用 Step 4 训练的实体浮现能力

Stage 3：答案寻求与合成

基于识别的实体，EXECUTIVE 向 MEMORY 查询额外支撑事实
最终答案由 EXECUTIVE 综合所有 MEMORY 响应自主生成

效率特性：MEMORY 的响应是紧凑的自然语言片段，长度与语料库大小无关——常数时间推理。

---

06｜实验结果：数字说话

在三个长上下文、多跳推理基准上测试：

BrowseComp-Plus（深度研究，多文档检索推理）

方法	Qwen2.5-32B	Gemini-3-Flash
Perfect Retrieval（理论上限）	79.67%	88.33%
BM25	1.11%	27.00%
NV-Embed-V2	50.67%	57.00%
HippoRAG2（SOTA RAG）	56.11%	66.33%
MEMO	54.22%	66.67%

NarrativeQA（长文档理解）

方法	Qwen2.5-32B	Gemini-3-Flash
Perfect Retrieval	51.42%	60.41%
HippoRAG2	21.39%	23.21%
MEMO	26.85%	53.58%

MuSiQue（多跳推理）

方法	Qwen2.5-32B	Gemini-3-Flash
Perfect Retrieval	62.83%	73.00%
HippoRAG2	42.17%	57.00%
MEMO	48.30%	60.20%

关键发现：

1. 换 EXECUTIVE 模型不重新训练 MEMORY：把 EXECUTIVE 从 Qwen2.5-32B 换成 Gemini-3-Flash，同一个 MEMORY 模型在三个数据集上分别提升 +12.45%、+26.73%、+11.90%。证明跨模型迁移是真实的。

2. 抗检索噪音：HippoRAG2 加入噪音后在 BrowseComp-Plus 下降 6.22%，MEMO 变化 +0.55%（在误差范围内）。因为 MEMORY 不依赖检索，噪音不影响它。

3. 小模型也能扛：用 1.5B 的 MEMORY 模型（Qwen2.5-1.5B）在 NarrativeQA 上达到 21.16%，接近 HippoRAG2 的 21.39%。1.5B 参数背下整个语料库还能回答问题，这本身就是突破。

---

07｜持续集成：模型合并，不用重训

新语料库来了怎么办？不是重训整个 MEMORY，而是训练一个新的 MEMORY 模型，然后在参数空间合并。

每个语料库 D_i 训练一个独立的 MEMORY 模型 M_φ_i
所有模型从同一个预训练基座 M_φ₀ 初始化
任务向量：τ_i = φ_i − φ₀
合并：φ_merged = Merge(φ₀, {τ_i})

合并方法包括线性加权、TIES merging 等。在 K=2 语料库时，TIES 合并节省 33% 计算；K=10 时节省 5.5×。代价是准确率相对全量重训有可测量的下降，但仍在可接受范围。

这解决了流式知识注入的痛点：新数据来了，增量训练，不用把所有历史数据重新过一遍。

---

08｜方法对比：MEMO 在哪些维度赢？

属性	非参数化（RAG）	参数化（SFT）	隐式记忆	MEMO
冻结基座 LLM	✓	✗	✓	✓
无需检索索引	✗	✓	✓	✓
黑盒兼容（闭源模型）	✓	✗	✗	✓
无灾难性遗忘	✓	✗	✓	✓
常数大小记忆	✗	✓	✗	✓
跨模型可迁移	✓	✗	✗	✓

MEMO 是唯一一个六维全满的方法。这是模块化的胜利——每个维度独立优化，不受其他维度牵制。

---

09｜局限与质疑

1. 数据生成成本不低

BrowseComp-Plus 的反思 QA 生成需要约 240 GPU-hours
加上训练 180 GPU-hours，单个语料库总成本约 420 GPU-hours
这比 RAG 的索引构建贵得多，但比全量 SFT 便宜

2. 泛化到新查询类型的能力

训练数据是 GENERATOR 模型从语料库合成的，覆盖了它"能想到"的问题类型
如果用户问法超出训练分布，MEMORY 可能表现不佳
但这是所有参数化方法的共同问题

3. 与 SOTA RAG 的差距在缩小

HippoRAG2 在 BrowseComp-Plus 上 56.11% vs MEMO 54.22%，RAG 路线仍在进步
MEMO 的优势场景是跨文档推理和检索噪音环境，不是单纯的检索精度

4. 闭源模型的实际限制

虽然理论上支持黑盒模型，但调用 Gemini-3-Flash 做 EXECUTIVE 仍然需要 API 访问
高频调用下，API 成本可能比本地 RAG 更高

---

10｜为什么这件事重要？

MEMO 的真正价值不是某个 benchmark 上的分数，而是它重新定义了"记忆"在 AI 系统中的位置。

从外挂到模块：RAG 把记忆当数据库外挂，MEMO 把记忆当一个可独立训练、独立部署、独立替换的模型。这像是把显卡从 CPU 的协处理器变成独立计算单元——架构解耦带来工程自由度。

从检索到内化：RAG 的瓶颈永远是"检索到什么"，MEMO 的瓶颈是"训练时学到了什么"。前者依赖检索算法的质量，后者依赖数据合成的质量。在长上下文、多跳推理的场景，内化比检索更可靠。

从绑定到迁移：一个 MEMORY 模型可以服务多个 EXECUTIVE 模型。企业可以训练一个 MEMORY 背下内部知识库，然后让不同团队用不同的大模型调用它。这是目前任何 RAG 系统都做不到的。

最激进的含义：如果 MEMORY 模型小到 1.5B 就能背下整个语料库，那么"个人知识库"的概念就变了。你的读书笔记、工作文档、项目资料——全部训进一个 1.5B 模型，挂在你常用的 Claude 或 GPT 后面。不需要向量数据库，不需要检索管道，不需要担心 chunk 边界切断语义。

---

结论

MEMO 不是 RAG 的替代品，而是另一条路线——把知识从"检索时拉取"变成"推理时调用"。

在需要跨文档合成、抗检索噪音、支持多 EXECUTIVE 模型的场景，MEMO 有结构性优势。在纯检索精度、成本敏感、查询分布与训练分布差异大的场景，RAG 仍然更实用。

但 MEMO 提出的"记忆即模型"范式值得认真对待。它可能不是终局，但它是知识注入架构演进中一个清晰的里程碑。

> 参考来源 > - arXiv: 2605.15156 — Quek et al., "MEMO: Memory as a Model", May 2026 > - Marktechpost coverage: https://www.marktechpost.com/2026/05/26/memo-a-modular-framework/ > - NeurIPS 2023 LongMem paper (related work on decoupled memory)

#MEMO #长期记忆 #LLM架构 #知识注入 #RAG #MIT #NUS #论文解读