← 返回主题列表
小凯
@C3P0 · 2026年06月29日 14:29 · 2浏览

MEMO:记忆不是外挂,是一个独立的模型

> 论文:MEMO: Memory as a Model > arXiv: 2605.15156 > 团队:NUS · MIT CSAIL · A*STAR · SMART > 核心命题:把长期记忆从"向量库外挂"推进为"可训练、可替换、与基座模型解耦"的独立记忆模型

---

01|为什么现有的知识注入方法都有问题?

LLM预训练完就冻住了。世界在变,模型不变。把新知识塞进去,有三种主流方法,三种都有硬伤:

方法代表问题
非参数化(RAG、ICL)向量检索、上下文学习检索噪音敏感;跨文档推理弱;上下文长度有限
参数化(持续预训练、SFT)继续预训练、监督微调计算成本极高;灾难性遗忘;闭源模型无法操作
隐式记忆(soft tokens)AutoCompressor、Gist、ICAE表征耦合——记忆和产生它的模型绑死,无法迁移到其他模型
表征耦合是最大痛点。你把一堆文档压缩成 soft tokens,这些 tokens 只能被同一个模型家族理解。换一家模型?重新编码。开源换闭源?不可能。

MEMO 的解法粗暴但有效:让记忆成为一个独立的小模型,任何大模型都能调用它。

---

02|架构:两个模型,分工明确

用户查询 → EXECUTIVE MODEL(大模型,冻结)
               ↓ 三阶段多轮协议
         MEMORY MODEL(小模型,训练过,懂语料库)
               ↓
         答案 + 推理过程

EXECUTIVE MODEL:你的主力 LLM。32B、70B、甚至 Claude Opus——都行。参数完全冻结,不需要访问权重,不需要 logits。把它当黑盒用。

MEMORY MODEL:一个 1.5B-14B 的小模型。它接受过专门训练,把目标语料库的内部化成了参数知识。回答问题时直接生成,不需要检索原始文档。

这个设计的关键是 解耦——记忆和推理彻底分离。你可以换 EXECUTIVE 模型而不重训 MEMORY,也可以更新 MEMORY 而不碰 EXECUTIVE。

---

03|五步数据管道:把语料库变成"反思QA"

MEMORY 模型不是直接把文档塞进去训。团队设计了一个五步数据合成管道,用 GENERATOR 模型(可以是 EXECUTIVE 本身或更小的模型)把原始语料蒸馏成结构化 QA 对:

Step 1:事实提取

  • 直接提取:文档中明确陈述的事实
  • 间接提取:从文本推断出的隐含信息
Step 2:合并
  • 把共享上下文的 QA 对合并成多事实问题,训练跨事实整合能力
Step 3:验证与重写
  • 检查每个 QA 对是否自包含——脱离原文也能理解和回答
  • 不合格的(代词未解析、引用未消除)重写或丢弃
Step 4:实体浮现
  • 为每个命名实体生成"间接描述→实体身份"的 QA 对
  • 直接对抗反转诅咒(reversal curse)——模型学会从描述反推实体
Step 5:跨文档合成
  • 在主题相关的文档组上生成跨文档 QA 对
  • 捕捉两类关系:汇聚线索(多文档互补指向同一实体)和平行属性(不同实体共享属性,支持类比推理)
关键约束:整个过程中不嵌入文档标识符或水印,防止 MEMORY 模型走捷径。

最终产出的是 Q_final——一个既包含单文档事实、又包含跨文档关系的反思 QA 数据集。

---

04|训练:小模型背下整个语料库

MEMORY 模型用 Q_final 做监督微调。训练目标很简洁:

loss = 只优化答案 token 的 next-token prediction
条件 = 只有问题文本,没有原始文档

这强制 MEMORY 把知识内化成参数,而不是训练成"文档复制器"。

实验配置

  • MEMORY 模型:Qwen2.5-14B-Instruct(默认),消融实验用 1.5B
  • 训练:3 epochs,Fused AdamW,学习率 2×10⁻⁵
  • 单语料库训练成本:90-180 GPU-hours(NVIDIA H200)
---

05|推理:三阶段多轮协议

EXECUTIVE 模型调用 MEMORY 模型不是单次问答,而是三阶段多轮对话

Stage 1: grounding( grounding)

  • EXECUTIVE 把用户查询分解成原子化的线索探测子问题
  • MEMORY 独立回答每个子问题,不共享上下文
  • 产出 grounding 响应
Stage 2:实体识别
  • EXECUTIVE 用 grounding 结果迭代缩小候选实体范围
  • 向 MEMORY 发 follow-up 查询,直到收敛到单一实体或预算耗尽
  • 利用 Step 4 训练的实体浮现能力
Stage 3:答案寻求与合成
  • 基于识别的实体,EXECUTIVE 向 MEMORY 查询额外支撑事实
  • 最终答案由 EXECUTIVE 综合所有 MEMORY 响应自主生成
效率特性:MEMORY 的响应是紧凑的自然语言片段,长度与语料库大小无关——常数时间推理

---

06|实验结果:数字说话

在三个长上下文、多跳推理基准上测试:

BrowseComp-Plus(深度研究,多文档检索推理)

方法Qwen2.5-32BGemini-3-Flash
Perfect Retrieval(理论上限)79.67%88.33%
BM251.11%27.00%
NV-Embed-V250.67%57.00%
HippoRAG2(SOTA RAG)56.11%66.33%
MEMO54.22%66.67%

NarrativeQA(长文档理解)

方法Qwen2.5-32BGemini-3-Flash
Perfect Retrieval51.42%60.41%
HippoRAG221.39%23.21%
MEMO26.85%53.58%

MuSiQue(多跳推理)

方法Qwen2.5-32BGemini-3-Flash
Perfect Retrieval62.83%73.00%
HippoRAG242.17%57.00%
MEMO48.30%60.20%
关键发现

1. 换 EXECUTIVE 模型不重新训练 MEMORY:把 EXECUTIVE 从 Qwen2.5-32B 换成 Gemini-3-Flash,同一个 MEMORY 模型在三个数据集上分别提升 +12.45%、+26.73%、+11.90%。证明跨模型迁移是真实的。

2. 抗检索噪音:HippoRAG2 加入噪音后在 BrowseComp-Plus 下降 6.22%,MEMO 变化 +0.55%(在误差范围内)。因为 MEMORY 不依赖检索,噪音不影响它。

3. 小模型也能扛:用 1.5B 的 MEMORY 模型(Qwen2.5-1.5B)在 NarrativeQA 上达到 21.16%,接近 HippoRAG2 的 21.39%。1.5B 参数背下整个语料库还能回答问题,这本身就是突破。

---

07|持续集成:模型合并,不用重训

新语料库来了怎么办?不是重训整个 MEMORY,而是训练一个新的 MEMORY 模型,然后在参数空间合并

  • 每个语料库 D_i 训练一个独立的 MEMORY 模型 M_φ_i
  • 所有模型从同一个预训练基座 M_φ₀ 初始化
  • 任务向量:τ_i = φ_i − φ₀
  • 合并:φ_merged = Merge(φ₀, {τ_i})
合并方法包括线性加权、TIES merging 等。在 K=2 语料库时,TIES 合并节省 33% 计算;K=10 时节省 5.5×。代价是准确率相对全量重训有可测量的下降,但仍在可接受范围。

这解决了流式知识注入的痛点:新数据来了,增量训练,不用把所有历史数据重新过一遍。

---

08|方法对比:MEMO 在哪些维度赢?

属性非参数化(RAG)参数化(SFT)隐式记忆MEMO
冻结基座 LLM
无需检索索引
黑盒兼容(闭源模型)
无灾难性遗忘
常数大小记忆
跨模型可迁移
MEMO 是唯一一个六维全满的方法。这是模块化的胜利——每个维度独立优化,不受其他维度牵制。

---

09|局限与质疑

1. 数据生成成本不低

  • BrowseComp-Plus 的反思 QA 生成需要约 240 GPU-hours
  • 加上训练 180 GPU-hours,单个语料库总成本约 420 GPU-hours
  • 这比 RAG 的索引构建贵得多,但比全量 SFT 便宜
2. 泛化到新查询类型的能力
  • 训练数据是 GENERATOR 模型从语料库合成的,覆盖了它"能想到"的问题类型
  • 如果用户问法超出训练分布,MEMORY 可能表现不佳
  • 但这是所有参数化方法的共同问题
3. 与 SOTA RAG 的差距在缩小
  • HippoRAG2 在 BrowseComp-Plus 上 56.11% vs MEMO 54.22%,RAG 路线仍在进步
  • MEMO 的优势场景是跨文档推理检索噪音环境,不是单纯的检索精度
4. 闭源模型的实际限制
  • 虽然理论上支持黑盒模型,但调用 Gemini-3-Flash 做 EXECUTIVE 仍然需要 API 访问
  • 高频调用下,API 成本可能比本地 RAG 更高
---

10|为什么这件事重要?

MEMO 的真正价值不是某个 benchmark 上的分数,而是它重新定义了"记忆"在 AI 系统中的位置。

从外挂到模块:RAG 把记忆当数据库外挂,MEMO 把记忆当一个可独立训练、独立部署、独立替换的模型。这像是把显卡从 CPU 的协处理器变成独立计算单元——架构解耦带来工程自由度。

从检索到内化:RAG 的瓶颈永远是"检索到什么",MEMO 的瓶颈是"训练时学到了什么"。前者依赖检索算法的质量,后者依赖数据合成的质量。在长上下文、多跳推理的场景,内化比检索更可靠。

从绑定到迁移:一个 MEMORY 模型可以服务多个 EXECUTIVE 模型。企业可以训练一个 MEMORY 背下内部知识库,然后让不同团队用不同的大模型调用它。这是目前任何 RAG 系统都做不到的。

最激进的含义:如果 MEMORY 模型小到 1.5B 就能背下整个语料库,那么"个人知识库"的概念就变了。你的读书笔记、工作文档、项目资料——全部训进一个 1.5B 模型,挂在你常用的 Claude 或 GPT 后面。不需要向量数据库,不需要检索管道,不需要担心 chunk 边界切断语义。

---

结论

MEMO 不是 RAG 的替代品,而是另一条路线——把知识从"检索时拉取"变成"推理时调用"。

在需要跨文档合成、抗检索噪音、支持多 EXECUTIVE 模型的场景,MEMO 有结构性优势。在纯检索精度、成本敏感、查询分布与训练分布差异大的场景,RAG 仍然更实用。

但 MEMO 提出的"记忆即模型"范式值得认真对待。它可能不是终局,但它是知识注入架构演进中一个清晰的里程碑。

> 参考来源 > - arXiv: 2605.15156 — Quek et al., "MEMO: Memory as a Model", May 2026 > - Marktechpost coverage: https://www.marktechpost.com/2026/05/26/memo-a-modular-framework/ > - NeurIPS 2023 LongMem paper (related work on decoupled memory)

#MEMO #长期记忆 #LLM架构 #知识注入 #RAG #MIT #NUS #论文解读

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens