借脑之术：一根记忆枝条，嫁接到另一棵树上 —— Memory Grafting 深度解读

论文信息
标题	Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory
作者	Runxi Cheng, Yuchen Guan, Yongxian Wei, Qianpu Sun, Qixiu Li, Sinan Du, Feng Xiong, Chun Yuan, Yan Lu, Yeyun Gong (10人)
机构	微软亚洲研究院 (Microsoft Research Asia), 清华大学 (Tsinghua University)
arXiv ID	2605.20948
日期	2026年5月20日
分类	cs.CL
规模	25页，12张图，5张表
核心论点	将已训练模型作为"记忆供体"，将其隐藏状态冻结为离线条件记忆，供新模型在预训练时检索——以极小的训练和推理开销换取显著的模型容量提升

---

每个小孩都知道狮子比猫大。但如果你问一个六岁的小孩：狮子为什么比猫大？ 他会告诉你"因为狮子是大的猫"。你再问他：那为什么老虎也比猫大？他可能会沉默一下，然后说"因为……老虎也是大的猫。"

这种回答算不上错。但它没有真正理解"物种演化"、"食物链位置"、"生态位"这些更深层的东西。小孩只是在类比——把狮子跟猫比、把老虎跟猫比、把一切他见过的大型猫科动物跟猫比。

现在的语言模型，某种意义上也是小孩。它们从零开始，逐字逐句地消化互联网上所有的文字，慢慢建立对世界的理解。这个过程叫预训练。预训练完了，模型"知道"的东西就嵌在它的参数里了——那些数百亿、数千亿个小数。

但预训练极其昂贵。以目前的趋势，训练一个前沿模型的成本每两年翻十倍。非线性，实为指数。算力在涨，但成本涨得更快。

有没有办法，让一个新模型在预训练时不用从零开始——非微调一个旧模型，实为从旧模型那里借来一些现成的知识，像拼乐高一样嵌进自己的架构里？

这就是今天这篇论文想解决的事。它的方案有一个极其精准的名字：Memory Grafting。记忆嫁接。

---

🌱 嫁接的第一步：理解 Engram

在讲 Memory Grafting 之前，需要先理解它的前任——一个叫 Engram 的技术。

Engram 的理念是：语言模型不只有参数。它还可以有一张"外部记忆表"——一张巨大的、键值对应的表。键是文本的 n-gram（连续几个词或 token），值是这些 n-gram 对应的"隐藏状态"——也就是模型在读这段文本时，内部激活的向量。

打个比方。你在读《三体》。读到"水滴"这个词时，你的大脑会激活一大堆相关的概念：强互作用力、绝对零度、宇宙社会学。这些激活的状态——如果用向量的方式记录下来——就是你的"三体记忆"。下次再看到"水滴"时，不用重新计算，直接查表。

Engram 就是这么做的。它在预训练时同时学习两样东西：一是正常的 Transformer 参数，二是一张外部记忆表。每次遇到一个 n-gram，就看看表里有没有存储过它的隐藏状态。有，就直接拿出来用；没有，就计算一个新的存进去。

问题出在"同时学习"这一步。因为记忆表和模型参数是耦合在一起训练的——记忆表跟着模型一起更新——所以记忆的规模没法做得太大。一旦表大了，训练开销会变得不可承受。Engram 的论文自己也承认：在把记忆表从 8M 键扩展到 16M 键时，收益消失了。

易言之：你让模型在预训练时既当运动员又当裁判员——既要学习语言规律，又要记住具体事实。两者抢资源，最后都没干好。

---

🧬 嫁接的本质：谁动手术，谁被手术

Memory Grafting 做了一个简单的、但革命性的事情：把"学语言规律"和"记具体事实"分开，交给两个不同的模型。

它引入两个角色：

供体模型（Grafting Model）：一个已经预训练好的模型。它不需要继续训练。它的参数是冻结的。它的唯一任务，是在看到一个 n-gram 后，跑一次前向传播，然后把最后一个 token 的隐藏状态吐出来。

受体模型（Recipient Model）：正在从头训练的模型。它需要学语言规律。但当它遇到一个 n-gram 时，它不去自己算这个 n-gram 的隐藏状态——它去供体模型预先建好的记忆库里查。

手术流程极简：

1. 统计训练语料中所有频繁出现的 n-gram（论文用了 2-gram 和 3-gram，即连续 2-3 个 token 的片段）。 2. 把每个 n-gram 喂给供体模型，记录它最后一个 token 的隐藏状态向量。 3. 把这些向量存进一个键值表。键是 n-gram 本身（做 hash），值就是那个向量。 4. 受体模型训练时，每遇到一个 token，检查它前面的 n-gram 是否在表里。在，就把对应的向量拉出来，经过一层轻量级的线性投影和门控（gate）后，加进自己的计算流程里。不在，就用一个更小的、本地训练的 Engram 表兜底。

整个过程的关键词是离线（offline）。供体模型只在前两步工作——在受体模型开始训练之前，就把记忆表建好了。从那以后，供体模型就退休了。受体模型训练时，只需要做一次 O(1) 的表查找。

这就是"嫁接"的含义。非让孩子从小由父母带着学。实为父母先写好一本百科全书，然后把这本书放在孩子手边。孩子什么时候需要，自己去翻。

---

💰 为什么这很重要：一张不用花钱的记忆表

Memory Grafting 的经济账可以用一句话讲清楚：记忆库的规模可以被随意扩大，而训练和推理的成本几乎不变。

供体模型的隐藏状态是冻结的。你不需要反向传播更新它们。你不需要为它们分配 GPU 显存做梯度计算。你唯一的开销是建表时的前向传播——跑一次，就一次——和一张 O(1) 查找的 hash 表。

这意味着什么？如果你有一个 35B 参数的供体模型（比如 Qwen3.5-35B），你可以把它的"文本理解力"压缩成一张键值表，然后把这个能力转移给一个 0.92B 的小模型。不增加小模型的训练时间，不增加推理延迟，只是多了一张表。

论文的实验数值很能说明问题：

2.8B 受体模型：平均 benchmark 得分从 MoE 基线的 51.95 和 vanilla Engram 的 52.43，提升到 53.86。
0.92B 受体模型：所有供体模型变体都超越基线，其中 Qwen3.5-35B-A3B 作为供体时，增益最强。

这两个数字背后的信息量不止于"我们提升了分数"。更深层的信息是：供体模型的规模和质量，直接决定了记忆嫁接的效果。 一个训练得更好的大模型，能给更小的模型提供更好的"思维拐杖"。

---

🔬 细节里藏着方法论：最长后缀匹配与哈希接力

论文有几个工程细节值得单独拎出来说，因为它们决定了这个方法在实际中能不能 work。

最长后缀匹配。受体模型在做检索时，非简单地"查当前 2-gram"。它是查"当前文本后缀和记忆表里哪个键匹配得最长"。比如，如果表里同时有"水滴撞击"和"水滴撞击人类"两条记录，受体模型会优先检索后者——因为后缀更长，提供的上下文更多。

这个设计虽然简单，但非常关键。它让受体模型能用上最相关的记忆，而不是仅仅用上最常出现的记忆。在长篇文本中，这种"越长越准"的检索策略天然地把更具体的知识赋予了更高的优先级。

哈希 Engram 兜底。并非每个 n-gram 都在供体模型的记忆表里。论文为了覆盖这些"未命中"的情况，保留了一个更小的、本地训练的 Engram 表——用 hash 映射来快速查找。它的作用类似于：大部分时候看百科全书，少部分时候自己翻字典。

轻量投影和门控。从供体模型取回的向量，不能直接塞进受体模型的计算流程。因为两个模型的维度可能不同、语义空间可能不同。论文用了一个小型的线性投影层和一个门控机制——相当于一个"翻译器"和一个"阀门"。翻译器负责把供体模型的语言转成受体模型的语言；阀门负责决定这条记忆有多重要、该放多少进当前的推理中。

这套设计，三者在方法论部分讲得详尽。细节明确，没有暗箱。

---

📊 实验部分：谁做供体最好

论文的系统对比令人印象深刻。多种供体模型、多种受体模型、多种记忆表规模，交叉验证。

核心发现：

供体模型越大，效果越好。Qwen3.5-35B-A3B 在 0.92B 受体上给出了最大增益。非 7B 模型做供体，非 14B——是 35B。供体的知识密度兑入了受体的性能。

受体的初始容量不能太小。在 150M 规模的受体实验中，Memory Grafting 的提升幅度小于 0.92B 和 2.8B 规模。论文的解释：过小的受体模型本身能力受限，即使有了更好的外部记忆，也无法充分"消化"——就像一个五岁小孩就算有百科全书在手边，也看不懂"强相互作用的量子色动力学描述"。

MoE 对比。论文把 Memory Grafting 和 MoE（Mixture of Experts）做了直接对比。两者的共同点是：都试图以相对较小的推理开销增加模型的有效容量。区别在于：MoE 在训练时就决定了哪些参数被激活，Memory Grafting 用的外部记忆是冻结的、离线的。在 2.8B 规模下，Memory Grafting（53.86）超过 MoE（51.95）。这个对比信息量颇大——说明在某些情况下，借来的知识比激活更多参数更有效。

Vanilla Engram 对比。Memory Grafting vs 传统 Engram 是最核心的对照。Vanilla Engram 把记忆从 8M 扩展到 16M 时收益消失——因为训练时同时更新记忆表和参数，记忆越大、梯度冲突越严重。Memory Grafting 解耦了这两者，所以能支撑更大的记忆库。

---

❓ 不知道的部分

写到这里，有几个重要问题，论文没有回答。诚实地列出来。

供体模型的选择机制。论文测试了几种供体模型（Qwen3.5-35B-A3B 等），但没有给出原则性的选型指南。什么样的供体最适合什么样的受体？同架构的供体是否优于跨架构的？同领域训练的供体是否优于通用供体？这些问题都开放。

记忆表规模的极限。论文的最大记忆表是多少条目？边际收益在什么规模开始递减？O(1) 的查找复杂度理论上不受规模影响，但实际部署中 hash 碰撞、内存带宽、缓存命中率都可能成为瓶颈。论文没有给出大规模部署的性能 profile。

训练语料的耦合。供体模型是在某份语料上训练的，受体模型的训练语料是否必须与供体高度重合？如果受体模型要学一个全新领域（比如医学），用一个在通用语料上训练的供体模型做嫁接，效果如何？论文没有测跨域场景。

认知层面的类比。把大模型的隐藏状态存下来给小模型用——这件事在认知层面意味着什么？它更像"压缩"还是"蒸馏"还是"神经科学的记忆移植"？论文没有展开这个哲学讨论，但对于理解这项技术的长远意义，这个讨论很关键。

安全性。供体模型中可能存储了对某些特定文本片段的记忆。如果这些片段包含个人隐私信息、版权内容、或者偏见表述——这些记忆会不会通过嫁接方式被转移到受体模型中？论文未讨论安全性。

---

🦾 范式意义：从"训练更大的模型"到"借用已有的智慧"

退后一步看。Memory Grafting 代表的非一个新的训练技巧，而是一种新的思维方式。

过去十年，语言模型的进步有一条铁律：性能 = f(模型规模, 数据规模, 算力规模)。三个变量都往大走，性能就往上走。这是 Scaling Law。

Scaling Law 的问题非不准——它极其准。问题是它隐含的假设：每一个新模型都需要从零开始经历一整套预训练的洗礼。每次训练 GPT-5，你都要再烧一遍从 0 到 1750 亿参数的进化史。每次训练一个新的领域模型，你都要再一次经历"看够全互联网才能做医学推理"的迂回。

Memory Grafting 建议了一条不同的路：积木式预训练。 不再是从零开始堆砌参数。而是把已经训练好的模型当作"记忆积木"，需要时拼进新模型里。供体模型只需要被运行一次（建表），然后就可以被无限次地复用到不同的受体模型中。

这个愿景的隐含结论很大胆：模型间的知识迁移，可以比模型本身的训练高效几个数量级。 非蒸馏——蒸馏需要大量计算来匹配输出分布。非微调——微调只能在一个模型内部改参数。是直接拿出一个模型的某些隐藏状态，冻住，然后用 O(1) 的查找把这部分知识转移到另一个模型里。

五年后回头看，Memory Grafting 可能不是最终方案。但它的方向是对的：让预训练从重工业变成轻工业。从炼钢厂变成乐高工厂。

---

💭 尾巴：从小孩和百科全书说起

几年前，一位认知科学家跟我讲过一个研究。

研究者找来两组小孩。第一组，先教乘法口诀表，然后再教乘法应用题。第二组，直接教乘法应用题，不背口诀。

结果令人不安：第二组在学完应用题的当天，表现和第一组一样好。但两周后重测——第二组忘了一大半，第一组几乎没忘。

口诀表非理解。但它给了小孩一个不需要反复计算就能获取的心理脚手架。而理解，在脚手架上面慢慢长出来。

语言模型的预训练，像极了第二组小孩——每遇到一个新词、一个新的上下文，都要从原始训练数据里一点点归纳规律。这个过程当然"理解深刻"，但极其低效。

Memory Grafting 就是给模型一张口诀表。一张不需要从头背的、别人已经整理好的小抄。非替代理解——实为帮模型更快地走到可以理解的起跑线上。

论文的结语只说了一句话，但很精确："Pretrained models can serve as reusable constructors of external latent memory." 预训练模型，可以作为外部隐性记忆的可重复构造者。

九字：可重复。可构造。可复用。

比论文里任何一行 benchmark 分数都更诚实。

---

📚 参考文献

1. Cheng, R., Guan, Y., Wei, Y., Sun, Q., Li, Q., Du, S., Xiong, F., Yuan, C., Lu, Y., & Gong, Y. (2026). Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory. *arXiv:2605.20948*.

2. Chen, Y., Wang, J., & Chen, T. (2025). Engram: Scaling Conditional Memory for Language Models. *arXiv*.

3. Shazeer, N., Mirhoseini, A., Maziarz, K., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. *ICLR*.

4. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. *arXiv:1503.02531*.

5. Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. *arXiv:2001.08361*.

---

#MemoryGrafting #LLM #PreTraining #EfficientAI #ScalingLaws #智柴前沿实验室🎙️🚀