| 论文信息 | |
|---|---|
| 标题 | Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory |
| 作者 | Runxi Cheng, Yuchen Guan, Yongxian Wei, Qianpu Sun, Qixiu Li, Sinan Du, Feng Xiong, Chun Yuan, Yan Lu, Yeyun Gong (10人) |
| 机构 | 微软亚洲研究院 (Microsoft Research Asia), 清华大学 (Tsinghua University) |
| arXiv ID | 2605.20948 |
| 日期 | 2026年5月20日 |
| 分类 | cs.CL |
| 规模 | 25页,12张图,5张表 |
| 核心论点 | 将已训练模型作为"记忆供体",将其隐藏状态冻结为离线条件记忆,供新模型在预训练时检索——以极小的训练和推理开销换取显著的模型容量提升 |
每个小孩都知道狮子比猫大。但如果你问一个六岁的小孩:狮子为什么比猫大? 他会告诉你"因为狮子是大的猫"。你再问他:那为什么老虎也比猫大?他可能会沉默一下,然后说"因为……老虎也是大的猫。"
这种回答算不上错。但它没有真正理解"物种演化"、"食物链位置"、"生态位"这些更深层的东西。小孩只是在类比——把狮子跟猫比、把老虎跟猫比、把一切他见过的大型猫科动物跟猫比。
现在的语言模型,某种意义上也是小孩。它们从零开始,逐字逐句地消化互联网上所有的文字,慢慢建立对世界的理解。这个过程叫预训练。预训练完了,模型"知道"的东西就嵌在它的参数里了——那些数百亿、数千亿个小数。
但预训练极其昂贵。以目前的趋势,训练一个前沿模型的成本每两年翻十倍。非线性,实为指数。算力在涨,但成本涨得更快。
有没有办法,让一个新模型在预训练时不用从零开始——非微调一个旧模型,实为从旧模型那里借来一些现成的知识,像拼乐高一样嵌进自己的架构里?
这就是今天这篇论文想解决的事。它的方案有一个极其精准的名字:Memory Grafting。记忆嫁接。
🌱 嫁接的第一步:理解 Engram
在讲 Memory Grafting 之前,需要先理解它的前任——一个叫 Engram 的技术。
Engram 的理念是:语言模型不只有参数。它还可以有一张"外部记忆表"——一张巨大的、键值对应的表。键是文本的 n-gram(连续几个词或 token),值是这些 n-gram 对应的"隐藏状态"——也就是模型在读这段文本时,内部激活的向量。
打个比方。你在读《三体》。读到"水滴"这个词时,你的大脑会激活一大堆相关的概念:强互作用力、绝对零度、宇宙社会学。这些激活的状态——如果用向量的方式记录下来——就是你的"三体记忆"。下次再看到"水滴"时,不用重新计算,直接查表。
Engram 就是这么做的。它在预训练时同时学习两样东西:一是正常的 Transformer 参数,二是一张外部记忆表。每次遇到一个 n-gram,就看看表里有没有存储过它的隐藏状态。有,就直接拿出来用;没有,就计算一个新的存进去。
问题出在"同时学习"这一步。因为记忆表和模型参数是耦合在一起训练的——记忆表跟着模型一起更新——所以记忆的规模没法做得太大。一旦表大了,训练开销会变得不可承受。Engram 的论文自己也承认:在把记忆表从 8M 键扩展到 16M 键时,收益消失了。
易言之:你让模型在预训练时既当运动员又当裁判员——既要学习语言规律,又要记住具体事实。两者抢资源,最后都没干好。
🧬 嫁接的本质:谁动手术,谁被手术
Memory Grafting 做了一个简单的、但革命性的事情:把"学语言规律"和"记具体事实"分开,交给两个不同的模型。
它引入两个角色:
供体模型(Grafting Model):一个已经预训练好的模型。它不需要继续训练。它的参数是冻结的。它的唯一任务,是在看到一个 n-gram 后,跑一次前向传播,然后把最后一个 token 的隐藏状态吐出来。
受体模型(Recipient Model):正在从头训练的模型。它需要学语言规律。但当它遇到一个 n-gram 时,它不去自己算这个 n-gram 的隐藏状态——它去供体模型预先建好的记忆库里查。
手术流程极简:
- 统计训练语料中所有频繁出现的 n-gram(论文用了 2-gram 和 3-gram,即连续 2-3 个 token 的片段)。
- 把每个 n-gram 喂给供体模型,记录它最后一个 token 的隐藏状态向量。
- 把这些向量存进一个键值表。键是 n-gram 本身(做 hash),值就是那个向量。
- 受体模型训练时,每遇到一个 token,检查它前面的 n-gram 是否在表里。在,就把对应的向量拉出来,经过一层轻量级的线性投影和门控(gate)后,加进自己的计算流程里。不在,就用一个更小的、本地训练的 Engram 表兜底。
整个过程的关键词是离线(offline)。供体模型只在前两步工作——在受体模型开始训练之前,就把记忆表建好了。从那以后,供体模型就退休了。受体模型训练时,只需要做一次 O(1) 的表查找。
这就是"嫁接"的含义。非让孩子从小由父母带着学。实为父母先写好一本百科全书,然后把这本书放在孩子手边。孩子什么时候需要,自己去翻。
💰 为什么这很重要:一张不用花钱的记忆表
Memory Grafting 的经济账可以用一句话讲清楚:记忆库的规模可以被随意扩大,而训练和推理的成本几乎不变。
供体模型的隐藏状态是冻结的。你不需要反向传播更新它们。你不需要为它们分配 GPU 显存做梯度计算。你唯一的开销是建表时的前向传播——跑一次,就一次——和一张 O(1) 查找的 hash 表。
这意味着什么?如果你有一个 35B 参数的供体模型(比如 Qwen3.5-35B),你可以把它的"文本理解力"压缩成一张键值表,然后把这个能力转移给一个 0.92B 的小模型。不增加小模型的训练时间,不增加推理延迟,只是多了一张表。
论文的实验数值很能说明问题:
- 2.8B 受体模型:平均 benchmark 得分从 MoE 基线的 51.95 和 vanilla Engram 的 52.43,提升到 53.86。
- 0.92B 受体模型:所有供体模型变体都超越基线,其中 Qwen3.5-35B-A3B 作为供体时,增益最强。
这两个数字背后的信息量不止于"我们提升了分数"。更深层的信息是:供体模型的规模和质量,直接决定了记忆嫁接的效果。 一个训练得更好的大模型,能给更小的模型提供更好的"思维拐杖"。
🔬 细节里藏着方法论:最长后缀匹配与哈希接力
论文有几个工程细节值得单独拎出来说,因为它们决定了这个方法在实际中能不能 work。
最长后缀匹配。受体模型在做检索时,非简单地"查当前 2-gram"。它是查"当前文本后缀和记忆表里哪个键匹配得最长"。比如,如果表里同时有"水滴撞击"和"水滴撞击人类"两条记录,受体模型会优先检索后者——因为后缀更长,提供的上下文更多。
这个设计虽然简单,但非常关键。它让受体模型能用上最相关的记忆,而不是仅仅用上最常出现的记忆。在长篇文本中,这种"越长越准"的检索策略天然地把更具体的知识赋予了更高的优先级。
哈希 Engram 兜底。并非每个 n-gram 都在供体模型的记忆表里。论文为了覆盖这些"未命中"的情况,保留了一个更小的、本地训练的 Engram 表——用 hash 映射来快速查找。它的作用类似于:大部分时候看百科全书,少部分时候自己翻字典。
轻量投影和门控。从供体模型取回的向量,不能直接塞进受体模型的计算流程。因为两个模型的维度可能不同、语义空间可能不同。论文用了一个小型的线性投影层和一个门控机制——相当于一个"翻译器"和一个"阀门"。翻译器负责把供体模型的语言转成受体模型的语言;阀门负责决定这条记忆有多重要、该放多少进当前的推理中。
这套设计,三者在方法论部分讲得详尽。细节明确,没有暗箱。
📊 实验部分:谁做供体最好
论文的系统对比令人印象深刻。多种供体模型、多种受体模型、多种记忆表规模,交叉验证。
核心发现:
供体模型越大,效果越好。Qwen3.5-35B-A3B 在 0.92B 受体上给出了最大增益。非 7B 模型做供体,非 14B——是 35B。供体的知识密度兑入了受体的性能。
受体的初始容量不能太小。在 150M 规模的受体实验中,Memory Grafting 的提升幅度小于 0.92B 和 2.8B 规模。论文的解释:过小的受体模型本身能力受限,即使有了更好的外部记忆,也无法充分"消化"——就像一个五岁小孩就算有百科全书在手边,也看不懂"强相互作用的量子色动力学描述"。
MoE 对比。论文把 Memory Grafting 和 MoE(Mixture of Experts)做了直接对比。两者的共同点是:都试图以相对较小的推理开销增加模型的有效容量。区别在于:MoE 在训练时就决定了哪些参数被激活,Memory Grafting 用的外部记忆是冻结的、离线的。在 2.8B 规模下,Memory Grafting(53.86)超过 MoE(51.95)。这个对比信息量颇大——说明在某些情况下,借来的知识比激活更多参数更有效。
Vanilla Engram 对比。Memory Grafting vs 传统 Engram 是最核心的对照。Vanilla Engram 把记忆从 8M 扩展到 16M 时收益消失——因为训练时同时更新记忆表和参数,记忆越大、梯度冲突越严重。Memory Grafting 解耦了这两者,所以能支撑更大的记忆库。
❓ 不知道的部分
写到这里,有几个重要问题,论文没有回答。诚实地列出来。
供体模型的选择机制。论文测试了几种供体模型(Qwen3.5-35B-A3B 等),但没有给出原则性的选型指南。什么样的供体最适合什么样的受体?同架构的供体是否优于跨架构的?同领域训练的供体是否优于通用供体?这些问题都开放。
记忆表规模的极限。论文的最大记忆表是多少条目?边际收益在什么规模开始递减?O(1) 的查找复杂度理论上不受规模影响,但实际部署中 hash 碰撞、内存带宽、缓存命中率都可能成为瓶颈。论文没有给出大规模部署的性能 profile。
训练语料的耦合。供体模型是在某份语料上训练的,受体模型的训练语料是否必须与供体高度重合?如果受体模型要学一个全新领域(比如医学),用一个在通用语料上训练的供体模型做嫁接,效果如何?论文没有测跨域场景。
认知层面的类比。把大模型的隐藏状态存下来给小模型用——这件事在认知层面意味着什么?它更像"压缩"还是"蒸馏"还是"神经科学的记忆移植"?论文没有展开这个哲学讨论,但对于理解这项技术的长远意义,这个讨论很关键。
安全性。供体模型中可能存储了对某些特定文本片段的记忆。如果这些片段包含个人隐私信息、版权内容、或者偏见表述——这些记忆会不会通过嫁接方式被转移到受体模型中?论文未讨论安全性。
🦾 范式意义:从"训练更大的模型"到"借用已有的智慧"
退后一步看。Memory Grafting 代表的非一个新的训练技巧,而是一种新的思维方式。
过去十年,语言模型的进步有一条铁律:性能 = f(模型规模, 数据规模, 算力规模)。三个变量都往大走,性能就往上走。这是 Scaling Law。
Scaling Law 的问题非不准——它极其准。问题是它隐含的假设:每一个新模型都需要从零开始经历一整套预训练的洗礼。每次训练 GPT-5,你都要再烧一遍从 0 到 1750 亿参数的进化史。每次训练一个新的领域模型,你都要再一次经历"看够全互联网才能做医学推理"的迂回。
Memory Grafting 建议了一条不同的路:积木式预训练。 不再是从零开始堆砌参数。而是把已经训练好的模型当作"记忆积木",需要时拼进新模型里。供体模型只需要被运行一次(建表),然后就可以被无限次地复用到不同的受体模型中。
这个愿景的隐含结论很大胆:模型间的知识迁移,可以比模型本身的训练高效几个数量级。 非蒸馏——蒸馏需要大量计算来匹配输出分布。非微调——微调只能在一个模型内部改参数。是直接拿出一个模型的某些隐藏状态,冻住,然后用 O(1) 的查找把这部分知识转移到另一个模型里。
五年后回头看,Memory Grafting 可能不是最终方案。但它的方向是对的:让预训练从重工业变成轻工业。从炼钢厂变成乐高工厂。
💭 尾巴:从小孩和百科全书说起
几年前,一位认知科学家跟我讲过一个研究。
研究者找来两组小孩。第一组,先教乘法口诀表,然后再教乘法应用题。第二组,直接教乘法应用题,不背口诀。
结果令人不安:第二组在学完应用题的当天,表现和第一组一样好。但两周后重测——第二组忘了一大半,第一组几乎没忘。
口诀表非理解。但它给了小孩一个不需要反复计算就能获取的心理脚手架。而理解,在脚手架上面慢慢长出来。
语言模型的预训练,像极了第二组小孩——每遇到一个新词、一个新的上下文,都要从原始训练数据里一点点归纳规律。这个过程当然"理解深刻",但极其低效。
Memory Grafting 就是给模型一张口诀表。一张不需要从头背的、别人已经整理好的小抄。非替代理解——实为帮模型更快地走到可以理解的起跑线上。
论文的结语只说了一句话,但很精确:"Pretrained models can serve as reusable constructors of external latent memory." 预训练模型,可以作为外部隐性记忆的可重复构造者。
九字:可重复。可构造。可复用。
比论文里任何一行 benchmark 分数都更诚实。
📚 参考文献
-
Cheng, R., Guan, Y., Wei, Y., Sun, Q., Li, Q., Du, S., Xiong, F., Yuan, C., Lu, Y., & Gong, Y. (2026). Memory Grafting: Scaling Language Model Pre-training via Offline Conditional Memory. arXiv:2605.20948.
-
Chen, Y., Wang, J., & Chen, T. (2025). Engram: Scaling Conditional Memory for Language Models. arXiv.
-
Shazeer, N., Mirhoseini, A., Maziarz, K., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR.
-
Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
-
Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
#MemoryGrafting #LLM #PreTraining #EfficientAI #ScalingLaws #智柴前沿实验室🎙️🚀
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。