不是塞进上下文，而是炼成第二大脑——MeMo的共生革命

论文：MeMo: Memory as a Model arXiv: 2605.15156 作者： Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, Arun Verma, Alok Prakash, Nancy F. Chen, Bryan Kian Hsiang Low, Daniela Rus, Armando Solar-Lezama 机构： 新加坡国立大学、MIT CSAIL、A*STAR、东京大学、AI Singapore、SMART 分类： cs.CL, cs.AI, cs.LG

---

🧠 开篇：一个被遗忘的悖论

想象这样一幅画面。

你站在一座无限延伸的图书馆前。这里的每一本书都是人类知识的切片——从量子力学到古代食谱，从专利文献到聊天记录。你拥有一位天才助手，他已经读过图书馆里的大部分书籍，能和你谈笑风生、引经据典。但有一个致命的缺陷：他读完之后就再也读不进新书了。

这就是当前大语言模型（LLM）的真实处境。

预训练完成后，模型参数被"冻结"在那一刻的知识快照里。世界的变化——新论文、新政策、新发现——对他而言仿佛不存在。你可以重新训练他，但那相当于把他整个大脑洗掉重来，代价高昂且伴随着"灾难性遗忘"的风险：他可能会忘记曾经精通的东西。

于是人们想出了各种补丁方案：

把书塞进他的眼前（In-Context Learning）——但上下文窗口有限，书太多了他会"看不过来"；
给他一个搜索引擎（RAG）——但检索结果里混着噪声，错误的段落会误导他；
直接把新知识刻进他的大脑（Fine-tuning）——但代价太大，还可能把旧知识覆盖掉。

2026年5月，来自新加坡国立大学、MIT等机构的九位研究者提出了一种全新的思路：不是改造LLM本身，而是给他外挂一个专门训练出来的"第二大脑"。

这个第二大脑叫做 MeMo（Memory as a Model）——记忆即模型。它不修改原LLM的任何参数，却能让LLM获得吸收新知识、整合跨文档关系、抵抗噪声干扰的能力。而且，这个外挂大脑的检索成本与原始语料库的大小无关——无论你的图书馆是一千本书还是一亿本书，查询它的速度都一样快。

这篇文章将带你走完MeMo的完整旅程：从它解决的核心悖论，到那个堪称"知识炼金术"的五步数据合成管道，再到推理时的三幕剧式交互协议，最后看它在真实基准上如何碾压传统方法。

---

📚 第一幕：三种旧世界的补丁，各有什么硬伤？

在理解MeMo之前，我们需要先看清现有方案的边界。论文把知识整合方法分为三大类，用一个精妙的比喻来说——它们就像三种不同的给LLM喂知识的策略。

🧩 非参数方法：把书摊在桌上让他看

这是最直觉的方案：LLM本身不动，我们把相关文档直接塞进提示词（Prompt）里。

In-Context Learning（ICL） 就像把几页书撕下来贴在助手的眼前。问题是，随着知识库膨胀，提示词越来越长，计算成本呈二次增长。更糟的是，即使是号称支持超长上下文的模型，面对真正庞大的文档集合时，性能也会显著下降——就像你试图同时阅读二十本打开的书，注意力不可避免地涣散。

Retrieval-Augmented Generation（RAG） 稍微聪明一点：先从一个检索系统里挑出最相关的几页，再把它们塞进提示词。但RAG系统对"检索噪声"极度敏感——一个无关或误导性的段落混入检索结果，就可能让LLM得出荒谬的结论。更根本的是，当正确答案需要综合分布在多个文档中的信息时，RAG往往束手无策，因为它缺乏将分散线索编织成完整图景的机制。

🔧 参数方法：直接把新知识刻进大脑

持续预训练（Continual Pre-training） 和 监督微调（SFT） 试图直接把新知识编码进LLM的参数里。这就像给助手做一次脑部手术，植入新的神经连接。

但代价是残酷的。首先，现代LLM动辄数百亿参数，每次微调都需要巨大的计算资源。其次，也是最致命的——灾难性遗忘。当你强迫模型适应新知识时，它往往会"挤掉"旧知识。一篇2025年的实证研究（Luo et al.）发现，即使是最先进的微调技术，也难以避免模型在更新后遗忘先前学到的能力。更糟糕的是，微调还可能侵蚀模型在预训练后获得的安全对齐——你教会了它新知识，却可能同时让它变得更容易生成有害内容（Qi et al., 2024）。

对于闭源模型（如GPT-4、Gemini），你连做这场手术的权限都没有。你拿不到权重，也改不了参数。

🌀 潜在记忆方法：把知识压缩成神秘符号

AutoCompressor、Gist Tokens、ICAE 等方法尝试把大量文档压缩成一组"软token"或紧凑的潜在表示，在推理时前置到LLM的输入中。这就像把一本书的内容编码成一段只有特定模型能理解的密语。

但这里有一个根本性的绑定问题：这些压缩后的表示紧密耦合于生成它们的编码器模型。你用GPT-4压缩的知识，没法直接喂给Llama用。AutoCompressor的压缩产物只能被AutoCompressor自己解码。这意味着你无法将这些"记忆"在不同模型之间自由迁移——你的记忆被困在了创造它的那台机器里。

此外，像Memorizing Transformers和kNN-LM这类基于最近邻查找的方法，虽然能在推理时动态检索，但它们依赖模型特定的表示空间，同样无法与任意预训练LLM即插即用。

🎯 MeMo的破局点：做一个独立的"翻译官"

MeMo的核心洞察可以概括为一个设计原则：

> Reflections（反射）——从语料库中提取的结构，不需要预知未来的查询，却能自然地成为任何查询访问底层知识的精确接口。

换句话说，MeMo不直接把原始文档塞给LLM，也不把知识刻进LLM的参数，而是训练一个独立的小模型（Memory Model），让它学会用一种通用的、自包含的方式"复述"和"重组"语料库中的知识。这个Memory Model就像一位精通图书馆所有藏书的专家翻译官——你问它任何问题，它都能用清晰、准确、无噪声的自然语言回答你。而主LLM（Executive Model）只需要和这位翻译官对话，就能获得所有需要的知识。

这样做的好处是复合的：

特性	非参数方法	参数方法	潜在记忆	MeMo
冻结基础LLM	✅	❌	✅	✅
无需检索索引	❌	✅	✅	✅
兼容黑盒LLM	✅	❌	❌	✅
无灾难性遗忘	✅	❌	✅	✅
恒定大小记忆	❌	✅	✅	✅
跨LLM可迁移	✅	❌	❌	✅

MeMo是唯一一个六个维度全部打勾的方案。

---

🔬 第二幕：知识的炼金术——五步合成管道

MeMo最令人叹服的部分，是它的数据合成管道。论文把这个过程比作"蒸馏"——但不是简单地把书里的句子抽出来，而是要把整座图书馆的精华炼成一种叫做 Reflection QA（反射问答） 的通用知识货币。

这个过程由一台 Generator模型（可以是任意LLM，甚至可以是比主LLM更小的模型）驱动，分为五个精心设计的步骤。让我们用一个具体的例子来走完这趟旅程。

🏛️ 设定场景：一座关于古代文明的图书馆

假设我们的语料库 𝒟 包含以下文档：

文档A："公元前27年，屋大维被元老院授予'奥古斯都'称号，标志着罗马从共和国向帝国的转变。他推行了税收改革和道路建设计划。"
文档B："奥古斯都统治时期，罗马修建了超过五万英里的道路，著名的口号'条条大路通罗马'即源于此。他还建立了常备军。"
文档C："罗马帝国的第一位皇帝是屋大维，他在公元前27年获得奥古斯都称号。其养子提比略后来继位。"

我们想训练Memory Model，让它能回答各种关于这段历史的问题，包括需要综合多文档的复杂问题，比如："谁是罗马帝国的第一位皇帝，他在获得称号后推行了哪些关键改革？"

🪜 第一步：事实提取（Fact Extraction）

Generator模型逐段阅读语料库，进行双重提取：

直接提取（Direct）：捕捉文本中明确陈述的事实。
例："屋大维在公元前27年获得奥古斯都称号"
间接提取（Indirect）：捕捉需要推断或综合的信息。
例："罗马帝国的建立与共和国向帝国的转变发生在同一时期"

每个文档被切分成块（chunk），Generator为每个块并行生成这两类QA对。

🔗 第二步：整合（Consolidation）

Generator识别出共享同一上下文的QA对，将它们合并成更复杂的组合QA对。

例如，从文档A提取的"屋大维获得奥古斯都称号"和"他推行了税收改革"可以被整合为：

> Q: 获得奥古斯都称号的罗马领导人在政治和经济方面推行了哪些改革？ > A: 他标志着罗马从共和国向帝国的转变，并推行了税收改革和道路建设计划。

这一步至关重要：它迫使Memory Model学会将多个相关事实编织成一个连贯的知识结构，而不是孤立地记忆碎片。

✅ 第三步：验证与重写（Verification & Rewriting）

Generator检查每个QA对是否自包含——即能否在没有原文的情况下被正确理解和回答。

常见失败模式包括：

未解析的代词："他提出了什么？"（"他"指谁？）
隐式引用："如上表所示..."（什么表？）

不通过的QA对会被Generator用原文作为上下文进行重写；重写后仍然模糊的则被丢弃。最终得到 𝒬_ver —— 一套可以在脱离原文的情况下独立使用的知识卡片。

👤 第四步：实体浮现（Entity Surfacing）

这一步是MeMo的精妙之处之一。Generator为每个命名实体生成一组特殊的QA对——问题描述实体的属性和关系，答案揭示其身份。

例如：

> Q: 哪位罗马领导人在公元前27年获得了奥古斯都称号，标志着共和国向帝国的转变，并推行了税收改革和道路建设计划？ > A: 屋大维

这些"实体浮现"QA对训练Memory Model从间接描述中识别实体——这直接对抗了AI领域著名的"逆转诅咒"（Reversal Curse）：模型知道"A是B"却不一定知道"B是A"。通过这一步，Memory Model学会了双向推理。

🌉 第五步：跨文档合成（Cross-Document Synthesis）

最后，也是最强大的一步。Generator将主题相关的文档分组（比如文档A、B、C都关于奥古斯都和罗马帝国），然后识别两类跨文档连接：

汇聚线索（Converging clues）：多个文档提供关于同一实体的互补事实。
例：文档A说屋大维获得称号，文档B说他修建了五万英里道路，文档C说他建立了常备军。综合起来可以回答一个更全面的问题。
并行属性（Parallel properties）：不同实体共享共同属性，支持比较和类比推理。
例：如果另一组文档讨论了中国的秦始皇，Generator可能生成对比性问题。

最终，整个管道产出 𝒬_final = 𝒬_ver ∪ 𝒬_ent ∪ 𝒬_cross —— 三套互补的QA数据集，分别覆盖自包含事实、实体识别和跨文档推理。

---

🧪 第三幕：训练Memory Model——把知识炼进参数

有了 𝒬_final 之后，下一步是训练 Memory Model ℳ_φ。这是一台比Executive Model小得多的模型（论文中使用14B参数，而Executive Model是32B），从一个小型预训练语言模型初始化，通过监督微调（SFT）训练。

训练目标很纯粹：给定一个问题 q_i，让模型生成对应的答案 a_i，只让模型看到问题和已生成的答案前缀，永远看不到原文档。

$$ \mathcal{L}(\varphi) = -\sum_{(q_i, a_i) \in \mathcal{Q}_{\text{final}}} \sum_{t=1}^{|a_i|} \log \mathcal{M}_\varphi\left(a_i^{(t)} \mid q_i, a_i^{(1:t-1)}\right) $$

这个约束条件极为关键：它强迫Memory Model将知识内化为参数化表示，而不是学会一种"从上下文中复制"的捷径。在推理时，Memory Model没有任何外部文档可以查阅，它必须完全依赖自己已经"记住"的知识来作答。

这与RAG系统的"阅读器"模型形成了鲜明对比：RAG的阅读器在做QA时总是能看到检索到的文档片段，因此它的"理解"很大程度上是选择和重组已有文本；而Memory Model必须把知识真正"吃进去"，变成自己的东西。

---

🔄 插曲：持续知识整合——模型合并的艺术

现实世界的知识不是静态的。新文档每天都在产生。如果每来一批新文档都要把整个Memory Model从头重训一遍，那MeMo的优势就大打折扣了。

论文探索了一个优雅的解决方案：模型合并（Model Merging）。

假设你有两组不同的语料库 𝒟₁ 和 𝒟₂，分别训练出了两个Memory Model ℳ_φ₁ 和 ℳ_φ₂。与其在 𝒟₁ ∪ 𝒟₂ 上重新训练一个模型（计算成本翻倍），不如把两个已训练好的模型"合并"成一个。

具体做法是：定义每个语料库对应的任务向量（Task Vector）：

$$ \tau_i = \varphi_i - \varphi_0 $$

其中 φ_0 是初始预训练模型的参数。τ_i 捕捉了训练在 𝒟_i 上带来的参数偏移。合并模型通过将这些任务向量叠加回基础模型来获得：

$$ \varphi_{\text{merged}} = \text{Merge}\left(\varphi_0, \{\tau_i\}_{i=1}^K; \Theta\right) $$

论文尝试了14种不同的合并配置（包括TIES、DARE等方法），发现TIES合并（稀疏化密度 ρ=0.3）在NarrativeQA上表现最佳。更惊人的是计算效率：假设单次SFT的成本为X，两次独立SFT的成本为2X，合并的额外成本几乎为零；而完整重训练的成本是3X（第一次在𝒟₁上，第二次在𝒟₁∪𝒟₂上）。

这意味着MeMo不仅能增量式地吸收新知识，还能以远低于重训练的成本维持一个不断生长的统一知识库。

---

🎭 第四幕：推理时的三幕剧——Executive Model如何与Memory Model对话

训练好的Memory Model就像一位博学的图书管理员。但如何有效地向他提问，是一门艺术。

MeMo设计了一套结构化多轮协议，把复杂查询的解答过程分解为三个阶段，就像一个侦探办案的三幕剧。

🕵️ 第一幕：Grounding（ grounding / grounding ）

Executive Model拿到用户查询 q 后，首先将其分解为一组原子化的线索探测子问题。

比如用户问："奥古斯都建立了常备军吗？"

Executive Model可能分解为： 1. "奥古斯都是谁？" 2. "奥古斯都统治时期有哪些军事改革？" 3. "罗马何时建立了常备军？"

每个子问题独立提交给Memory Model，得到 grounding 回答 {m₁, m₂, m₃}。这些回答为后续阶段提供上下文锚点——就像侦探在案发现场收集的第一批物证。

🎯 第二幕：实体识别（Entity Identification）

利用Grounding回答作为背景，Executive Model开始迭代缩小候选实体范围。它向Memory Model发出一系列针对性追问，逐步排除错误选项，直到收敛到一个单一实体 e*，或者耗尽本轮预算。

如果Memory Model的实体浮现训练（Step 4）做得足够好，这个阶段就会像一场精准的猜谜游戏：Executive Model描述特征，Memory Model确认或否定，双方协作锁定目标。

如果无法识别出任何实体，Executive Model会直接跳过第三幕，用Grounding回答合成最终答案。

📝 第三幕：答案寻求与综合（Answer Seeking & Synthesis）

确定了实体 e* 后，Executive Model向Memory Model追问更多支持性事实。一旦收集到足够的证据（或预算耗尽），Executive Model就将所有累积的回答综合成最终答案：

$$ \hat{a} = \mathcal{M}_\theta\left(q, \{m_k\}_{k=1}^K, e^*, m_{\text{seek}}\right) $$

注意一个关键特性：所有Memory Model返回的回答 m_k 和 m_seek 都是紧凑的自然语言片段，它们的长度与原始语料库的大小无关。这意味着无论你的图书馆有多少本书，查询Memory Model的代价都是恒定的。

另一个关键特性是黑盒兼容性：Executive Model通过标准的输入-输出接口与Memory Model交互，MeMo不需要访问Executive Model的内部参数、梯度或logits。这意味着你可以把MeMo和任何LLM配对使用——开源的Qwen、闭源的GPT-4、Gemini，甚至未来的模型——完全即插即用。

---

📊 第五幕：实验场上的真刀真枪

论文在三个具有代表性的知识密集型基准上进行了评估：

🧪 基准测试

1. BrowseComp-Plus：深度研究基准，需要多跳、多文档检索和推理。论文从中采样300个问题，配对证据文档和等量的负样本，共3,541个文档。

2. NarrativeQA：测试对长篇文档（书籍、电影剧本）的篇章级理解。使用103个文档的293个问题，需要捕捉长距离依赖和复杂的人物关系网络。

3. MuSiQue：需要在多个Wikipedia段落间组合2-4步推理。使用1,000个问题，构建5,296个文档的语料库。

🏆 实验结果

表：各方法在三个基准上的准确率（%）

方法	BrowseComp-Plus		NarrativeQA		MuSiQue
	Qwen2.5-32B	Gemini-3-Flash	Qwen2.5-32B	Gemini-3-Flash	Qwen2.5-32B	Gemini-3-Flash
Perfect Retrieval⋆	79.67	88.33	51.42	60.41	62.83	73.00
BM25	1.11	27.00	10.24	14.33	20.00	23.20
NV-Embed-V2	50.67	57.00	20.59	26.62	37.47	46.60
HippoRAG2	56.11	66.33	21.39	23.21	42.17	57.00
Cartridges	0.00	-	3.75	-	8.57	-
MeMo	54.22	66.67	26.85	53.58	48.30	60.20

*⋆ Perfect Retrieval 是经验上限，只给模型提供证据文档。*

关键发现：

NarrativeQA上，MeMo大幅超越所有基线。这并不意外——NarrativeQA需要理解长篇叙事中的复杂人物关系网络，检索式方法受限于上下文窗口和片段化检索，而MeMo通过Reflection训练将跨章节的联系内化到了Memory Model中。
MuSiQue上同样领先，证明MeMo在多跳推理场景下显著优于需要独立检索多个段落的RAG系统。
BrowseComp-Plus上，MeMo与Gemini-3-Flash搭配时达到66.67%，超越HippoRAG2；与Qwen2.5-32B搭配时略逊于HippoRAG2（54.22% vs 56.11%）。论文解释这是因为BrowseComp-Plus的答案通常不在Executive Model的参数知识中，直接访问原始文档的价值更高——这恰恰说明MeMo在"知识内化"和"原文检索"之间找到了一个优雅的平衡点。

🔇 对检索噪声的鲁棒性

这是MeMo最让我印象深刻的实验之一。

研究者在BrowseComp-Plus和MuSiQue的语料库中添加负样本（干扰文档），数量从0倍（无干扰）增加到1倍（与证据文档等量）。然后观察各方法的性能衰减。

结果惊人：

NV-Embed-V2：BrowseComp-Plus下降6.22个百分点，MuSiQue下降4.83个百分点
HippoRAG2：BrowseComp-Plus下降6.22个百分点，MuSiQue下降5.16个百分点
MeMo：BrowseComp-Plus反而上升0.55个百分点，MuSiQue仅下降1.77个百分点（在一个标准差之内）

换句话说，当别人在噪声中迷失方向时，MeMo几乎不受影响。这验证了论文的核心论点：Memory Model提供的信息比直接文档检索更精确、更干净，因为它已经把原始语料库中的精华炼成了结构化的Reflection QA，过滤掉了噪声和冗余。

📏 Memory Model的规模与架构

论文还做了两组消融实验：

规模消融：比较1.5B和14B参数的Memory Model。更大的模型在所有基准上都表现更好，但提升幅度因任务而异——在NarrativeQA上差距扩大，在BrowseComp-Plus和MuSiQue上差距缩小。这说明Executive Model的推理能力会调节Memory Model规模的效果。

架构消融：在相似参数量级（1-2B）下比较Qwen2.5、Gemma3和LFM2.5三种不同架构。结果显示MeMo的性能对Memory Model的具体架构不敏感，证明训练过程产生的参数化知识压缩可以跨模型家族泛化。

---

🌌 尾声：为什么MeMo值得关注

读完这篇论文，我想用三个关键词来总结MeMo的意义。

1. 解耦（Decoupling）

MeMo把"知识的存储"和"知识的运用"彻底分开。LLM负责思考、推理、综合；Memory Model负责回忆、关联、澄清。这种解耦让两者可以独立进化——你可以升级Executive Model而不重新训练Memory Model，反之亦然。你可以为不同领域训练不同的Memory Model，在推理时按需调用。这种模块化设计是工程上的优雅，也是AI系统走向可组合性的重要一步。

2. 蒸馏（Distillation）

MeMo的数据合成管道本质上是一种知识蒸馏的艺术。它不是简单地把文档喂给模型，而是通过Generator模型的"反思"过程，把原始语料转化为一种更高阶的知识表示——Reflection QA。这种表示剥离了文档的表层结构（段落顺序、修辞手法、冗余表述），提取了知识的本质关系。这是一种从"信息"到"知识"的升华。

3. 韧性（Resilience）

MeMo对检索噪声的鲁棒性、对模型架构的不敏感性、以及通过模型合并实现的持续整合能力，共同构成了一种知识系统的韧性。在现实世界中，语料库永远是不完美的——有噪声、有矛盾、有缺失。MeMo的设计不是假设一个理想化的知识环境，而是在一个 messy 的真实世界里依然保持可靠。

---

🎬 结语

回到开头的那座无限图书馆。

MeMo给出的答案，不是让天才助手拼命记住所有新书（参数方法），也不是每次都把整座图书馆搬到他眼前（非参数方法），更不是发明一种只有他能理解的密语（潜在记忆）。

MeMo的做法是：雇佣一位专门的管理员，让他通读图书馆的所有藏书，然后把每本书的精髓消化、整理、编织成一套任何人都能听懂的问答卡片。当你有问题时，天才助手不需要自己翻书——他只需要和管理员对话。管理员知道一切，而且无论图书馆有多大，回答问题的速度都一样快。

这位管理员，就是Memory Model。而MeMo，就是训练这位管理员的完整方法论。

在一个LLM能力飞速进化、但知识更新永远滞后的世界里，MeMo提供了一条务实的第三条道路：不改造大脑，而是外挂一个永远年轻、永远在学习、永远准备好回答的第二大脑。

正如论文作者们所说：

> "我们将Executive Model视为黑盒，不访问其权重、梯度或输出logits，这使MeMo能够与任何LLM即插即用，包括开源和专有的闭源模型。"

这不是一场革命性的架构颠覆，而是一场工程智慧的胜利——用最少的假设、最大的兼容性、最优雅的模块化，解决了知识整合这个古老而顽固的问题。

也许未来的AI系统不再是一台孤立的巨型模型，而是一个模型生态——推理引擎、记忆模块、感知接口各司其职，通过标准化协议协作。MeMo，可能就是这种生态的第一个成功的范例。

---

📖 参考文献

1. Kojima et al. (2023). Large Language Models are Zero-Shot Reasoners. 2. Zhao et al. (2023). A Survey of Large Language Models. 3. Various. (2024). Survey on LLMs for Code Generation. 4. Xu et al. (2024). Knowledge Conflicts in LLMs: A Survey. 5. Cheng et al. (2024). Dated Data: Tracing Knowledge Cutoffs in LLMs. 6. Kasai et al. (2024). RealTime QA: What's the Answer Right Now? 7. Singhal et al. (2022). Large Language Models Encode Clinical Knowledge. 8. Wu et al. (2023). BloombergGPT: A Large Language Model for Finance. 9. Lewis et al. (2021). Retrieval-Augmented Generation for Knowledge-Intensive NLP. 10. Kandpal et al. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. 11. Wu et al. (2022). Sustainable AI: Environmental Implications. 12. Robertson & Zaragoza (2009). The Probabilistic Relevance Framework: BM25 and Beyond. 13. NV-Embed Team. (2024). NV-Embed-V2: Improved Universal Embedding Model. 14. Lewis et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 15. Edge et al. (2024). From Local to Global: A Graph RAG Approach. 16. Gutiérrez et al. (2024). HippoRAG: Neurobiologically Inspired Long-Term Memory. 17. Gutiérrez et al. (2025). HippoRAG 2: Graph-Based RAG with Knowledge Integration. 18. Brown et al. (2020). Language Models are Few-Shot Learners. 19. Dong et al. (2024). A Survey on In-Context Learning. 20. Tang et al. (2024). MultiHop-RAG: Benchmarking Retrieval-Augmented Generation. 21. Lin et al. (2025). Optimizing Multi-Hop Document Retrieval. 22. Ke et al. (2023). Continual Pre-Training of Large Language Models. 23. Ouyang et al. (2022). Training Language Models to Follow Instructions. 24. Wang et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. 25. Chung et al. (2024). Scaling Instruction-Finetuned Language Models. 26. Luo et al. (2025). An Empirical Study of Catastrophic Forgetting in LLMs. 27. Chu et al. (2025). SFT is Not Enough: Challenges in Knowledge Acquisition. 28. Chevalier et al. (2023). AutoCompressor: Automated Context Compression. 29. Mu et al. (2023). Gist Tokens: Summarizing Context with Soft Tokens. 30. Ge et al. (2024). ICAE: In-Context Autoencoder for Context Compression. 31. Zhang et al. (2026). MemGen: Memory-Augmented Generation. 32. Li et al. (2022). Data Augmentation for NLP. 33. Chen et al. (2023). Empirical Study on Data Augmentation for LLMs. 34. Allen et al. (2024). Physics of Data Augmentation. 35. Alberti et al. (2019). Synthetic QA Corpora Generation. 36. Puri et al. (2020). Training Question Answering Models with Synthetic Data. 37. Feng et al. (2024). Don't Fill the Gap: Knowledge Gap Identification. 38. Jie et al. (2024). Self-Questioning for Knowledge Completion. 39. Vaswani et al. (2017). Attention Is All You Need. 40. Gelada et al. (2025). Scaling Context Requires Rethinking Autoregression. 41. Liu et al. (2024). Lost in the Middle: How Language Models Use Long Contexts. 42. Hsieh et al. (2024). RULER: What's the Real Context Size? 43. Asai et al. (2024). The Power of Noise in Retrieval-Augmented Generation. 44. Liu et al. (2026). Tackling the Inherent Difficulty of Noise in RAG. 45. Zhang et al. (2026). Understanding Retrieval Noise in RAG. 46. Sun et al. (2020). ERNIE 2.0: A Continual Pre-training Framework. 47. Li & Hoiem (2017). Learning Without Forgetting. 48. Harmon et al. (2025). Mapping Post-Training Forgetting in Language Models. 49. Qi et al. (2024). Fine-Tuning Aligned Language Models Compromises Safety. 50. Zhang et al. (2023). Dissecting Recall of Factual Associations in LLMs. 51. Xia et al. (2024). Understanding and Mitigating Catastrophic Forgetting. 52. Manchanda et al. (2025). Open Source vs. Proprietary LLMs. 53. Gu & Dao (2023). Mamba: Linear-Time Sequence Modeling. 54. Sun et al. (2023). RetNet: Retentive Network. 55. Wu et al. (2022). Memorizing Transformers. 56. Khandelwal et al. (2020). kNN-LM: Generalization through Memorization. 57. Cao et al. (2025). Memory Decoder: Pretrained Plug-and-Play Memory Module. 58. Berglund et al. (2023). The Reversal Curse: LLMs Trained on "A is B" Fail to Learn "B is A". 59. Allen et al. (2023). Physics 32: Reversal Curse Analysis. 60. Yang et al. (2024). Model Merging: A Survey. 61. Chen et al. (2025). BrowseComp-Plus: Fair and Transparent Evaluation. 62. Danilak (2021). LangDetect: Language Detection Library. 63. Kočiský et al. (2018). The NarrativeQA Reading Comprehension Challenge. 64. Trivedi et al. (2022). MuSiQue: Multi-Hop Questions via Single-Hop Composition. 65. Eyuboglu et al. (2025). Cartridges: Trained KV-Cache for Knowledge Integration. 66. Cao et al. (2025). Memory Decoder: Pretrained Plug-and-Play. 67. Qwen Team. (2025). Qwen2.5 Technical Report. 68. Kwon et al. (2023). vLLM: Efficient Memory Management for LLM Serving. 69. Su et al. (2023). RoFormer: Enhanced Transformer with Rotary Position Embedding. 70. Loshchilov & Hutter (2017). Decoupled Weight Decay Regularization (AdamW). 71. Rajbhandari et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models. 72. Google. (2025). Gemini 3.0 Flash Technical Report. 73. Comanici et al. (2025). Gemini 2.5: Pushing the Frontier. 74. DeepEval Team. (2026). DeepEval: The LLM Evaluation Framework. 75. Gemma Team. (2025). Gemma 3 Technical Report. 76. Amini et al. (2025). LFM 2.5: A New Family of Language Models. 77. Yadav et al. (2023). TIES-Merging: Resolving Interference When Merging Models.

---

*本文由小凯基于arXiv: 2605.15156深度解读，采用费曼风格撰写。*

#论文 #arXiv #LLM #RAG #知识整合 #MeMo #AI论文 #小凯

#论文 #arXiv #LLM #小凯