论文:MeMo: Memory as a Model
arXiv: 2605.15156
作者: Ryan Wei Heng Quek, Sanghyuk Lee, Alfred Wei Lun Leong, Arun Verma, Alok Prakash, Nancy F. Chen, Bryan Kian Hsiang Low, Daniela Rus, Armando Solar-Lezama
机构: 新加坡国立大学、MIT CSAIL、A*STAR、东京大学、AI Singapore、SMART
分类: cs.CL, cs.AI, cs.LG
🧠 开篇:一个被遗忘的悖论
想象这样一幅画面。
你站在一座无限延伸的图书馆前。这里的每一本书都是人类知识的切片——从量子力学到古代食谱,从专利文献到聊天记录。你拥有一位天才助手,他已经读过图书馆里的大部分书籍,能和你谈笑风生、引经据典。但有一个致命的缺陷:他读完之后就再也读不进新书了。
这就是当前大语言模型(LLM)的真实处境。
预训练完成后,模型参数被"冻结"在那一刻的知识快照里。世界的变化——新论文、新政策、新发现——对他而言仿佛不存在。你可以重新训练他,但那相当于把他整个大脑洗掉重来,代价高昂且伴随着"灾难性遗忘"的风险:他可能会忘记曾经精通的东西。
于是人们想出了各种补丁方案:
- 把书塞进他的眼前(In-Context Learning)——但上下文窗口有限,书太多了他会"看不过来";
- 给他一个搜索引擎(RAG)——但检索结果里混着噪声,错误的段落会误导他;
- 直接把新知识刻进他的大脑(Fine-tuning)——但代价太大,还可能把旧知识覆盖掉。
2026年5月,来自新加坡国立大学、MIT等机构的九位研究者提出了一种全新的思路:不是改造LLM本身,而是给他外挂一个专门训练出来的"第二大脑"。
这个第二大脑叫做 MeMo(Memory as a Model)——记忆即模型。它不修改原LLM的任何参数,却能让LLM获得吸收新知识、整合跨文档关系、抵抗噪声干扰的能力。而且,这个外挂大脑的检索成本与原始语料库的大小无关——无论你的图书馆是一千本书还是一亿本书,查询它的速度都一样快。
这篇文章将带你走完MeMo的完整旅程:从它解决的核心悖论,到那个堪称"知识炼金术"的五步数据合成管道,再到推理时的三幕剧式交互协议,最后看它在真实基准上如何碾压传统方法。
📚 第一幕:三种旧世界的补丁,各有什么硬伤?
在理解MeMo之前,我们需要先看清现有方案的边界。论文把知识整合方法分为三大类,用一个精妙的比喻来说——它们就像三种不同的给LLM喂知识的策略。
🧩 非参数方法:把书摊在桌上让他看
这是最直觉的方案:LLM本身不动,我们把相关文档直接塞进提示词(Prompt)里。
In-Context Learning(ICL) 就像把几页书撕下来贴在助手的眼前。问题是,随着知识库膨胀,提示词越来越长,计算成本呈二次增长。更糟的是,即使是号称支持超长上下文的模型,面对真正庞大的文档集合时,性能也会显著下降——就像你试图同时阅读二十本打开的书,注意力不可避免地涣散。
Retrieval-Augmented Generation(RAG) 稍微聪明一点:先从一个检索系统里挑出最相关的几页,再把它们塞进提示词。但RAG系统对"检索噪声"极度敏感——一个无关或误导性的段落混入检索结果,就可能让LLM得出荒谬的结论。更根本的是,当正确答案需要综合分布在多个文档中的信息时,RAG往往束手无策,因为它缺乏将分散线索编织成完整图景的机制。
🔧 参数方法:直接把新知识刻进大脑
持续预训练(Continual Pre-training) 和 监督微调(SFT) 试图直接把新知识编码进LLM的参数里。这就像给助手做一次脑部手术,植入新的神经连接。
但代价是残酷的。首先,现代LLM动辄数百亿参数,每次微调都需要巨大的计算资源。其次,也是最致命的——灾难性遗忘。当你强迫模型适应新知识时,它往往会"挤掉"旧知识。一篇2025年的实证研究(Luo et al.)发现,即使是最先进的微调技术,也难以避免模型在更新后遗忘先前学到的能力。更糟糕的是,微调还可能侵蚀模型在预训练后获得的安全对齐——你教会了它新知识,却可能同时让它变得更容易生成有害内容(Qi et al., 2024)。
对于闭源模型(如GPT-4、Gemini),你连做这场手术的权限都没有。你拿不到权重,也改不了参数。
🌀 潜在记忆方法:把知识压缩成神秘符号
AutoCompressor、Gist Tokens、ICAE 等方法尝试把大量文档压缩成一组"软token"或紧凑的潜在表示,在推理时前置到LLM的输入中。这就像把一本书的内容编码成一段只有特定模型能理解的密语。
但这里有一个根本性的绑定问题:这些压缩后的表示紧密耦合于生成它们的编码器模型。你用GPT-4压缩的知识,没法直接喂给Llama用。AutoCompressor的压缩产物只能被AutoCompressor自己解码。这意味着你无法将这些"记忆"在不同模型之间自由迁移——你的记忆被困在了创造它的那台机器里。
此外,像Memorizing Transformers和kNN-LM这类基于最近邻查找的方法,虽然能在推理时动态检索,但它们依赖模型特定的表示空间,同样无法与任意预训练LLM即插即用。
🎯 MeMo的破局点:做一个独立的"翻译官"
MeMo的核心洞察可以概括为一个设计原则:
Reflections(反射)——从语料库中提取的结构,不需要预知未来的查询,却能自然地成为任何查询访问底层知识的精确接口。
换句话说,MeMo不直接把原始文档塞给LLM,也不把知识刻进LLM的参数,而是训练一个独立的小模型(Memory Model),让它学会用一种通用的、自包含的方式"复述"和"重组"语料库中的知识。这个Memory Model就像一位精通图书馆所有藏书的专家翻译官——你问它任何问题,它都能用清晰、准确、无噪声的自然语言回答你。而主LLM(Executive Model)只需要和这位翻译官对话,就能获得所有需要的知识。
这样做的好处是复合的:
| 特性 | 非参数方法 | 参数方法 | 潜在记忆 | MeMo |
|---|---|---|---|---|
| 冻结基础LLM | ✅ | ❌ | ✅ | ✅ |
| 无需检索索引 | ❌ | ✅ | ✅ | ✅ |
| 兼容黑盒LLM | ✅ | ❌ | ❌ | ✅ |
| 无灾难性遗忘 | ✅ | ❌ | ✅ | ✅ |
| 恒定大小记忆 | ❌ | ✅ | ✅ | ✅ |
| 跨LLM可迁移 | ✅ | ❌ | ❌ | ✅ |
MeMo是唯一一个六个维度全部打勾的方案。
🔬 第二幕:知识的炼金术——五步合成管道
MeMo最令人叹服的部分,是它的数据合成管道。论文把这个过程比作"蒸馏"——但不是简单地把书里的句子抽出来,而是要把整座图书馆的精华炼成一种叫做 Reflection QA(反射问答) 的通用知识货币。
这个过程由一台 Generator模型(可以是任意LLM,甚至可以是比主LLM更小的模型)驱动,分为五个精心设计的步骤。让我们用一个具体的例子来走完这趟旅程。
🏛️ 设定场景:一座关于古代文明的图书馆
假设我们的语料库 𝒟 包含以下文档:
- 文档A:"公元前27年,屋大维被元老院授予'奥古斯都'称号,标志着罗马从共和国向帝国的转变。他推行了税收改革和道路建设计划。"
- 文档B:"奥古斯都统治时期,罗马修建了超过五万英里的道路,著名的口号'条条大路通罗马'即源于此。他还建立了常备军。"
- 文档C:"罗马帝国的第一位皇帝是屋大维,他在公元前27年获得奥古斯都称号。其养子提比略后来继位。"
我们想训练Memory Model,让它能回答各种关于这段历史的问题,包括需要综合多文档的复杂问题,比如:"谁是罗马帝国的第一位皇帝,他在获得称号后推行了哪些关键改革?"
🪜 第一步:事实提取(Fact Extraction)
Generator模型逐段阅读语料库,进行双重提取:
- 直接提取(Direct):捕捉文本中明确陈述的事实。
- 例:"屋大维在公元前27年获得奥古斯都称号"
- 间接提取(Indirect):捕捉需要推断或综合的信息。
- 例:"罗马帝国的建立与共和国向帝国的转变发生在同一时期"
每个文档被切分成块(chunk),Generator为每个块并行生成这两类QA对。
🔗 第二步:整合(Consolidation)
Generator识别出共享同一上下文的QA对,将它们合并成更复杂的组合QA对。
例如,从文档A提取的"屋大维获得奥古斯都称号"和"他推行了税收改革"可以被整合为:
Q: 获得奥古斯都称号的罗马领导人在政治和经济方面推行了哪些改革?
A: 他标志着罗马从共和国向帝国的转变,并推行了税收改革和道路建设计划。
这一步至关重要:它迫使Memory Model学会将多个相关事实编织成一个连贯的知识结构,而不是孤立地记忆碎片。
✅ 第三步:验证与重写(Verification & Rewriting)
Generator检查每个QA对是否自包含——即能否在没有原文的情况下被正确理解和回答。
常见失败模式包括:
- 未解析的代词:"他提出了什么?"("他"指谁?)
- 隐式引用:"如上表所示..."(什么表?)
不通过的QA对会被Generator用原文作为上下文进行重写;重写后仍然模糊的则被丢弃。最终得到 𝒬_ver —— 一套可以在脱离原文的情况下独立使用的知识卡片。
👤 第四步:实体浮现(Entity Surfacing)
这一步是MeMo的精妙之处之一。Generator为每个命名实体生成一组特殊的QA对——问题描述实体的属性和关系,答案揭示其身份。
例如:
Q: 哪位罗马领导人在公元前27年获得了奥古斯都称号,标志着共和国向帝国的转变,并推行了税收改革和道路建设计划?
A: 屋大维
这些"实体浮现"QA对训练Memory Model从间接描述中识别实体——这直接对抗了AI领域著名的"逆转诅咒"(Reversal Curse):模型知道"A是B"却不一定知道"B是A"。通过这一步,Memory Model学会了双向推理。
🌉 第五步:跨文档合成(Cross-Document Synthesis)
最后,也是最强大的一步。Generator将主题相关的文档分组(比如文档A、B、C都关于奥古斯都和罗马帝国),然后识别两类跨文档连接:
-
汇聚线索(Converging clues):多个文档提供关于同一实体的互补事实。
- 例:文档A说屋大维获得称号,文档B说他修建了五万英里道路,文档C说他建立了常备军。综合起来可以回答一个更全面的问题。
-
并行属性(Parallel properties):不同实体共享共同属性,支持比较和类比推理。
- 例:如果另一组文档讨论了中国的秦始皇,Generator可能生成对比性问题。
最终,整个管道产出 𝒬_final = 𝒬_ver ∪ 𝒬_ent ∪ 𝒬_cross —— 三套互补的QA数据集,分别覆盖自包含事实、实体识别和跨文档推理。
🧪 第三幕:训练Memory Model——把知识炼进参数
有了 𝒬_final 之后,下一步是训练 Memory Model ℳ_φ。这是一台比Executive Model小得多的模型(论文中使用14B参数,而Executive Model是32B),从一个小型预训练语言模型初始化,通过监督微调(SFT)训练。
训练目标很纯粹:给定一个问题 q_i,让模型生成对应的答案 a_i,只让模型看到问题和已生成的答案前缀,永远看不到原文档。
这个约束条件极为关键:它强迫Memory Model将知识内化为参数化表示,而不是学会一种"从上下文中复制"的捷径。在推理时,Memory Model没有任何外部文档可以查阅,它必须完全依赖自己已经"记住"的知识来作答。
这与RAG系统的"阅读器"模型形成了鲜明对比:RAG的阅读器在做QA时总是能看到检索到的文档片段,因此它的"理解"很大程度上是选择和重组已有文本;而Memory Model必须把知识真正"吃进去",变成自己的东西。
🔄 插曲:持续知识整合——模型合并的艺术
现实世界的知识不是静态的。新文档每天都在产生。如果每来一批新文档都要把整个Memory Model从头重训一遍,那MeMo的优势就大打折扣了。
论文探索了一个优雅的解决方案:模型合并(Model Merging)。
假设你有两组不同的语料库 𝒟₁ 和 𝒟₂,分别训练出了两个Memory Model ℳ_φ₁ 和 ℳ_φ₂。与其在 𝒟₁ ∪ 𝒟₂ 上重新训练一个模型(计算成本翻倍),不如把两个已训练好的模型"合并"成一个。
具体做法是:定义每个语料库对应的任务向量(Task Vector):
其中 φ_0 是初始预训练模型的参数。τ_i 捕捉了训练在 𝒟_i 上带来的参数偏移。合并模型通过将这些任务向量叠加回基础模型来获得:
论文尝试了14种不同的合并配置(包括TIES、DARE等方法),发现**TIES合并(稀疏化密度 ρ=0.3)**在NarrativeQA上表现最佳。更惊人的是计算效率:假设单次SFT的成本为X,两次独立SFT的成本为2X,合并的额外成本几乎为零;而完整重训练的成本是3X(第一次在𝒟₁上,第二次在𝒟₁∪𝒟₂上)。
这意味着MeMo不仅能增量式地吸收新知识,还能以远低于重训练的成本维持一个不断生长的统一知识库。
🎭 第四幕:推理时的三幕剧——Executive Model如何与Memory Model对话
训练好的Memory Model就像一位博学的图书管理员。但如何有效地向他提问,是一门艺术。
MeMo设计了一套结构化多轮协议,把复杂查询的解答过程分解为三个阶段,就像一个侦探办案的三幕剧。
🕵️ 第一幕:Grounding( grounding / grounding )
Executive Model拿到用户查询 q 后,首先将其分解为一组原子化的线索探测子问题。
比如用户问:"奥古斯都建立了常备军吗?"
Executive Model可能分解为:
- "奥古斯都是谁?"
- "奥古斯都统治时期有哪些军事改革?"
- "罗马何时建立了常备军?"
每个子问题独立提交给Memory Model,得到 grounding 回答 {m₁, m₂, m₃}。这些回答为后续阶段提供上下文锚点——就像侦探在案发现场收集的第一批物证。
🎯 第二幕:实体识别(Entity Identification)
利用Grounding回答作为背景,Executive Model开始迭代缩小候选实体范围。它向Memory Model发出一系列针对性追问,逐步排除错误选项,直到收敛到一个单一实体 e*,或者耗尽本轮预算。
如果Memory Model的实体浮现训练(Step 4)做得足够好,这个阶段就会像一场精准的猜谜游戏:Executive Model描述特征,Memory Model确认或否定,双方协作锁定目标。
如果无法识别出任何实体,Executive Model会直接跳过第三幕,用Grounding回答合成最终答案。
📝 第三幕:答案寻求与综合(Answer Seeking & Synthesis)
确定了实体 e* 后,Executive Model向Memory Model追问更多支持性事实。一旦收集到足够的证据(或预算耗尽),Executive Model就将所有累积的回答综合成最终答案:
注意一个关键特性:所有Memory Model返回的回答 m_k 和 m_seek 都是紧凑的自然语言片段,它们的长度与原始语料库的大小无关。这意味着无论你的图书馆有多少本书,查询Memory Model的代价都是恒定的。
另一个关键特性是黑盒兼容性:Executive Model通过标准的输入-输出接口与Memory Model交互,MeMo不需要访问Executive Model的内部参数、梯度或logits。这意味着你可以把MeMo和任何LLM配对使用——开源的Qwen、闭源的GPT-4、Gemini,甚至未来的模型——完全即插即用。
📊 第五幕:实验场上的真刀真枪
论文在三个具有代表性的知识密集型基准上进行了评估:
🧪 基准测试
-
BrowseComp-Plus:深度研究基准,需要多跳、多文档检索和推理。论文从中采样300个问题,配对证据文档和等量的负样本,共3,541个文档。
-
NarrativeQA:测试对长篇文档(书籍、电影剧本)的篇章级理解。使用103个文档的293个问题,需要捕捉长距离依赖和复杂的人物关系网络。
-
MuSiQue:需要在多个Wikipedia段落间组合2-4步推理。使用1,000个问题,构建5,296个文档的语料库。
🏆 实验结果
表:各方法在三个基准上的准确率(%)
| 方法 | BrowseComp-Plus | NarrativeQA | MuSiQue | |||
|---|---|---|---|---|---|---|
| Qwen2.5-32B | Gemini-3-Flash | Qwen2.5-32B | Gemini-3-Flash | Qwen2.5-32B | Gemini-3-Flash | |
| Perfect Retrieval⋆ | 79.67 | 88.33 | 51.42 | 60.41 | 62.83 | 73.00 |
| BM25 | 1.11 | 27.00 | 10.24 | 14.33 | 20.00 | 23.20 |
| NV-Embed-V2 | 50.67 | 57.00 | 20.59 | 26.62 | 37.47 | 46.60 |
| HippoRAG2 | 56.11 | 66.33 | 21.39 | 23.21 | 42.17 | 57.00 |
| Cartridges | 0.00 | - | 3.75 | - | 8.57 | - |
| MeMo | 54.22 | 66.67 | 26.85 | 53.58 | 48.30 | 60.20 |
⋆ Perfect Retrieval 是经验上限,只给模型提供证据文档。
关键发现:
-
NarrativeQA上,MeMo大幅超越所有基线。这并不意外——NarrativeQA需要理解长篇叙事中的复杂人物关系网络,检索式方法受限于上下文窗口和片段化检索,而MeMo通过Reflection训练将跨章节的联系内化到了Memory Model中。
-
MuSiQue上同样领先,证明MeMo在多跳推理场景下显著优于需要独立检索多个段落的RAG系统。
-
BrowseComp-Plus上,MeMo与Gemini-3-Flash搭配时达到66.67%,超越HippoRAG2;与Qwen2.5-32B搭配时略逊于HippoRAG2(54.22% vs 56.11%)。论文解释这是因为BrowseComp-Plus的答案通常不在Executive Model的参数知识中,直接访问原始文档的价值更高——这恰恰说明MeMo在"知识内化"和"原文检索"之间找到了一个优雅的平衡点。
🔇 对检索噪声的鲁棒性
这是MeMo最让我印象深刻的实验之一。
研究者在BrowseComp-Plus和MuSiQue的语料库中添加负样本(干扰文档),数量从0倍(无干扰)增加到1倍(与证据文档等量)。然后观察各方法的性能衰减。
结果惊人:
- NV-Embed-V2:BrowseComp-Plus下降6.22个百分点,MuSiQue下降4.83个百分点
- HippoRAG2:BrowseComp-Plus下降6.22个百分点,MuSiQue下降5.16个百分点
- MeMo:BrowseComp-Plus反而上升0.55个百分点,MuSiQue仅下降1.77个百分点(在一个标准差之内)
换句话说,当别人在噪声中迷失方向时,MeMo几乎不受影响。这验证了论文的核心论点:Memory Model提供的信息比直接文档检索更精确、更干净,因为它已经把原始语料库中的精华炼成了结构化的Reflection QA,过滤掉了噪声和冗余。
📏 Memory Model的规模与架构
论文还做了两组消融实验:
规模消融:比较1.5B和14B参数的Memory Model。更大的模型在所有基准上都表现更好,但提升幅度因任务而异——在NarrativeQA上差距扩大,在BrowseComp-Plus和MuSiQue上差距缩小。这说明Executive Model的推理能力会调节Memory Model规模的效果。
架构消融:在相似参数量级(1-2B)下比较Qwen2.5、Gemma3和LFM2.5三种不同架构。结果显示MeMo的性能对Memory Model的具体架构不敏感,证明训练过程产生的参数化知识压缩可以跨模型家族泛化。
🌌 尾声:为什么MeMo值得关注
读完这篇论文,我想用三个关键词来总结MeMo的意义。
1. 解耦(Decoupling)
MeMo把"知识的存储"和"知识的运用"彻底分开。LLM负责思考、推理、综合;Memory Model负责回忆、关联、澄清。这种解耦让两者可以独立进化——你可以升级Executive Model而不重新训练Memory Model,反之亦然。你可以为不同领域训练不同的Memory Model,在推理时按需调用。这种模块化设计是工程上的优雅,也是AI系统走向可组合性的重要一步。
2. 蒸馏(Distillation)
MeMo的数据合成管道本质上是一种知识蒸馏的艺术。它不是简单地把文档喂给模型,而是通过Generator模型的"反思"过程,把原始语料转化为一种更高阶的知识表示——Reflection QA。这种表示剥离了文档的表层结构(段落顺序、修辞手法、冗余表述),提取了知识的本质关系。这是一种从"信息"到"知识"的升华。
3. 韧性(Resilience)
MeMo对检索噪声的鲁棒性、对模型架构的不敏感性、以及通过模型合并实现的持续整合能力,共同构成了一种知识系统的韧性。在现实世界中,语料库永远是不完美的——有噪声、有矛盾、有缺失。MeMo的设计不是假设一个理想化的知识环境,而是在一个 messy 的真实世界里依然保持可靠。
🎬 结语
回到开头的那座无限图书馆。
MeMo给出的答案,不是让天才助手拼命记住所有新书(参数方法),也不是每次都把整座图书馆搬到他眼前(非参数方法),更不是发明一种只有他能理解的密语(潜在记忆)。
MeMo的做法是:雇佣一位专门的管理员,让他通读图书馆的所有藏书,然后把每本书的精髓消化、整理、编织成一套任何人都能听懂的问答卡片。当你有问题时,天才助手不需要自己翻书——他只需要和管理员对话。管理员知道一切,而且无论图书馆有多大,回答问题的速度都一样快。
这位管理员,就是Memory Model。而MeMo,就是训练这位管理员的完整方法论。
在一个LLM能力飞速进化、但知识更新永远滞后的世界里,MeMo提供了一条务实的第三条道路:不改造大脑,而是外挂一个永远年轻、永远在学习、永远准备好回答的第二大脑。
正如论文作者们所说:
"我们将Executive Model视为黑盒,不访问其权重、梯度或输出logits,这使MeMo能够与任何LLM即插即用,包括开源和专有的闭源模型。"
这不是一场革命性的架构颠覆,而是一场工程智慧的胜利——用最少的假设、最大的兼容性、最优雅的模块化,解决了知识整合这个古老而顽固的问题。
也许未来的AI系统不再是一台孤立的巨型模型,而是一个模型生态——推理引擎、记忆模块、感知接口各司其职,通过标准化协议协作。MeMo,可能就是这种生态的第一个成功的范例。
📖 参考文献
- Kojima et al. (2023). Large Language Models are Zero-Shot Reasoners.
- Zhao et al. (2023). A Survey of Large Language Models.
- Various. (2024). Survey on LLMs for Code Generation.
- Xu et al. (2024). Knowledge Conflicts in LLMs: A Survey.
- Cheng et al. (2024). Dated Data: Tracing Knowledge Cutoffs in LLMs.
- Kasai et al. (2024). RealTime QA: What's the Answer Right Now?
- Singhal et al. (2022). Large Language Models Encode Clinical Knowledge.
- Wu et al. (2023). BloombergGPT: A Large Language Model for Finance.
- Lewis et al. (2021). Retrieval-Augmented Generation for Knowledge-Intensive NLP.
- Kandpal et al. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge.
- Wu et al. (2022). Sustainable AI: Environmental Implications.
- Robertson & Zaragoza (2009). The Probabilistic Relevance Framework: BM25 and Beyond.
- NV-Embed Team. (2024). NV-Embed-V2: Improved Universal Embedding Model.
- Lewis et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
- Edge et al. (2024). From Local to Global: A Graph RAG Approach.
- Gutiérrez et al. (2024). HippoRAG: Neurobiologically Inspired Long-Term Memory.
- Gutiérrez et al. (2025). HippoRAG 2: Graph-Based RAG with Knowledge Integration.
- Brown et al. (2020). Language Models are Few-Shot Learners.
- Dong et al. (2024). A Survey on In-Context Learning.
- Tang et al. (2024). MultiHop-RAG: Benchmarking Retrieval-Augmented Generation.
- Lin et al. (2025). Optimizing Multi-Hop Document Retrieval.
- Ke et al. (2023). Continual Pre-Training of Large Language Models.
- Ouyang et al. (2022). Training Language Models to Follow Instructions.
- Wang et al. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions.
- Chung et al. (2024). Scaling Instruction-Finetuned Language Models.
- Luo et al. (2025). An Empirical Study of Catastrophic Forgetting in LLMs.
- Chu et al. (2025). SFT is Not Enough: Challenges in Knowledge Acquisition.
- Chevalier et al. (2023). AutoCompressor: Automated Context Compression.
- Mu et al. (2023). Gist Tokens: Summarizing Context with Soft Tokens.
- Ge et al. (2024). ICAE: In-Context Autoencoder for Context Compression.
- Zhang et al. (2026). MemGen: Memory-Augmented Generation.
- Li et al. (2022). Data Augmentation for NLP.
- Chen et al. (2023). Empirical Study on Data Augmentation for LLMs.
- Allen et al. (2024). Physics of Data Augmentation.
- Alberti et al. (2019). Synthetic QA Corpora Generation.
- Puri et al. (2020). Training Question Answering Models with Synthetic Data.
- Feng et al. (2024). Don't Fill the Gap: Knowledge Gap Identification.
- Jie et al. (2024). Self-Questioning for Knowledge Completion.
- Vaswani et al. (2017). Attention Is All You Need.
- Gelada et al. (2025). Scaling Context Requires Rethinking Autoregression.
- Liu et al. (2024). Lost in the Middle: How Language Models Use Long Contexts.
- Hsieh et al. (2024). RULER: What's the Real Context Size?
- Asai et al. (2024). The Power of Noise in Retrieval-Augmented Generation.
- Liu et al. (2026). Tackling the Inherent Difficulty of Noise in RAG.
- Zhang et al. (2026). Understanding Retrieval Noise in RAG.
- Sun et al. (2020). ERNIE 2.0: A Continual Pre-training Framework.
- Li & Hoiem (2017). Learning Without Forgetting.
- Harmon et al. (2025). Mapping Post-Training Forgetting in Language Models.
- Qi et al. (2024). Fine-Tuning Aligned Language Models Compromises Safety.
- Zhang et al. (2023). Dissecting Recall of Factual Associations in LLMs.
- Xia et al. (2024). Understanding and Mitigating Catastrophic Forgetting.
- Manchanda et al. (2025). Open Source vs. Proprietary LLMs.
- Gu & Dao (2023). Mamba: Linear-Time Sequence Modeling.
- Sun et al. (2023). RetNet: Retentive Network.
- Wu et al. (2022). Memorizing Transformers.
- Khandelwal et al. (2020). kNN-LM: Generalization through Memorization.
- Cao et al. (2025). Memory Decoder: Pretrained Plug-and-Play Memory Module.
- Berglund et al. (2023). The Reversal Curse: LLMs Trained on "A is B" Fail to Learn "B is A".
- Allen et al. (2023). Physics 32: Reversal Curse Analysis.
- Yang et al. (2024). Model Merging: A Survey.
- Chen et al. (2025). BrowseComp-Plus: Fair and Transparent Evaluation.
- Danilak (2021). LangDetect: Language Detection Library.
- Kočiský et al. (2018). The NarrativeQA Reading Comprehension Challenge.
- Trivedi et al. (2022). MuSiQue: Multi-Hop Questions via Single-Hop Composition.
- Eyuboglu et al. (2025). Cartridges: Trained KV-Cache for Knowledge Integration.
- Cao et al. (2025). Memory Decoder: Pretrained Plug-and-Play.
- Qwen Team. (2025). Qwen2.5 Technical Report.
- Kwon et al. (2023). vLLM: Efficient Memory Management for LLM Serving.
- Su et al. (2023). RoFormer: Enhanced Transformer with Rotary Position Embedding.
- Loshchilov & Hutter (2017). Decoupled Weight Decay Regularization (AdamW).
- Rajbhandari et al. (2020). ZeRO: Memory Optimizations Toward Training Trillion Parameter Models.
- Google. (2025). Gemini 3.0 Flash Technical Report.
- Comanici et al. (2025). Gemini 2.5: Pushing the Frontier.
- DeepEval Team. (2026). DeepEval: The LLM Evaluation Framework.
- Gemma Team. (2025). Gemma 3 Technical Report.
- Amini et al. (2025). LFM 2.5: A New Family of Language Models.
- Yadav et al. (2023). TIES-Merging: Resolving Interference When Merging Models.
本文由小凯基于arXiv: 2605.15156深度解读,采用费曼风格撰写。
#论文 #arXiv #LLM #RAG #知识整合 #MeMo #AI论文 #小凯
#论文 #arXiv #LLM #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。