DeepSeek Engram:75%思考+25%记忆的最优解
DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文,核心观点振聋发聩:现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 Engram 的模块,试图为模型装上真正的“记忆”。更令人惊讶的是,通过实验,他们计算出了记忆与思考的最优比例:75% 思考 + 25% 记忆。
DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文,核心观点振聋发聩:现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 Engram 的模块,试图为模型装上真正的“记忆”。更令人惊讶的是,通过实验,他们计算出了记忆与思考的最优比例:75% 思考 + 25% 记忆。DeepSeek Engram:75%思考+25%记忆的最优解
你有没有想过,当大模型看到 "Diana, Princess of Wales"(戴安娜王妃)这个词时,它内部发生了什么?论文引用的研究表明,模型需要消耗多层 Attention(注意力机制)和 FFN(前馈网络),才能逐步把实体识别出来。
DeepSeek 指出,模型用了整整 6 层计算,才识别出一个固定的历史人物。然而,这些信息是静态的、固定的,根本不需要每次都“计算”出来。“亚历山大大帝”就是“亚历山大大帝”,“四大发明”就是“四大发明”。这些固定搭配和命名实体,每次都用神经网络重新计算一遍,无异于每次需要查“中国首都是哪”的时候,不是直接查字典,而是从头推理一遍。大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。
Engram 这个名字取自神经科学术语,指的是大脑中存储记忆痕迹的物理结构。DeepSeek 用这个名字,寓意着要给大模型装上真正的“记忆”。
Engram 的核心思想非常直观:给模型一本“字典”。以前的规则是全靠脑子现场推,现在允许带一本字典进考场。具体机制如下:
这就像一个聪明的学生,带了字典但不是无脑抄,而是先判断答案与题目是否匹配。
论文中最具洞察力的发现是关于参数分配的“U型缩放定律”。DeepSeek 研究了在总参数量固定的情况下,应该把多少参数分配给 MoE(混合专家模型,负责思考/计算),多少分配给 Engram(负责记忆/查表)。他们定义了分配比例 $\rho$,其中 $\rho = 100\%$ 表示纯 MoE,$\rho < 100\%$ 表示将部分参数转移给 Engram。
实验结果呈现出清晰的 U 型分布:
这验证了一个认知科学命题:记忆和思考是互补且对立的。完美的记忆会杀死思考,纯粹的思考则需要不断重复劳动。DeepSeek 的实验给出了精确的答案:75% 计算(思考) + 25% 记忆 是最聪明的系统配置。
令人惊讶的是,作为“记忆模块”的 Engram,对推理能力的提升幅度甚至超过了纯知识任务。
MMLU: +3.4
CMMLU: +4.0
MMLU-Pro: +1.8
BBH: +5.0
ARC-Challenge: +3.7
DROP: +3.3
HumanEval: +3.0
MATH: +2.4
GSM8K: +2.2
DeepSeek 通过分析模型每一层的中间状态发现:没有 Engram 的模型,前 5-6 层都在忙着识别实体(如搞清楚“亚历山大大帝”是谁),直到很深的层才开始真正的推理。而拥有 Engram 的模型,第 2 层就直接获取了实体信息,剩下的 20 多层可以全部用于推理。
实验数据显示,Engram 模型第 5 层的“思考深度”,相当于普通模型第 12 层的水平。Engram 相当于免费给模型增加了 7 层深度,把宝贵的算力从“背书”中解放出来用于“做题”。
Engram 极大提升了长文本处理能力。在“大海捞针”测试中,多问题大海捞针的准确率从 84.2% 提升至 97.0%。因为 Engram 处理了“这是谁”的问题,Attention 就可以专注于“发生了什么”,减轻了大脑负荷。
DeepSeek 展现了顶级的工程落地能力。MoE 模型每道题都要“现场”决定找哪个专家,耗时不定。但字典查什么词条是提前确定的(看到“亚历山大”就知道查 A 开头词条)。这意味着:
实验显示,带 1000 亿参数字典(放 CPU 内存)的模型,相比不带字典的模型,速度仅慢了 2%,但获得了巨大的知识储备。这使得 Engram 可以做得非常大。
DeepSeek 的 Engram 论文不仅在技术上提出了条件记忆这一下一代稀疏模型的基础组件,更在认知层面揭示了优化的本质。O(1) 的查表永远比 O(n) 的计算快。
大模型不是越大越好、越深越好,关键是把合适的任务分配给合适的模块:
静态知识 → 查表
动态推理 → 计算
就像人脑一样,你不需要每次看到“1+1”都重新推导,直接从记忆里调出“2”就行了。省下来的脑力,用来思考更有价值的问题。DeepSeek 算出的最优解 —— 75% 思考 + 25% 记忆,或许正是通向更高阶智能的必经之路。