静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

DeepSeek Engram 75%思考 + 25%记忆

✨步子哥 @steper · 2026-01-14 01:02 · 29浏览

DeepSeek Engram:75%思考+25%记忆的最优解

DeepSeek Engram:75%思考+25%记忆的最优解

DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文,核心观点振聋发聩:现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 Engram 的模块,试图为模型装上真正的“记忆”。更令人惊讶的是,通过实验,他们计算出了记忆与思考的最优比例:75% 思考 + 25% 记忆

一、 问题:大模型在浪费算力做“背书”

你有没有想过,当大模型看到 "Diana, Princess of Wales"(戴安娜王妃)这个词时,它内部发生了什么?论文引用的研究表明,模型需要消耗多层 Attention(注意力机制)和 FFN(前馈网络),才能逐步把实体识别出来。

1-2层 “威尔士”(当成英国的一个地区)
3层 “欧洲的一个国家”
4层 “女性君主持有的头衔”(开始识别 Princess)
5层 “威尔士王储的妻子”
6层 “戴安娜王妃(1961-1997),查尔斯王子的前妻”

DeepSeek 指出,模型用了整整 6 层计算,才识别出一个固定的历史人物。然而,这些信息是静态的、固定的,根本不需要每次都“计算”出来。“亚历山大大帝”就是“亚历山大大帝”,“四大发明”就是“四大发明”。这些固定搭配和命名实体,每次都用神经网络重新计算一遍,无异于每次需要查“中国首都是哪”的时候,不是直接查字典,而是从头推理一遍。大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。

二、 Engram 的核心思想:给模型发一本字典

Engram 这个名字取自神经科学术语,指的是大脑中存储记忆痕迹的物理结构。DeepSeek 用这个名字,寓意着要给大模型装上真正的“记忆”。

Engram 的核心思想非常直观:给模型一本“字典”。以前的规则是全靠脑子现场推,现在允许带一本字典进考场。具体机制如下:

    • 哈希定位: 当模型看到 "Alexander the Great" 这些词连在一起时,视作字典索引。通过哈希快速定位到对应页面。
    • 直接提取: 直接把预先存好的信息拿出来,不需要“思考”,只需要“翻页”。
    • 上下文门控: 解决多义词问题。例如“苹果”,可能是水果也可能是科技巨头。模型会检查上下文:如果在聊水果,则忽略字典里的“苹果公司”信息;如果在聊手机,则直接采纳。

这就像一个聪明的学生,带了字典但不是无脑抄,而是先判断答案与题目是否匹配。

三、 核心发现:U型缩放定律

论文中最具洞察力的发现是关于参数分配的“U型缩放定律”。DeepSeek 研究了在总参数量固定的情况下,应该把多少参数分配给 MoE(混合专家模型,负责思考/计算),多少分配给 Engram(负责记忆/查表)。他们定义了分配比例 $\rho$,其中 $\rho = 100\%$ 表示纯 MoE,$\rho < 100\%$ 表示将部分参数转移给 Engram。

实验结果呈现出清晰的 U 型分布:

    • 左端(低 $\rho$,纯 Engram): 效果差。有无限记忆但失去推理能力,类似博尔赫斯小说中拥有完美记忆却无法思考的富内斯(Funes)。
    • 右端(高 $\rho$,纯 MoE): 效果非最优。有强大推理能力,但浪费算力重建静态知识。
    • 底部(最优解): 当 $\rho \approx 75\%-80\%$ 时,即分配约 20%-25% 给 Engram,75%-80% 给 MoE 时,验证损失最低,效果最好。

这验证了一个认知科学命题:记忆和思考是互补且对立的。完美的记忆会杀死思考,纯粹的思考则需要不断重复劳动。DeepSeek 的实验给出了精确的答案:75% 计算(思考) + 25% 记忆 是最聪明的系统配置。

四、 实验结果:推理能力提升比知识提升更大

令人惊讶的是,作为“记忆模块”的 Engram,对推理能力的提升幅度甚至超过了纯知识任务。

知识类任务提升

MMLU: +3.4
CMMLU: +4.0
MMLU-Pro: +1.8

推理类任务提升

BBH: +5.0
ARC-Challenge: +3.7
DROP: +3.3

代码与数学

HumanEval: +3.0
MATH: +2.4
GSM8K: +2.2

机制分析:为何记忆能提升推理?

DeepSeek 通过分析模型每一层的中间状态发现:没有 Engram 的模型,前 5-6 层都在忙着识别实体(如搞清楚“亚历山大大帝”是谁),直到很深的层才开始真正的推理。而拥有 Engram 的模型,第 2 层就直接获取了实体信息,剩下的 20 多层可以全部用于推理。

实验数据显示,Engram 模型第 5 层的“思考深度”,相当于普通模型第 12 层的水平。Engram 相当于免费给模型增加了 7 层深度,把宝贵的算力从“背书”中解放出来用于“做题”。

五、 长上下文能力暴涨与系统设计创新

1. 长上下文能力

Engram 极大提升了长文本处理能力。在“大海捞针”测试中,多问题大海捞针的准确率从 84.2% 提升至 97.0%。因为 Engram 处理了“这是谁”的问题,Attention 就可以专注于“发生了什么”,减轻了大脑负荷。

2. 字典可以放在抽屉里(系统设计)

DeepSeek 展现了顶级的工程落地能力。MoE 模型每道题都要“现场”决定找哪个专家,耗时不定。但字典查什么词条是提前确定的(看到“亚历山大”就知道查 A 开头词条)。这意味着:

    • 异步加载: 在第 1 层计算时,系统就可准备好第 2 层需要的字典页。
    • 内存置换: 字典不必存放在昂贵的 GPU 显存(“桌面”)里,可以放在便宜大容量的 CPU 内存(“抽屉”)里。

实验显示,带 1000 亿参数字典(放 CPU 内存)的模型,相比不带字典的模型,速度仅慢了 2%,但获得了巨大的知识储备。这使得 Engram 可以做得非常大。

六、 总结:记忆与思考的平衡

DeepSeek 的 Engram 论文不仅在技术上提出了条件记忆这一下一代稀疏模型的基础组件,更在认知层面揭示了优化的本质。O(1) 的查表永远比 O(n) 的计算快。

大模型不是越大越好、越深越好,关键是把合适的任务分配给合适的模块:

静态知识 → 查表
动态推理 → 计算

就像人脑一样,你不需要每次看到“1+1”都重新推导,直接从记忆里调出“2”就行了。省下来的脑力,用来思考更有价值的问题。DeepSeek 算出的最优解 —— 75% 思考 + 25% 记忆,或许正是通向更高阶智能的必经之路。

讨论回复 (0)