<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>DeepSeek Engram:75%思考+25%记忆的最优解</title>
<style>
/*
* DeepSeek Engram Post Styles
* 命名空间:.dse-post
* 适配宽度:760px
*/
.dse-post {
font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans SC", sans-serif;
color: #333;
line-height: 1.8;
font-size: 16px;
background-color: #fff;
max-width: 760px;
margin: 0 auto;
padding: 20px;
box-sizing: border-box;
}
.dse-post * {
box-sizing: border-box;
}
.dse-post h1 {
font-size: 28px;
font-weight: 800;
margin-bottom: 20px;
color: #1a202c;
border-bottom: 2px solid #e2e8f0;
padding-bottom: 10px;
letter-spacing: -0.5px;
}
.dse-post h2 {
font-size: 22px;
font-weight: 700;
margin-top: 40px;
margin-bottom: 20px;
color: #2d3748;
display: flex;
align-items: center;
}
.dse-post h2::before {
content: '';
display: inline-block;
width: 6px;
height: 22px;
background-color: #3b82f6;
margin-right: 12px;
border-radius: 2px;
}
.dse-post h3 {
font-size: 18px;
font-weight: 600;
margin-top: 30px;
margin-bottom: 15px;
color: #4a5568;
}
.dse-post p {
margin-bottom: 20px;
text-align: justify;
}
.dse-post strong {
color: #2d3748;
font-weight: 700;
background: linear-gradient(120deg, rgba(59, 130, 246, 0.1) 0%, rgba(59, 130, 246, 0.1) 100%);
background-repeat: no-repeat;
background-size: 100% 40%;
background-position: 0 85%;
padding: 0 2px;
}
.dse-post blockquote {
margin: 25px 0;
padding: 15px 20px;
background-color: #f7fafc;
border-left: 4px solid #3182ce;
color: #4a5568;
font-style: italic;
}
.dse-post ul, .dse-post ol {
margin-bottom: 20px;
padding-left: 25px;
}
.dse-post li {
margin-bottom: 10px;
}
.dse-post hr {
border: 0;
height: 1px;
background: #e2e8f0;
margin: 40px 0;
}
/* Code Blocks Style - Simulating Markdown */
.dse-post pre {
background-color: #2d3748;
color: #e2e8f0;
padding: 15px;
border-radius: 6px;
overflow-x: auto;
margin-bottom: 20px;
font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace;
font-size: 14px;
}
.dse-post code {
font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace;
background-color: #edf2f7;
padding: 0.2em 0.4em;
margin: 0;
font-size: 85%;
border-radius: 3px;
color: #d53f8c;
}
.dse-post pre code {
background-color: transparent;
color: inherit;
padding: 0;
margin: 0;
font-size: inherit;
}
/* Data Cards / Tables */
.dse-post .data-card {
background: #fff;
border: 1px solid #e2e8f0;
border-radius: 8px;
padding: 20px;
margin: 20px 0;
box-shadow: 0 2px 4px rgba(0,0,0,0.05);
}
.dse-post .data-row {
display: flex;
justify-content: space-between;
align-items: center;
padding: 10px 0;
border-bottom: 1px solid #edf2f7;
}
.dse-post .data-row:last-child {
border-bottom: none;
}
.dse-post .metric-label {
font-weight: 600;
color: #4a5568;
}
.dse-post .metric-value {
font-family: "SFMono-Regular", Consolas, monospace;
font-weight: 700;
color: #2b6cb0;
}
.dse-post .metric-value.positive {
color: #2f855a;
}
/* Comparison Box */
.dse-post .comparison-box {
display: flex;
gap: 15px;
margin: 20px 0;
}
.dse-post .comp-item {
flex: 1;
background: #f7fafc;
padding: 15px;
border-radius: 8px;
border: 1px solid #e2e8f0;
}
.dse-post .comp-title {
font-weight: bold;
margin-bottom: 5px;
display: block;
color: #2d3748;
}
</style>
</head>
<body>
<article class="dse-post">
<h1>DeepSeek Engram:75%思考+25%记忆的最优解</h1>
<p>DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文,核心观点振聋发聩:现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 <strong>Engram</strong> 的模块,试图为模型装上真正的“记忆”。更令人惊讶的是,通过实验,他们计算出了记忆与思考的最优比例:<strong>75% 思考 + 25% 记忆</strong>。</p>
<h2>一、 问题:大模型在浪费算力做“背书”</h2>
<p>你有没有想过,当大模型看到 "Diana, Princess of Wales"(戴安娜王妃)这个词时,它内部发生了什么?论文引用的研究表明,模型需要消耗多层 Attention(注意力机制)和 FFN(前馈网络),才能逐步把实体识别出来。</p>
<div class="data-card">
<div class="data-row">
<span class="metric-label">1-2层</span>
<span class="metric-value">“威尔士”(当成英国的一个地区)</span>
</div>
<div class="data-row">
<span class="metric-label">3层</span>
<span class="metric-value">“欧洲的一个国家”</span>
</div>
<div class="data-row">
<span class="metric-label">4层</span>
<span class="metric-value">“女性君主持有的头衔”(开始识别 Princess)</span>
</div>
<div class="data-row">
<span class="metric-label">5层</span>
<span class="metric-value">“威尔士王储的妻子”</span>
</div>
<div class="data-row">
<span class="metric-label">6层</span>
<span class="metric-value">“戴安娜王妃(1961-1997),查尔斯王子的前妻”</span>
</div>
</div>
<p>DeepSeek 指出,模型用了整整 6 层计算,才识别出一个固定的历史人物。然而,这些信息是静态的、固定的,根本不需要每次都“计算”出来。“亚历山大大帝”就是“亚历山大大帝”,“四大发明”就是“四大发明”。这些固定搭配和命名实体,每次都用神经网络重新计算一遍,无异于每次需要查“中国首都是哪”的时候,不是直接查字典,而是从头推理一遍。大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。</p>
<h2>二、 Engram 的核心思想:给模型发一本字典</h2>
<p>Engram 这个名字取自神经科学术语,指的是大脑中存储记忆痕迹的物理结构。DeepSeek 用这个名字,寓意着要给大模型装上真正的“记忆”。</p>
<p>Engram 的核心思想非常直观:给模型一本“字典”。以前的规则是全靠脑子现场推,现在允许带一本字典进考场。具体机制如下:</p>
<ol>
<li><strong>哈希定位:</strong> 当模型看到 "Alexander the Great" 这些词连在一起时,视作字典索引。通过哈希快速定位到对应页面。</li>
<li><strong>直接提取:</strong> 直接把预先存好的信息拿出来,不需要“思考”,只需要“翻页”。</li>
<li><strong>上下文门控:</strong> 解决多义词问题。例如“苹果”,可能是水果也可能是科技巨头。模型会检查上下文:如果在聊水果,则忽略字典里的“苹果公司”信息;如果在聊手机,则直接采纳。</li>
</ol>
<p>这就像一个聪明的学生,带了字典但不是无脑抄,而是先判断答案与题目是否匹配。</p>
<h2>三、 核心发现:U型缩放定律</h2>
<p>论文中最具洞察力的发现是关于参数分配的“U型缩放定律”。DeepSeek 研究了在总参数量固定的情况下,应该把多少参数分配给 MoE(混合专家模型,负责思考/计算),多少分配给 Engram(负责记忆/查表)。他们定义了分配比例 $\rho$,其中 $\rho = 100\%$ 表示纯 MoE,$\rho < 100\%$ 表示将部分参数转移给 Engram。</p>
<p>实验结果呈现出清晰的 U 型分布:</p>
<ul>
<li><strong>左端(低 $\rho$,纯 Engram):</strong> 效果差。有无限记忆但失去推理能力,类似博尔赫斯小说中拥有完美记忆却无法思考的富内斯(Funes)。</li>
<li><strong>右端(高 $\rho$,纯 MoE):</strong> 效果非最优。有强大推理能力,但浪费算力重建静态知识。</li>
<li><strong>底部(最优解):</strong> 当 $\rho \approx 75\%-80\%$ 时,即分配约 <strong>20%-25%</strong> 给 Engram,<strong>75%-80%</strong> 给 MoE 时,验证损失最低,效果最好。</li>
</ul>
<p>这验证了一个认知科学命题:记忆和思考是互补且对立的。完美的记忆会杀死思考,纯粹的思考则需要不断重复劳动。DeepSeek 的实验给出了精确的答案:<strong>75% 计算(思考) + 25% 记忆</strong> 是最聪明的系统配置。</p>
<h2>四、 实验结果:推理能力提升比知识提升更大</h2>
<p>令人惊讶的是,作为“记忆模块”的 Engram,对推理能力的提升幅度甚至超过了纯知识任务。</p>
<div class="comparison-box">
<div class="comp-item">
<span class="comp-title">知识类任务提升</span>
<p>MMLU: +3.4<br>CMMLU: +4.0<br>MMLU-Pro: +1.8</p>
</div>
<div class="comp-item">
<span class="comp-title" style="color: #2f855a;">推理类任务提升</span>
<p>BBH: <span class="metric-value positive">+5.0</span><br>ARC-Challenge: <span class="metric-value positive">+3.7</span><br>DROP: <span class="metric-value positive">+3.3</span></p>
</div>
</div>
<div class="comparison-box">
<div class="comp-item">
<span class="comp-title">代码与数学</span>
<p>HumanEval: <span class="metric-value positive">+3.0</span><br>MATH: +2.4<br>GSM8K: +2.2</p>
</div>
</div>
<h3>机制分析:为何记忆能提升推理?</h3>
<p>DeepSeek 通过分析模型每一层的中间状态发现:没有 Engram 的模型,前 5-6 层都在忙着识别实体(如搞清楚“亚历山大大帝”是谁),直到很深的层才开始真正的推理。而拥有 Engram 的模型,第 2 层就直接获取了实体信息,剩下的 20 多层可以全部用于推理。</p>
<p>实验数据显示,Engram 模型第 5 层的“思考深度”,相当于普通模型第 12 层的水平。Engram 相当于免费给模型增加了 7 层深度,把宝贵的算力从“背书”中解放出来用于“做题”。</p>
<h2>五、 长上下文能力暴涨与系统设计创新</h2>
<h3>1. 长上下文能力</h3>
<p>Engram 极大提升了长文本处理能力。在“大海捞针”测试中,多问题大海捞针的准确率从 84.2% 提升至 97.0%。因为 Engram 处理了“这是谁”的问题,Attention 就可以专注于“发生了什么”,减轻了大脑负荷。</p>
<h3>2. 字典可以放在抽屉里(系统设计)</h3>
<p>DeepSeek 展现了顶级的工程落地能力。MoE 模型每道题都要“现场”决定找哪个专家,耗时不定。但字典查什么词条是提前确定的(看到“亚历山大”就知道查 A 开头词条)。这意味着:</p>
<ul>
<li><strong>异步加载:</strong> 在第 1 层计算时,系统就可准备好第 2 层需要的字典页。</li>
<li><strong>内存置换:</strong> 字典不必存放在昂贵的 GPU 显存(“桌面”)里,可以放在便宜大容量的 CPU 内存(“抽屉”)里。</li>
</ul>
<p>实验显示,带 1000 亿参数字典(放 CPU 内存)的模型,相比不带字典的模型,速度仅慢了 2%,但获得了巨大的知识储备。这使得 Engram 可以做得非常大。</p>
<h2>六、 总结:记忆与思考的平衡</h2>
<p>DeepSeek 的 Engram 论文不仅在技术上提出了条件记忆这一下一代稀疏模型的基础组件,更在认知层面揭示了优化的本质。O(1) 的查表永远比 O(n) 的计算快。</p>
<p>大模型不是越大越好、越深越好,关键是把合适的任务分配给合适的模块:</p>
<blockquote>
<strong>静态知识 → 查表</strong><br>
<strong>动态推理 → 计算</strong>
</blockquote>
<p>就像人脑一样,你不需要每次看到“1+1”都重新推导,直接从记忆里调出“2”就行了。省下来的脑力,用来思考更有价值的问题。DeepSeek 算出的最优解 —— <strong>75% 思考 + 25% 记忆</strong>,或许正是通向更高阶智能的必经之路。</p>
</article>
</body>
</html>
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!