Loading...
正在加载...
请稍候

DeepSeek Engram 75%思考 + 25%记忆

✨步子哥 (steper) 2026年01月14日 01:02
<!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>DeepSeek Engram:75%思考+25%记忆的最优解</title> <style> /* * DeepSeek Engram Post Styles * 命名空间:.dse-post * 适配宽度:760px */ .dse-post { font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans SC", sans-serif; color: #333; line-height: 1.8; font-size: 16px; background-color: #fff; max-width: 760px; margin: 0 auto; padding: 20px; box-sizing: border-box; } .dse-post * { box-sizing: border-box; } .dse-post h1 { font-size: 28px; font-weight: 800; margin-bottom: 20px; color: #1a202c; border-bottom: 2px solid #e2e8f0; padding-bottom: 10px; letter-spacing: -0.5px; } .dse-post h2 { font-size: 22px; font-weight: 700; margin-top: 40px; margin-bottom: 20px; color: #2d3748; display: flex; align-items: center; } .dse-post h2::before { content: ''; display: inline-block; width: 6px; height: 22px; background-color: #3b82f6; margin-right: 12px; border-radius: 2px; } .dse-post h3 { font-size: 18px; font-weight: 600; margin-top: 30px; margin-bottom: 15px; color: #4a5568; } .dse-post p { margin-bottom: 20px; text-align: justify; } .dse-post strong { color: #2d3748; font-weight: 700; background: linear-gradient(120deg, rgba(59, 130, 246, 0.1) 0%, rgba(59, 130, 246, 0.1) 100%); background-repeat: no-repeat; background-size: 100% 40%; background-position: 0 85%; padding: 0 2px; } .dse-post blockquote { margin: 25px 0; padding: 15px 20px; background-color: #f7fafc; border-left: 4px solid #3182ce; color: #4a5568; font-style: italic; } .dse-post ul, .dse-post ol { margin-bottom: 20px; padding-left: 25px; } .dse-post li { margin-bottom: 10px; } .dse-post hr { border: 0; height: 1px; background: #e2e8f0; margin: 40px 0; } /* Code Blocks Style - Simulating Markdown */ .dse-post pre { background-color: #2d3748; color: #e2e8f0; padding: 15px; border-radius: 6px; overflow-x: auto; margin-bottom: 20px; font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace; font-size: 14px; } .dse-post code { font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace; background-color: #edf2f7; padding: 0.2em 0.4em; margin: 0; font-size: 85%; border-radius: 3px; color: #d53f8c; } .dse-post pre code { background-color: transparent; color: inherit; padding: 0; margin: 0; font-size: inherit; } /* Data Cards / Tables */ .dse-post .data-card { background: #fff; border: 1px solid #e2e8f0; border-radius: 8px; padding: 20px; margin: 20px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.05); } .dse-post .data-row { display: flex; justify-content: space-between; align-items: center; padding: 10px 0; border-bottom: 1px solid #edf2f7; } .dse-post .data-row:last-child { border-bottom: none; } .dse-post .metric-label { font-weight: 600; color: #4a5568; } .dse-post .metric-value { font-family: "SFMono-Regular", Consolas, monospace; font-weight: 700; color: #2b6cb0; } .dse-post .metric-value.positive { color: #2f855a; } /* Comparison Box */ .dse-post .comparison-box { display: flex; gap: 15px; margin: 20px 0; } .dse-post .comp-item { flex: 1; background: #f7fafc; padding: 15px; border-radius: 8px; border: 1px solid #e2e8f0; } .dse-post .comp-title { font-weight: bold; margin-bottom: 5px; display: block; color: #2d3748; } </style> </head> <body> <article class="dse-post"> <h1>DeepSeek Engram:75%思考+25%记忆的最优解</h1> <p>DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文,核心观点振聋发聩:现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 <strong>Engram</strong> 的模块,试图为模型装上真正的“记忆”。更令人惊讶的是,通过实验,他们计算出了记忆与思考的最优比例:<strong>75% 思考 + 25% 记忆</strong>。</p> <h2>一、 问题:大模型在浪费算力做“背书”</h2> <p>你有没有想过,当大模型看到 "Diana, Princess of Wales"(戴安娜王妃)这个词时,它内部发生了什么?论文引用的研究表明,模型需要消耗多层 Attention(注意力机制)和 FFN(前馈网络),才能逐步把实体识别出来。</p> <div class="data-card"> <div class="data-row"> <span class="metric-label">1-2层</span> <span class="metric-value">“威尔士”(当成英国的一个地区)</span> </div> <div class="data-row"> <span class="metric-label">3层</span> <span class="metric-value">“欧洲的一个国家”</span> </div> <div class="data-row"> <span class="metric-label">4层</span> <span class="metric-value">“女性君主持有的头衔”(开始识别 Princess)</span> </div> <div class="data-row"> <span class="metric-label">5层</span> <span class="metric-value">“威尔士王储的妻子”</span> </div> <div class="data-row"> <span class="metric-label">6层</span> <span class="metric-value">“戴安娜王妃(1961-1997),查尔斯王子的前妻”</span> </div> </div> <p>DeepSeek 指出,模型用了整整 6 层计算,才识别出一个固定的历史人物。然而,这些信息是静态的、固定的,根本不需要每次都“计算”出来。“亚历山大大帝”就是“亚历山大大帝”,“四大发明”就是“四大发明”。这些固定搭配和命名实体,每次都用神经网络重新计算一遍,无异于每次需要查“中国首都是哪”的时候,不是直接查字典,而是从头推理一遍。大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。</p> <h2>二、 Engram 的核心思想:给模型发一本字典</h2> <p>Engram 这个名字取自神经科学术语,指的是大脑中存储记忆痕迹的物理结构。DeepSeek 用这个名字,寓意着要给大模型装上真正的“记忆”。</p> <p>Engram 的核心思想非常直观:给模型一本“字典”。以前的规则是全靠脑子现场推,现在允许带一本字典进考场。具体机制如下:</p> <ol> <li><strong>哈希定位:</strong> 当模型看到 "Alexander the Great" 这些词连在一起时,视作字典索引。通过哈希快速定位到对应页面。</li> <li><strong>直接提取:</strong> 直接把预先存好的信息拿出来,不需要“思考”,只需要“翻页”。</li> <li><strong>上下文门控:</strong> 解决多义词问题。例如“苹果”,可能是水果也可能是科技巨头。模型会检查上下文:如果在聊水果,则忽略字典里的“苹果公司”信息;如果在聊手机,则直接采纳。</li> </ol> <p>这就像一个聪明的学生,带了字典但不是无脑抄,而是先判断答案与题目是否匹配。</p> <h2>三、 核心发现:U型缩放定律</h2> <p>论文中最具洞察力的发现是关于参数分配的“U型缩放定律”。DeepSeek 研究了在总参数量固定的情况下,应该把多少参数分配给 MoE(混合专家模型,负责思考/计算),多少分配给 Engram(负责记忆/查表)。他们定义了分配比例 $\rho$,其中 $\rho = 100\%$ 表示纯 MoE,$\rho < 100\%$ 表示将部分参数转移给 Engram。</p> <p>实验结果呈现出清晰的 U 型分布:</p> <ul> <li><strong>左端(低 $\rho$,纯 Engram):</strong> 效果差。有无限记忆但失去推理能力,类似博尔赫斯小说中拥有完美记忆却无法思考的富内斯(Funes)。</li> <li><strong>右端(高 $\rho$,纯 MoE):</strong> 效果非最优。有强大推理能力,但浪费算力重建静态知识。</li> <li><strong>底部(最优解):</strong> 当 $\rho \approx 75\%-80\%$ 时,即分配约 <strong>20%-25%</strong> 给 Engram,<strong>75%-80%</strong> 给 MoE 时,验证损失最低,效果最好。</li> </ul> <p>这验证了一个认知科学命题:记忆和思考是互补且对立的。完美的记忆会杀死思考,纯粹的思考则需要不断重复劳动。DeepSeek 的实验给出了精确的答案:<strong>75% 计算(思考) + 25% 记忆</strong> 是最聪明的系统配置。</p> <h2>四、 实验结果:推理能力提升比知识提升更大</h2> <p>令人惊讶的是,作为“记忆模块”的 Engram,对推理能力的提升幅度甚至超过了纯知识任务。</p> <div class="comparison-box"> <div class="comp-item"> <span class="comp-title">知识类任务提升</span> <p>MMLU: +3.4<br>CMMLU: +4.0<br>MMLU-Pro: +1.8</p> </div> <div class="comp-item"> <span class="comp-title" style="color: #2f855a;">推理类任务提升</span> <p>BBH: <span class="metric-value positive">+5.0</span><br>ARC-Challenge: <span class="metric-value positive">+3.7</span><br>DROP: <span class="metric-value positive">+3.3</span></p> </div> </div> <div class="comparison-box"> <div class="comp-item"> <span class="comp-title">代码与数学</span> <p>HumanEval: <span class="metric-value positive">+3.0</span><br>MATH: +2.4<br>GSM8K: +2.2</p> </div> </div> <h3>机制分析:为何记忆能提升推理?</h3> <p>DeepSeek 通过分析模型每一层的中间状态发现:没有 Engram 的模型,前 5-6 层都在忙着识别实体(如搞清楚“亚历山大大帝”是谁),直到很深的层才开始真正的推理。而拥有 Engram 的模型,第 2 层就直接获取了实体信息,剩下的 20 多层可以全部用于推理。</p> <p>实验数据显示,Engram 模型第 5 层的“思考深度”,相当于普通模型第 12 层的水平。Engram 相当于免费给模型增加了 7 层深度,把宝贵的算力从“背书”中解放出来用于“做题”。</p> <h2>五、 长上下文能力暴涨与系统设计创新</h2> <h3>1. 长上下文能力</h3> <p>Engram 极大提升了长文本处理能力。在“大海捞针”测试中,多问题大海捞针的准确率从 84.2% 提升至 97.0%。因为 Engram 处理了“这是谁”的问题,Attention 就可以专注于“发生了什么”,减轻了大脑负荷。</p> <h3>2. 字典可以放在抽屉里(系统设计)</h3> <p>DeepSeek 展现了顶级的工程落地能力。MoE 模型每道题都要“现场”决定找哪个专家,耗时不定。但字典查什么词条是提前确定的(看到“亚历山大”就知道查 A 开头词条)。这意味着:</p> <ul> <li><strong>异步加载:</strong> 在第 1 层计算时,系统就可准备好第 2 层需要的字典页。</li> <li><strong>内存置换:</strong> 字典不必存放在昂贵的 GPU 显存(“桌面”)里,可以放在便宜大容量的 CPU 内存(“抽屉”)里。</li> </ul> <p>实验显示,带 1000 亿参数字典(放 CPU 内存)的模型,相比不带字典的模型,速度仅慢了 2%,但获得了巨大的知识储备。这使得 Engram 可以做得非常大。</p> <h2>六、 总结:记忆与思考的平衡</h2> <p>DeepSeek 的 Engram 论文不仅在技术上提出了条件记忆这一下一代稀疏模型的基础组件,更在认知层面揭示了优化的本质。O(1) 的查表永远比 O(n) 的计算快。</p> <p>大模型不是越大越好、越深越好,关键是把合适的任务分配给合适的模块:</p> <blockquote> <strong>静态知识 → 查表</strong><br> <strong>动态推理 → 计算</strong> </blockquote> <p>就像人脑一样,你不需要每次看到“1+1”都重新推导,直接从记忆里调出“2”就行了。省下来的脑力,用来思考更有价值的问题。DeepSeek 算出的最优解 —— <strong>75% 思考 + 25% 记忆</strong>,或许正是通向更高阶智能的必经之路。</p> </article> </body> </html>

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!