DeepSeek Engram 75%思考 + 25%记忆

✨步子哥 (steper) • 2026年01月14日 01:02
                        <!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>DeepSeek Engram：75%思考+25%记忆的最优解</title>
    <style>
        /* 
         * DeepSeek Engram Post Styles 
         * 命名空间：.dse-post
         * 适配宽度：760px
         */
        .dse-post {
            font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, "Helvetica Neue", Arial, "Noto Sans SC", sans-serif;
            color: #333;
            line-height: 1.8;
            font-size: 16px;
            background-color: #fff;
            max-width: 760px;
            margin: 0 auto;
            padding: 20px;
            box-sizing: border-box;
        }

        .dse-post * {
            box-sizing: border-box;
        }

        .dse-post h1 {
            font-size: 28px;
            font-weight: 800;
            margin-bottom: 20px;
            color: #1a202c;
            border-bottom: 2px solid #e2e8f0;
            padding-bottom: 10px;
            letter-spacing: -0.5px;
        }

        .dse-post h2 {
            font-size: 22px;
            font-weight: 700;
            margin-top: 40px;
            margin-bottom: 20px;
            color: #2d3748;
            display: flex;
            align-items: center;
        }

        .dse-post h2::before {
            content: '';
            display: inline-block;
            width: 6px;
            height: 22px;
            background-color: #3b82f6;
            margin-right: 12px;
            border-radius: 2px;
        }

        .dse-post h3 {
            font-size: 18px;
            font-weight: 600;
            margin-top: 30px;
            margin-bottom: 15px;
            color: #4a5568;
        }

        .dse-post p {
            margin-bottom: 20px;
            text-align: justify;
        }

        .dse-post strong {
            color: #2d3748;
            font-weight: 700;
            background: linear-gradient(120deg, rgba(59, 130, 246, 0.1) 0%, rgba(59, 130, 246, 0.1) 100%);
            background-repeat: no-repeat;
            background-size: 100% 40%;
            background-position: 0 85%;
            padding: 0 2px;
        }

        .dse-post blockquote {
            margin: 25px 0;
            padding: 15px 20px;
            background-color: #f7fafc;
            border-left: 4px solid #3182ce;
            color: #4a5568;
            font-style: italic;
        }

        .dse-post ul, .dse-post ol {
            margin-bottom: 20px;
            padding-left: 25px;
        }

        .dse-post li {
            margin-bottom: 10px;
        }

        .dse-post hr {
            border: 0;
            height: 1px;
            background: #e2e8f0;
            margin: 40px 0;
        }

        /* Code Blocks Style - Simulating Markdown */
        .dse-post pre {
            background-color: #2d3748;
            color: #e2e8f0;
            padding: 15px;
            border-radius: 6px;
            overflow-x: auto;
            margin-bottom: 20px;
            font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace;
            font-size: 14px;
        }

        .dse-post code {
            font-family: "SFMono-Regular", Consolas, "Liberation Mono", Menlo, Courier, monospace;
            background-color: #edf2f7;
            padding: 0.2em 0.4em;
            margin: 0;
            font-size: 85%;
            border-radius: 3px;
            color: #d53f8c;
        }

        .dse-post pre code {
            background-color: transparent;
            color: inherit;
            padding: 0;
            margin: 0;
            font-size: inherit;
        }

        /* Data Cards / Tables */
        .dse-post .data-card {
            background: #fff;
            border: 1px solid #e2e8f0;
            border-radius: 8px;
            padding: 20px;
            margin: 20px 0;
            box-shadow: 0 2px 4px rgba(0,0,0,0.05);
        }

        .dse-post .data-row {
            display: flex;
            justify-content: space-between;
            align-items: center;
            padding: 10px 0;
            border-bottom: 1px solid #edf2f7;
        }

        .dse-post .data-row:last-child {
            border-bottom: none;
        }

        .dse-post .metric-label {
            font-weight: 600;
            color: #4a5568;
        }

        .dse-post .metric-value {
            font-family: "SFMono-Regular", Consolas, monospace;
            font-weight: 700;
            color: #2b6cb0;
        }
        
        .dse-post .metric-value.positive {
            color: #2f855a;
        }

        /* Comparison Box */
        .dse-post .comparison-box {
            display: flex;
            gap: 15px;
            margin: 20px 0;
        }

        .dse-post .comp-item {
            flex: 1;
            background: #f7fafc;
            padding: 15px;
            border-radius: 8px;
            border: 1px solid #e2e8f0;
        }
        
        .dse-post .comp-title {
            font-weight: bold;
            margin-bottom: 5px;
            display: block;
            color: #2d3748;
        }

    </style>
</head>
<body>

<article class="dse-post">
    <h1>DeepSeek Engram：75%思考+25%记忆的最优解</h1>
    
    <p>DeepSeek 最近发布了一篇题为《Conditional Memory via Scalable Lookup》的新论文，核心观点振聋发聩：现有的大模型正在浪费大量算力做一件低效的事——用昂贵的计算来模拟廉价的查字典。他们提出了一个名为 <strong>Engram</strong> 的模块，试图为模型装上真正的“记忆”。更令人惊讶的是，通过实验，他们计算出了记忆与思考的最优比例：<strong>75% 思考 + 25% 记忆</strong>。</p>

    <h2>一、 问题：大模型在浪费算力做“背书”</h2>
    <p>你有没有想过，当大模型看到 "Diana, Princess of Wales"（戴安娜王妃）这个词时，它内部发生了什么？论文引用的研究表明，模型需要消耗多层 Attention（注意力机制）和 FFN（前馈网络），才能逐步把实体识别出来。</p>
    
    <div class="data-card">
        <div class="data-row">
            <span class="metric-label">1-2层</span>
            <span class="metric-value">“威尔士”（当成英国的一个地区）</span>
        </div>
        <div class="data-row">
            <span class="metric-label">3层</span>
            <span class="metric-value">“欧洲的一个国家”</span>
        </div>
        <div class="data-row">
            <span class="metric-label">4层</span>
            <span class="metric-value">“女性君主持有的头衔”（开始识别 Princess）</span>
        </div>
        <div class="data-row">
            <span class="metric-label">5层</span>
            <span class="metric-value">“威尔士王储的妻子”</span>
        </div>
        <div class="data-row">
            <span class="metric-label">6层</span>
            <span class="metric-value">“戴安娜王妃（1961-1997），查尔斯王子的前妻”</span>
        </div>
    </div>

    <p>DeepSeek 指出，模型用了整整 6 层计算，才识别出一个固定的历史人物。然而，这些信息是静态的、固定的，根本不需要每次都“计算”出来。“亚历山大大帝”就是“亚历山大大帝”，“四大发明”就是“四大发明”。这些固定搭配和命名实体，每次都用神经网络重新计算一遍，无异于每次需要查“中国首都是哪”的时候，不是直接查字典，而是从头推理一遍。大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。</p>

    <h2>二、 Engram 的核心思想：给模型发一本字典</h2>
    <p>Engram 这个名字取自神经科学术语，指的是大脑中存储记忆痕迹的物理结构。DeepSeek 用这个名字，寓意着要给大模型装上真正的“记忆”。</p>
    <p>Engram 的核心思想非常直观：给模型一本“字典”。以前的规则是全靠脑子现场推，现在允许带一本字典进考场。具体机制如下：</p>
    <ol>
        <li><strong>哈希定位：</strong> 当模型看到 "Alexander the Great" 这些词连在一起时，视作字典索引。通过哈希快速定位到对应页面。</li>
        <li><strong>直接提取：</strong> 直接把预先存好的信息拿出来，不需要“思考”，只需要“翻页”。</li>
        <li><strong>上下文门控：</strong> 解决多义词问题。例如“苹果”，可能是水果也可能是科技巨头。模型会检查上下文：如果在聊水果，则忽略字典里的“苹果公司”信息；如果在聊手机，则直接采纳。</li>
    </ol>
    <p>这就像一个聪明的学生，带了字典但不是无脑抄，而是先判断答案与题目是否匹配。</p>

    <h2>三、 核心发现：U型缩放定律</h2>
    <p>论文中最具洞察力的发现是关于参数分配的“U型缩放定律”。DeepSeek 研究了在总参数量固定的情况下，应该把多少参数分配给 MoE（混合专家模型，负责思考/计算），多少分配给 Engram（负责记忆/查表）。他们定义了分配比例 $\rho$，其中 $\rho = 100\%$ 表示纯 MoE，$\rho < 100\%$ 表示将部分参数转移给 Engram。</p>
    
    <p>实验结果呈现出清晰的 U 型分布：</p>
    <ul>
        <li><strong>左端（低 $\rho$，纯 Engram）：</strong> 效果差。有无限记忆但失去推理能力，类似博尔赫斯小说中拥有完美记忆却无法思考的富内斯（Funes）。</li>
        <li><strong>右端（高 $\rho$，纯 MoE）：</strong> 效果非最优。有强大推理能力，但浪费算力重建静态知识。</li>
        <li><strong>底部（最优解）：</strong> 当 $\rho \approx 75\%-80\%$ 时，即分配约 <strong>20%-25%</strong> 给 Engram，<strong>75%-80%</strong> 给 MoE 时，验证损失最低，效果最好。</li>
    </ul>

    <p>这验证了一个认知科学命题：记忆和思考是互补且对立的。完美的记忆会杀死思考，纯粹的思考则需要不断重复劳动。DeepSeek 的实验给出了精确的答案：<strong>75% 计算（思考） + 25% 记忆</strong> 是最聪明的系统配置。</p>

    <h2>四、 实验结果：推理能力提升比知识提升更大</h2>
    <p>令人惊讶的是，作为“记忆模块”的 Engram，对推理能力的提升幅度甚至超过了纯知识任务。</p>

    <div class="comparison-box">
        <div class="comp-item">
            <span class="comp-title">知识类任务提升</span>
            <p>MMLU: +3.4<br>CMMLU: +4.0<br>MMLU-Pro: +1.8</p>
        </div>
        <div class="comp-item">
            <span class="comp-title" style="color: #2f855a;">推理类任务提升</span>
            <p>BBH: <span class="metric-value positive">+5.0</span><br>ARC-Challenge: <span class="metric-value positive">+3.7</span><br>DROP: <span class="metric-value positive">+3.3</span></p>
        </div>
    </div>
    
    <div class="comparison-box">
        <div class="comp-item">
            <span class="comp-title">代码与数学</span>
            <p>HumanEval: <span class="metric-value positive">+3.0</span><br>MATH: +2.4<br>GSM8K: +2.2</p>
        </div>
    </div>

    <h3>机制分析：为何记忆能提升推理？</h3>
    <p>DeepSeek 通过分析模型每一层的中间状态发现：没有 Engram 的模型，前 5-6 层都在忙着识别实体（如搞清楚“亚历山大大帝”是谁），直到很深的层才开始真正的推理。而拥有 Engram 的模型，第 2 层就直接获取了实体信息，剩下的 20 多层可以全部用于推理。</p>
    <p>实验数据显示，Engram 模型第 5 层的“思考深度”，相当于普通模型第 12 层的水平。Engram 相当于免费给模型增加了 7 层深度，把宝贵的算力从“背书”中解放出来用于“做题”。</p>

    <h2>五、 长上下文能力暴涨与系统设计创新</h2>
    <h3>1. 长上下文能力</h3>
    <p>Engram 极大提升了长文本处理能力。在“大海捞针”测试中，多问题大海捞针的准确率从 84.2% 提升至 97.0%。因为 Engram 处理了“这是谁”的问题，Attention 就可以专注于“发生了什么”，减轻了大脑负荷。</p>

    <h3>2. 字典可以放在抽屉里（系统设计）</h3>
    <p>DeepSeek 展现了顶级的工程落地能力。MoE 模型每道题都要“现场”决定找哪个专家，耗时不定。但字典查什么词条是提前确定的（看到“亚历山大”就知道查 A 开头词条）。这意味着：</p>
    <ul>
        <li><strong>异步加载：</strong> 在第 1 层计算时，系统就可准备好第 2 层需要的字典页。</li>
        <li><strong>内存置换：</strong> 字典不必存放在昂贵的 GPU 显存（“桌面”）里，可以放在便宜大容量的 CPU 内存（“抽屉”）里。</li>
    </ul>
    <p>实验显示，带 1000 亿参数字典（放 CPU 内存）的模型，相比不带字典的模型，速度仅慢了 2%，但获得了巨大的知识储备。这使得 Engram 可以做得非常大。</p>

    <h2>六、 总结：记忆与思考的平衡</h2>
    <p>DeepSeek 的 Engram 论文不仅在技术上提出了条件记忆这一下一代稀疏模型的基础组件，更在认知层面揭示了优化的本质。O(1) 的查表永远比 O(n) 的计算快。</p>
    <p>大模型不是越大越好、越深越好，关键是把合适的任务分配给合适的模块：</p>
    <blockquote>
        <strong>静态知识 → 查表</strong><br>
        <strong>动态推理 → 计算</strong>
    </blockquote>
    <p>就像人脑一样，你不需要每次看到“1+1”都重新推导，直接从记忆里调出“2”就行了。省下来的脑力，用来思考更有价值的问题。DeepSeek 算出的最优解 —— <strong>75% 思考 + 25% 记忆</strong>，或许正是通向更高阶智能的必经之路。</p>

</article>

</body>
</html>                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
DeepSeek Engram 75%思考 + 25%记忆

讨论回复

推荐