2026年做搜索就是做Agent Memory

✨步子哥 (steper) • 2026年04月25日 04:00
                        <!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>2026年做搜索就是做Agent Memory</title>
    <link rel="preconnect" href="https://fonts.googleapis.com">
    <link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
    <link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">
    <style>
        :root {
            --bg-color: #FFFFFF;
            --content-bg: #FFFFFF;
            --text-color: #212529;
            --primary-color: #0D6EFD;
            --border-color: #dee2e6;
            --code-bg: #f8f9fa;
            --quote-bg: #f8f9fa;
        }

        body {
            font-family: "Noto Serif SC", serif;
            font-size: 16px;
            line-height: 1.8;
            color: var(--text-color);
            background-color: var(--bg-color);
            margin: 0;
            padding: 0;
        }

        .container {
            max-width: 800px;
            margin: 2em auto;
            padding: 2em 3em;
            background-color: var(--content-bg);
            box-shadow: 0 4px 12px rgba(0,0,0,0.05);
            border-radius: 8px;
        }

        h1, h2, h3, h4, h5, h6 {
            font-family: "Noto Sans SC", "Noto Serif SC", sans-serif;
            font-weight: 700;
            line-height: 1.4;
        }

        h1 {
            font-size: 28px;
            text-align: center;
            margin-top: 24px;
            margin-bottom: 20px;
            color: var(--text-color);
        }

        h2 {
            font-size: 22px;
            margin-top: 2.5em;
            margin-bottom: 1.5em;
            padding-bottom: 0.4em;
            border-left: 5px solid var(--primary-color);
            padding-left: 0.8em;
            color: var(--text-color);
        }

        h3 {
            font-size: 20px;
            margin-top: 2em;
            margin-bottom: 1em;
            color: var(--text-color);
        }

        h4 {
            font-size: 18px;
            margin-top: 1.5em;
            margin-bottom: 0.8em;
            color: var(--text-color);
        }

        p {
            margin-bottom: 1.2em;
        }

        a {
            color: var(--primary-color);
            text-decoration: none;
            transition: color 0.2s ease-in-out;
        }

        a:hover {
            text-decoration: underline;
        }
        
        strong, b {
            color: #212529;
            font-weight: 700;
        }

        blockquote {
            margin: 1.5em 0;
            padding: 0.5em 1.5em;
            border-left: 4px solid var(--primary-color);
            background-color: var(--quote-bg);
            color: #495057;
        }

        blockquote p {
            margin-bottom: 0;
        }

        hr {
            border: 0;
            height: 1px;
            background-image: linear-gradient(to right, rgba(13, 110, 253, 0), rgba(13, 110, 253, 0.75), rgba(13, 110, 253, 0));
            margin: 3em 0;
        }

        ul, ol {
            padding-left: 1.5em;
            margin-bottom: 1.2em;
        }

        li {
            margin-bottom: 0.5em;
        }

        code {
            font-family: "Source Code Pro", monospace;
            background-color: var(--code-bg);
            padding: 0.2em 0.4em;
            border-radius: 4px;
            font-size: 0.9em;
            color: #d63384;
        }

        pre {
            background-color: var(--code-bg);
            padding: 1em;
            border-radius: 4px;
            overflow-x: auto;
            border: 1px solid #e9ecef;
        }

        pre code {
            background-color: transparent;
            padding: 0;
            border-radius: 0;
            font-size: 0.9em;
            color: var(--text-color);
        }

        table {
            width: 100%;
            border-collapse: collapse;
            margin: 2em 0;
            font-size: 0.95em;
        }

        th, td {
            padding: 0.8em 1em;
            text-align: left;
            border-bottom: 1px solid var(--border-color);
        }

        thead th {
            border-bottom: 2px solid var(--primary-color);
            font-weight: 700;
            color: var(--text-color);
        }
        
        tbody tr:hover {
            background-color: #f8f9fa;
        }
        
        .toc {
            background-color: #f8f9fa;
            border: 1px solid #e9ecef;
            padding: 1.5em 2em;
            border-radius: 8px;
            margin-bottom: 2.5em;
        }

        .toc-title {
            font-family: "Noto Sans SC", sans-serif;
            font-weight: 700;
            font-size: 1.2em;
            margin-top: 0;
            margin-bottom: 1em;
            color: var(--text-color);
        }

        .toc ul {
            padding-left: 0;
            list-style-type: none;
        }

        .toc-level-2 > li {
            margin-bottom: 0.8em;
        }

        .toc-level-2 > li > a {
            font-weight: 700;
        }

        .toc-level-3 {
            margin-top: 0.5em;
            padding-left: 2em;
        }

        .toc-level-3 li {
            margin-bottom: 0.4em;
        }
        
        .toc a {
            color: var(--primary-color);
        }

        .toc-counter {
            margin-right: 0.5em;
        }
        
        .component-group {
            border: 1px solid #e9ecef;
            border-radius: 8px;
            padding: 1.5em;
            margin: 2em 0;
            background-color: #f8f9fa;
        }

    </style>
</head>
<body>
    <div class="container">
        <h1>2026年做搜索就是做Agent Memory</h1>
<nav class="toc">
<p class="toc-title">目录</p>
<ul class="toc-level-2">
<li><a href="#搜索技术演进从关键词到向量再到智能体记忆"><span class="toc-counter">一、</span>搜索技术演进：从关键词到向量，再到智能体记忆</a></li>
<li><a href="#智能体记忆的痛点遗忘与表征"><span class="toc-counter">二、</span>智能体记忆的痛点：遗忘与表征</a>
<ul class="toc-level-3">
<li><a href="#记忆的表征以何种形式存储">记忆的表征：以何种形式存储？</a></li>
<li><a href="#选择性遗忘智能体记忆的核心难题">选择性遗忘：智能体记忆的核心难题</a></li>
</ul>
</li>
<li><a href="#主流智能体记忆产品分类与工作流"><span class="toc-counter">三、</span>主流智能体记忆产品分类与工作流</a>
<ul class="toc-level-3">
<li><a href="#主流记忆工作流共识">主流记忆工作流共识</a></li>
<li><a href="#典型产品案例分析小龙虾的文件派记忆">典型产品案例分析：小龙虾的文件派记忆</a></li>
</ul>
</li>
<li><a href="#模型派记忆将真相交给模型本身"><span class="toc-counter">四、</span>模型派记忆：将“真相”交给模型本身</a></li>
<li><a href="#智能体记忆的评估与未来展望"><span class="toc-counter">五、</span>智能体记忆的评估与未来展望</a>
<ul class="toc-level-3">
<li><a href="#评估基准从longmemeval到memoryarena">评估基准：从LongMemEval到MemoryArena</a></li>
<li><a href="#智能体记忆的未来趋势">智能体记忆的未来趋势</a></li>
</ul>
</li>
</ul>
</nav>
<p>4月18日，Elastic 中国 AI 搜索技术大会在北京召开。以下内容整理自 Elastic 全球副总裁肖涵（原 Jina AI 创始人兼 CEO）在会上的演讲。肖涵讲述了 AI 搜索的发展历程，以及为什么在 2026 年，做 AI 搜索基本就是在做智能体记忆（Agent Memory）。</p>
<h2 id="搜索技术演进从关键词到向量再到智能体记忆">搜索技术演进：从关键词到向量，再到智能体记忆</h2>
<p>肖涵首先回顾了搜索技术的发展脉络。2009 年，他初入搜索领域时，关键词检索（如 BM25、TF-IDF）和倒排索引是主流，那时大家还在用 Lucene 做分词和信息抽取【7†source】。2015 年后，向量搜索逐渐兴起，Facebook 的 Faiss、Milvus 等向量数据库出现，但向量检索也存在速度和“过度召回”的问题，于是业界转向混合搜索，将关键词与向量结合【7†source】。2018 年，Transformer 统一了深度学习架构，BERT 成为将文本编码为向量的标配【7†source】。2022 年 ChatGPT 发布后，RAG（检索增强生成）兴起，搜索与生成日益融合【7†source】。2025 年，DeepSeek-R1 等模型引入了“推理+测试时计算”的范式，使搜索可以边搜边推理，生成深度报告，这被称为“Deep Research”【7†source】。进入 2026 年，随着“OpenClaw”等智能体平台的出现，Agent 能连续工作数小时，无人介入，这促使搜索的定位从“给用户十条结果”转向“为 Agent 提供一个正确的答案”【7†source】。肖涵指出，2026 年的技术主线已切换至<strong>长时程任务（Long Horizon Task）</strong>，当 Agent 自主运行时间延长至 4-5 小时甚至更长，持久记忆就从可选项变为刚需【7†source】。他借用 Andrej Karpathy 的观点点明问题本质：当前所有 LLM 的个性化记忆都困在同一个难题上——<strong>不会选择性遗忘</strong>【7†source】。</p>
<h2 id="智能体记忆的痛点遗忘与表征">智能体记忆的痛点：遗忘与表征</h2>
<p>肖涵通过一个亲身案例说明了当前智能体记忆的痛点。他让 Agent 查找自己之前制作的“911 图表”（911 是保时捷的一款车型），但 Agent 将“911”翻译成英文“September 11th”去搜索，结果一无所获【7†source】。问题并非出在模型能力（当时使用的是顶级模型 Claude Opus 4.6），而是出在<strong>记忆检索的第一步——查询构造</strong>上【7†source】。Agent 在将中文“911”转译成英文查询时发生了歧义，导致检索失败。肖涵进一步 debug 发现，Agent 使用了 Grep 和向量语义搜索等混合检索方式，遍历了 Memory Markdown、Session Log、文件系统等所有存储，方法上看并无问题【7†source】。但关键的错误在于第一次查询“911 chart graph visualization”和第二次查询“September 11th chart visualization Twin Towers attack”都未能命中目标记忆【7†source】。当肖涵改用车型代号“992.2”作为查询时，Agent 立即找到了 3 月 29 日制作的图表【7†source】。由此可见，<strong>记忆检索的成败往往取决于查询的构造</strong>，即使检索链路完整，查询一错，全盘皆输【7†source】。肖涵强调，这种记忆检索失败的情况从他一月份使用至今一直存在，记忆已成为当前 Agent 系统的一大痛点【7†source】。</p>
<h3 id="记忆的表征以何种形式存储">记忆的表征：以何种形式存储？</h3>
<p>肖涵指出，智能体记忆的核心问题首先是<strong>表征（Representation）</strong>：记忆应该以何种形式存储？一条聊天记录、一个事实三元组、一张知识图谱，还是单纯的向量、时间戳+事件对，甚至直接是模型权重？不同的答案会催生截然不同的系统【7†source】。这也是当前智能体记忆领域最混乱之处：各家在不同表征上各自开工，谁也说服不了谁【7†source】。即便选定了表征，还需回答三个问题：基于这种表征如何做 CRUD（创建、读取、更新、删除）？如何在对话中高效提取记忆，同时不破坏对话流畅性？以及，记忆能否跨模型迁移？肖涵强调，记忆应该与上层模型解耦，这样才能实现模型切换时记忆的迁移【7†source】。</p>
<h3 id="选择性遗忘智能体记忆的核心难题">选择性遗忘：智能体记忆的核心难题</h3>
<p>肖涵借用生物类比，指出人脑的记忆是分层的：新概念先由前额叶皮层判断是否值得记忆，海马体负责编码，睡眠会强化记忆，最终长期技能被“烧录”到新皮层【7†source】。他“强行”将这一过程映射到 AI：海马体对应 RAG 的实时检索，新皮层对应模型的微调或预训练，前额叶则对应当前的上下文窗口【7†source】。关键的问题是：<strong>何时该遗忘？</strong> 人类会遗忘旧事，但当前智能体系统往往<strong>只增不减</strong>，缺乏遗忘机制【7†source】。肖涵引用 Andrej Karpathy 的话说：“现在 Agent 系统都有一个最致命的问题，就是它不会选择性遗忘”【7†source】。如果系统不做遗忘，记忆库最终会被噪声淹没，Agent 被自己的历史拖垮【7†source】。目前的智能体记忆存在三大缺陷：<strong>遗漏</strong>（如 911 示例）、<strong>失真（幻觉）</strong>和<strong>幻觉继承</strong>【7†source】。有趣的是，这导致了一个<strong>冷启动悖论</strong>：用户刚开始使用一个全新 Agent 时，对其期待低，反而感觉使用体验不错；但随着时间推移，用户期待 Agent 越来越聪明，但由于缺乏有效的记忆管理，Agent 的表现却每况愈下，用户留存时间很短，信任被长期蚕食【7†source】。整个行业的节奏正被记忆问题拖住【7†source】。</p>
<h2 id="主流智能体记忆产品分类与工作流">主流智能体记忆产品分类与工作流</h2>
<p>肖涵梳理了市面上十余款智能体记忆产品（开源与闭源），将它们按“真相源（Source of Truth）”所在划分为三大类【7†source】：</p>
<div class="component-group">
<ul>
<li><strong>数据库派</strong>：以向量数据库、SQL、键值存储等为核心。对话经过 LLM 提取事实后，存入向量库或知识图谱，检索时注入上下文。优点是结构化程度高、查询效率好，但“一条记忆应该长什么样”被 Schema 锁死，灵活性有限【7†source】。</li>
<li><strong>文件派</strong>：以 Markdown、纯文本等文件为记忆载体。Agent 读文件、工作、写回文件，不断累积。优势是透明可编辑、可版本化，缺陷是文件会膨胀，需要“智能遗忘”机制【7†source】。典型代表是“小龙虾”（OpenClaw）和 MemSearch【7†source】。</li>
<li><strong>模型派</strong>：将记忆的真相直接存于大模型权重或上下文中。模型自行决定记什么、忘什么、如何整合。优势是零配置、自适应，但完全黑盒、不可审计【7†source】。代表是 Letta 和 ChatGPT【7†source】。</li>
</ul>
</div>
<h3 id="主流记忆工作流共识">主流记忆工作流共识</h3>
<p>尽管流派不同，肖涵总结出目前主流智能体记忆框架在工作流上已形成高度共识【7†source】：</p>
<div class="component-group">
<ol>
<li><strong>记忆提取</strong>：从聊天记录中通过大模型提取事实或记忆结构【7†source】。</li>
<li><strong>记忆存储</strong>：将提取的记忆结构转化为向量、知识图谱或时序数据库存储【7†source】。时序性尤为重要，因为需要支持基于时间的遗忘策略【7†source】。</li>
<li><strong>混合检索</strong>：基于向量、图谱和时序数据库做混合检索，并使用 RRF（倒数秩融合）融合、MMR（最大边际相关性）去重、时间衰减排序等策略【7†source】。</li>
<li><strong>冲突解决与衰减</strong>：检索结果需解决两个关键问题：<strong>记忆冲突</strong>（当检测到两条记忆相互矛盾时如何取舍）和<strong>时间衰减</strong>（旧记忆权重如何降低）【7†source】。</li>
</ol>
</div>
<h3 id="典型产品案例分析小龙虾的文件派记忆">典型产品案例分析：小龙虾的文件派记忆</h3>
<p>肖涵以“小龙虾”（OpenClaw）为例，详细拆解了文件派记忆的架构【7†source】。小龙虾的记忆真相源是一个按天组织的 Markdown 日记文件夹，以及一个长期记忆文件 <code>memory.md</code>（存用户画像等长期信息）和一个“灵魂画像”文件 <code>soul.md</code>（存 Agent 自身的元信息）【7†source】。从这些真相源派生出两个索引：SQLite FTS5（用于 BM25 关键词检索）和 LanceDB（用于向量检索）【7†source】。在索引之上做混合检索，使用 RRF 融合、MMR 去重，并加入时间衰减排序【7†source】。对外暴露 <code>memory_search</code> 和 <code>memory_get</code> 两个接口【7†source】。此外，小龙虾还模仿人类的睡眠机制，设置了“深度睡眠、浅度睡眠、REM”三阶段，通过阈值和条件控制，不是所有记忆都升级为长期记忆，而是模拟遗忘过程【7†source】。</p>
<h2 id="模型派记忆将真相交给模型本身">模型派记忆：将“真相”交给模型本身</h2>
<p>肖涵表示，他个人更看好的方向是<strong>模型派</strong>记忆【7†source】。随着 Transformer 架构的演进，也许到某个点，Transformer 本身就能解决记忆问题，实现“大力出奇迹”的<strong>The Bitter Lesson</strong>【7†source】。目前已有趋势显示，上下文窗口在不断扩大。例如，千问 3.5 的 MoE 模型可扩展到 1M token，在 24G 显存的 GPU 上流畅运行；如果 Agent 的全部记忆能被压缩并直接装进 1M 窗口，那么或许就不需要复杂的分层设计，直接用模型本身做召回【7†source】。另一家初创公司 EverMind AI 已将上下文推到了 100M token，并在注意力机制上做了特殊设计（MSA，Memory Sparse Attention），以保证在超长上下文下仍有良好的召回效果【7†source】。</p>
<h2 id="智能体记忆的评估与未来展望">智能体记忆的评估与未来展望</h2>
<h3 id="评估基准从longmemeval到memoryarena">评估基准：从LongMemEval到MemoryArena</h3>
<p>学术圈已推出多个基准来评估智能体记忆系统，肖涵列举了几个代表性的【7†source】：</p>
<div class="component-group">
<ul>
<li><strong>LongMemEval</strong>：包含 500 道题，评估信息提取、多轮推理、知识更新、时序推理和安全拒答五大能力【7†source】。</li>
<li><strong>MABench</strong>（ICLR 2026）：评估精确检索、测试时学习、长程理解、冲突解决【7†source】。</li>
<li><strong>MemoryArena</strong>：评估多轮对话中的记忆表现【7†source】。</li>
<li><strong>EverMemBench</strong>：首个多方协作场景下的基准，包含 100 万+ token【7†source】。</li>
<li><strong>清华 MemoryBench</strong>：首个基于用户反馈的持续学习基准【7†source】。</li>
</ul>
</div>
<p>这些基准揭示了当前记忆系统面临的普遍挑战：上下文越长，记忆效果越差；多会话推理和冲突解决仍然是极难的问题【7†source】。EverMind AI 提出的问题也值得深思：当前所有记忆系统都假设 Agent 是一对一的助手，但如果把 Agent 放入一个群聊，它该记住谁的、如何分别记忆每个人的信息？【7†source】</p>
<h3 id="智能体记忆的未来趋势">智能体记忆的未来趋势</h3>
<p>肖涵最后分享了他对智能体记忆未来趋势的几点判断【7†source】：</p>
<div class="component-group">
<ol>
<li><strong>统一范式尚未形成</strong>：当前智能体记忆领域百花齐放，就像 2017 年 Transformer 出现前的深度学习，各种架构（CNN、RNN、LSTM）并存，尚未出现统一范式【7†source】。</li>
<li><strong>纯文本派是“躺平”</strong>：一些方案完全不构建模型或层级，只靠 Grep、关键词搜索，这相当于躺平。这种做法有天花板，而且天花板显而易见【7†source】。</li>
<li><strong>Unlearning 是一笔多年的技术债，该还了</strong>：所有系统都是只增不减，这是一笔长期的技术债。2009 年他做机器学习时就讨论过“机器遗忘（Machine Unlearning）”问题，即如何让已训练的模型忘掉某些数据，但至今没有完美解决方案【7†source】。推荐系统一旦被污染（如刷抖音刷废了号），无法恢复，本质上也是因为不会遗忘【7†source】。</li>
<li><strong>推荐系统会因智能体记忆重新火起来</strong>：智能体记忆的核心是个性化——记住用户偏好、行为模式、历史决策，这与推荐系统做了二十年的事完全一样【7†source】。那些在推荐系统领域深耕的公司（如小红书、抖音、淘宝），凭借经验和优势，可能在智能体记忆时代再次崛起【7†source】。</li>
</ol>
</div>
<p>肖涵的演讲为现场听众勾勒出了智能体记忆的发展脉络和未来走向：从搜索范式的六次跃迁，到当前记忆系统的架构分类与工程取舍，再到评估基准的挑战与行业共识，他强调了一个核心观点——<strong>在 2026 年，做 AI 搜索，本质上就是在做智能体的记忆系统</strong>【7†source】。随着 Agent 能力的提升和任务的复杂化，记忆不再是可选项，而是决定 Agent 能否持续、高效、可靠运行的关键命门【7†source】。未来，谁能在智能体记忆的统一范式、遗忘机制和跨模型迁移等难题上取得突破，谁就能在 AI 2.0 时代占据先机。</p>
    </div>
</body>
</html>                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册