<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>2026年做搜索就是做Agent Memory</title>
<link rel="preconnect" href="https://fonts.googleapis.com">
<link rel="preconnect" href="https://fonts.gstatic.com" crossorigin>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+SC:wght@400;700&family=Noto+Serif+SC:wght@400;700&family=Source+Code+Pro:wght@400;700&display=swap" rel="stylesheet">
<style>
:root {
--bg-color: #FFFFFF;
--content-bg: #FFFFFF;
--text-color: #212529;
--primary-color: #0D6EFD;
--border-color: #dee2e6;
--code-bg: #f8f9fa;
--quote-bg: #f8f9fa;
}
body {
font-family: "Noto Serif SC", serif;
font-size: 16px;
line-height: 1.8;
color: var(--text-color);
background-color: var(--bg-color);
margin: 0;
padding: 0;
}
.container {
max-width: 800px;
margin: 2em auto;
padding: 2em 3em;
background-color: var(--content-bg);
box-shadow: 0 4px 12px rgba(0,0,0,0.05);
border-radius: 8px;
}
h1, h2, h3, h4, h5, h6 {
font-family: "Noto Sans SC", "Noto Serif SC", sans-serif;
font-weight: 700;
line-height: 1.4;
}
h1 {
font-size: 28px;
text-align: center;
margin-top: 24px;
margin-bottom: 20px;
color: var(--text-color);
}
h2 {
font-size: 22px;
margin-top: 2.5em;
margin-bottom: 1.5em;
padding-bottom: 0.4em;
border-left: 5px solid var(--primary-color);
padding-left: 0.8em;
color: var(--text-color);
}
h3 {
font-size: 20px;
margin-top: 2em;
margin-bottom: 1em;
color: var(--text-color);
}
h4 {
font-size: 18px;
margin-top: 1.5em;
margin-bottom: 0.8em;
color: var(--text-color);
}
p {
margin-bottom: 1.2em;
}
a {
color: var(--primary-color);
text-decoration: none;
transition: color 0.2s ease-in-out;
}
a:hover {
text-decoration: underline;
}
strong, b {
color: #212529;
font-weight: 700;
}
blockquote {
margin: 1.5em 0;
padding: 0.5em 1.5em;
border-left: 4px solid var(--primary-color);
background-color: var(--quote-bg);
color: #495057;
}
blockquote p {
margin-bottom: 0;
}
hr {
border: 0;
height: 1px;
background-image: linear-gradient(to right, rgba(13, 110, 253, 0), rgba(13, 110, 253, 0.75), rgba(13, 110, 253, 0));
margin: 3em 0;
}
ul, ol {
padding-left: 1.5em;
margin-bottom: 1.2em;
}
li {
margin-bottom: 0.5em;
}
code {
font-family: "Source Code Pro", monospace;
background-color: var(--code-bg);
padding: 0.2em 0.4em;
border-radius: 4px;
font-size: 0.9em;
color: #d63384;
}
pre {
background-color: var(--code-bg);
padding: 1em;
border-radius: 4px;
overflow-x: auto;
border: 1px solid #e9ecef;
}
pre code {
background-color: transparent;
padding: 0;
border-radius: 0;
font-size: 0.9em;
color: var(--text-color);
}
table {
width: 100%;
border-collapse: collapse;
margin: 2em 0;
font-size: 0.95em;
}
th, td {
padding: 0.8em 1em;
text-align: left;
border-bottom: 1px solid var(--border-color);
}
thead th {
border-bottom: 2px solid var(--primary-color);
font-weight: 700;
color: var(--text-color);
}
tbody tr:hover {
background-color: #f8f9fa;
}
.toc {
background-color: #f8f9fa;
border: 1px solid #e9ecef;
padding: 1.5em 2em;
border-radius: 8px;
margin-bottom: 2.5em;
}
.toc-title {
font-family: "Noto Sans SC", sans-serif;
font-weight: 700;
font-size: 1.2em;
margin-top: 0;
margin-bottom: 1em;
color: var(--text-color);
}
.toc ul {
padding-left: 0;
list-style-type: none;
}
.toc-level-2 > li {
margin-bottom: 0.8em;
}
.toc-level-2 > li > a {
font-weight: 700;
}
.toc-level-3 {
margin-top: 0.5em;
padding-left: 2em;
}
.toc-level-3 li {
margin-bottom: 0.4em;
}
.toc a {
color: var(--primary-color);
}
.toc-counter {
margin-right: 0.5em;
}
.component-group {
border: 1px solid #e9ecef;
border-radius: 8px;
padding: 1.5em;
margin: 2em 0;
background-color: #f8f9fa;
}
</style>
</head>
<body>
<div class="container">
<h1>2026年做搜索就是做Agent Memory</h1>
<nav class="toc">
<p class="toc-title">目录</p>
<ul class="toc-level-2">
<li><a href="#搜索技术演进从关键词到向量再到智能体记忆"><span class="toc-counter">一、</span>搜索技术演进:从关键词到向量,再到智能体记忆</a></li>
<li><a href="#智能体记忆的痛点遗忘与表征"><span class="toc-counter">二、</span>智能体记忆的痛点:遗忘与表征</a>
<ul class="toc-level-3">
<li><a href="#记忆的表征以何种形式存储">记忆的表征:以何种形式存储?</a></li>
<li><a href="#选择性遗忘智能体记忆的核心难题">选择性遗忘:智能体记忆的核心难题</a></li>
</ul>
</li>
<li><a href="#主流智能体记忆产品分类与工作流"><span class="toc-counter">三、</span>主流智能体记忆产品分类与工作流</a>
<ul class="toc-level-3">
<li><a href="#主流记忆工作流共识">主流记忆工作流共识</a></li>
<li><a href="#典型产品案例分析小龙虾的文件派记忆">典型产品案例分析:小龙虾的文件派记忆</a></li>
</ul>
</li>
<li><a href="#模型派记忆将真相交给模型本身"><span class="toc-counter">四、</span>模型派记忆:将“真相”交给模型本身</a></li>
<li><a href="#智能体记忆的评估与未来展望"><span class="toc-counter">五、</span>智能体记忆的评估与未来展望</a>
<ul class="toc-level-3">
<li><a href="#评估基准从longmemeval到memoryarena">评估基准:从LongMemEval到MemoryArena</a></li>
<li><a href="#智能体记忆的未来趋势">智能体记忆的未来趋势</a></li>
</ul>
</li>
</ul>
</nav>
<p>4月18日,Elastic 中国 AI 搜索技术大会在北京召开。以下内容整理自 Elastic 全球副总裁肖涵(原 Jina AI 创始人兼 CEO)在会上的演讲。肖涵讲述了 AI 搜索的发展历程,以及为什么在 2026 年,做 AI 搜索基本就是在做智能体记忆(Agent Memory)。</p>
<h2 id="搜索技术演进从关键词到向量再到智能体记忆">搜索技术演进:从关键词到向量,再到智能体记忆</h2>
<p>肖涵首先回顾了搜索技术的发展脉络。2009 年,他初入搜索领域时,关键词检索(如 BM25、TF-IDF)和倒排索引是主流,那时大家还在用 Lucene 做分词和信息抽取【7†source】。2015 年后,向量搜索逐渐兴起,Facebook 的 Faiss、Milvus 等向量数据库出现,但向量检索也存在速度和“过度召回”的问题,于是业界转向混合搜索,将关键词与向量结合【7†source】。2018 年,Transformer 统一了深度学习架构,BERT 成为将文本编码为向量的标配【7†source】。2022 年 ChatGPT 发布后,RAG(检索增强生成)兴起,搜索与生成日益融合【7†source】。2025 年,DeepSeek-R1 等模型引入了“推理+测试时计算”的范式,使搜索可以边搜边推理,生成深度报告,这被称为“Deep Research”【7†source】。进入 2026 年,随着“OpenClaw”等智能体平台的出现,Agent 能连续工作数小时,无人介入,这促使搜索的定位从“给用户十条结果”转向“为 Agent 提供一个正确的答案”【7†source】。肖涵指出,2026 年的技术主线已切换至<strong>长时程任务(Long Horizon Task)</strong>,当 Agent 自主运行时间延长至 4-5 小时甚至更长,持久记忆就从可选项变为刚需【7†source】。他借用 Andrej Karpathy 的观点点明问题本质:当前所有 LLM 的个性化记忆都困在同一个难题上——<strong>不会选择性遗忘</strong>【7†source】。</p>
<h2 id="智能体记忆的痛点遗忘与表征">智能体记忆的痛点:遗忘与表征</h2>
<p>肖涵通过一个亲身案例说明了当前智能体记忆的痛点。他让 Agent 查找自己之前制作的“911 图表”(911 是保时捷的一款车型),但 Agent 将“911”翻译成英文“September 11th”去搜索,结果一无所获【7†source】。问题并非出在模型能力(当时使用的是顶级模型 Claude Opus 4.6),而是出在<strong>记忆检索的第一步——查询构造</strong>上【7†source】。Agent 在将中文“911”转译成英文查询时发生了歧义,导致检索失败。肖涵进一步 debug 发现,Agent 使用了 Grep 和向量语义搜索等混合检索方式,遍历了 Memory Markdown、Session Log、文件系统等所有存储,方法上看并无问题【7†source】。但关键的错误在于第一次查询“911 chart graph visualization”和第二次查询“September 11th chart visualization Twin Towers attack”都未能命中目标记忆【7†source】。当肖涵改用车型代号“992.2”作为查询时,Agent 立即找到了 3 月 29 日制作的图表【7†source】。由此可见,<strong>记忆检索的成败往往取决于查询的构造</strong>,即使检索链路完整,查询一错,全盘皆输【7†source】。肖涵强调,这种记忆检索失败的情况从他一月份使用至今一直存在,记忆已成为当前 Agent 系统的一大痛点【7†source】。</p>
<h3 id="记忆的表征以何种形式存储">记忆的表征:以何种形式存储?</h3>
<p>肖涵指出,智能体记忆的核心问题首先是<strong>表征(Representation)</strong>:记忆应该以何种形式存储?一条聊天记录、一个事实三元组、一张知识图谱,还是单纯的向量、时间戳+事件对,甚至直接是模型权重?不同的答案会催生截然不同的系统【7†source】。这也是当前智能体记忆领域最混乱之处:各家在不同表征上各自开工,谁也说服不了谁【7†source】。即便选定了表征,还需回答三个问题:基于这种表征如何做 CRUD(创建、读取、更新、删除)?如何在对话中高效提取记忆,同时不破坏对话流畅性?以及,记忆能否跨模型迁移?肖涵强调,记忆应该与上层模型解耦,这样才能实现模型切换时记忆的迁移【7†source】。</p>
<h3 id="选择性遗忘智能体记忆的核心难题">选择性遗忘:智能体记忆的核心难题</h3>
<p>肖涵借用生物类比,指出人脑的记忆是分层的:新概念先由前额叶皮层判断是否值得记忆,海马体负责编码,睡眠会强化记忆,最终长期技能被“烧录”到新皮层【7†source】。他“强行”将这一过程映射到 AI:海马体对应 RAG 的实时检索,新皮层对应模型的微调或预训练,前额叶则对应当前的上下文窗口【7†source】。关键的问题是:<strong>何时该遗忘?</strong> 人类会遗忘旧事,但当前智能体系统往往<strong>只增不减</strong>,缺乏遗忘机制【7†source】。肖涵引用 Andrej Karpathy 的话说:“现在 Agent 系统都有一个最致命的问题,就是它不会选择性遗忘”【7†source】。如果系统不做遗忘,记忆库最终会被噪声淹没,Agent 被自己的历史拖垮【7†source】。目前的智能体记忆存在三大缺陷:<strong>遗漏</strong>(如 911 示例)、<strong>失真(幻觉)</strong>和<strong>幻觉继承</strong>【7†source】。有趣的是,这导致了一个<strong>冷启动悖论</strong>:用户刚开始使用一个全新 Agent 时,对其期待低,反而感觉使用体验不错;但随着时间推移,用户期待 Agent 越来越聪明,但由于缺乏有效的记忆管理,Agent 的表现却每况愈下,用户留存时间很短,信任被长期蚕食【7†source】。整个行业的节奏正被记忆问题拖住【7†source】。</p>
<h2 id="主流智能体记忆产品分类与工作流">主流智能体记忆产品分类与工作流</h2>
<p>肖涵梳理了市面上十余款智能体记忆产品(开源与闭源),将它们按“真相源(Source of Truth)”所在划分为三大类【7†source】:</p>
<div class="component-group">
<ul>
<li><strong>数据库派</strong>:以向量数据库、SQL、键值存储等为核心。对话经过 LLM 提取事实后,存入向量库或知识图谱,检索时注入上下文。优点是结构化程度高、查询效率好,但“一条记忆应该长什么样”被 Schema 锁死,灵活性有限【7†source】。</li>
<li><strong>文件派</strong>:以 Markdown、纯文本等文件为记忆载体。Agent 读文件、工作、写回文件,不断累积。优势是透明可编辑、可版本化,缺陷是文件会膨胀,需要“智能遗忘”机制【7†source】。典型代表是“小龙虾”(OpenClaw)和 MemSearch【7†source】。</li>
<li><strong>模型派</strong>:将记忆的真相直接存于大模型权重或上下文中。模型自行决定记什么、忘什么、如何整合。优势是零配置、自适应,但完全黑盒、不可审计【7†source】。代表是 Letta 和 ChatGPT【7†source】。</li>
</ul>
</div>
<h3 id="主流记忆工作流共识">主流记忆工作流共识</h3>
<p>尽管流派不同,肖涵总结出目前主流智能体记忆框架在工作流上已形成高度共识【7†source】:</p>
<div class="component-group">
<ol>
<li><strong>记忆提取</strong>:从聊天记录中通过大模型提取事实或记忆结构【7†source】。</li>
<li><strong>记忆存储</strong>:将提取的记忆结构转化为向量、知识图谱或时序数据库存储【7†source】。时序性尤为重要,因为需要支持基于时间的遗忘策略【7†source】。</li>
<li><strong>混合检索</strong>:基于向量、图谱和时序数据库做混合检索,并使用 RRF(倒数秩融合)融合、MMR(最大边际相关性)去重、时间衰减排序等策略【7†source】。</li>
<li><strong>冲突解决与衰减</strong>:检索结果需解决两个关键问题:<strong>记忆冲突</strong>(当检测到两条记忆相互矛盾时如何取舍)和<strong>时间衰减</strong>(旧记忆权重如何降低)【7†source】。</li>
</ol>
</div>
<h3 id="典型产品案例分析小龙虾的文件派记忆">典型产品案例分析:小龙虾的文件派记忆</h3>
<p>肖涵以“小龙虾”(OpenClaw)为例,详细拆解了文件派记忆的架构【7†source】。小龙虾的记忆真相源是一个按天组织的 Markdown 日记文件夹,以及一个长期记忆文件 <code>memory.md</code>(存用户画像等长期信息)和一个“灵魂画像”文件 <code>soul.md</code>(存 Agent 自身的元信息)【7†source】。从这些真相源派生出两个索引:SQLite FTS5(用于 BM25 关键词检索)和 LanceDB(用于向量检索)【7†source】。在索引之上做混合检索,使用 RRF 融合、MMR 去重,并加入时间衰减排序【7†source】。对外暴露 <code>memory_search</code> 和 <code>memory_get</code> 两个接口【7†source】。此外,小龙虾还模仿人类的睡眠机制,设置了“深度睡眠、浅度睡眠、REM”三阶段,通过阈值和条件控制,不是所有记忆都升级为长期记忆,而是模拟遗忘过程【7†source】。</p>
<h2 id="模型派记忆将真相交给模型本身">模型派记忆:将“真相”交给模型本身</h2>
<p>肖涵表示,他个人更看好的方向是<strong>模型派</strong>记忆【7†source】。随着 Transformer 架构的演进,也许到某个点,Transformer 本身就能解决记忆问题,实现“大力出奇迹”的<strong>The Bitter Lesson</strong>【7†source】。目前已有趋势显示,上下文窗口在不断扩大。例如,千问 3.5 的 MoE 模型可扩展到 1M token,在 24G 显存的 GPU 上流畅运行;如果 Agent 的全部记忆能被压缩并直接装进 1M 窗口,那么或许就不需要复杂的分层设计,直接用模型本身做召回【7†source】。另一家初创公司 EverMind AI 已将上下文推到了 100M token,并在注意力机制上做了特殊设计(MSA,Memory Sparse Attention),以保证在超长上下文下仍有良好的召回效果【7†source】。</p>
<h2 id="智能体记忆的评估与未来展望">智能体记忆的评估与未来展望</h2>
<h3 id="评估基准从longmemeval到memoryarena">评估基准:从LongMemEval到MemoryArena</h3>
<p>学术圈已推出多个基准来评估智能体记忆系统,肖涵列举了几个代表性的【7†source】:</p>
<div class="component-group">
<ul>
<li><strong>LongMemEval</strong>:包含 500 道题,评估信息提取、多轮推理、知识更新、时序推理和安全拒答五大能力【7†source】。</li>
<li><strong>MABench</strong>(ICLR 2026):评估精确检索、测试时学习、长程理解、冲突解决【7†source】。</li>
<li><strong>MemoryArena</strong>:评估多轮对话中的记忆表现【7†source】。</li>
<li><strong>EverMemBench</strong>:首个多方协作场景下的基准,包含 100 万+ token【7†source】。</li>
<li><strong>清华 MemoryBench</strong>:首个基于用户反馈的持续学习基准【7†source】。</li>
</ul>
</div>
<p>这些基准揭示了当前记忆系统面临的普遍挑战:上下文越长,记忆效果越差;多会话推理和冲突解决仍然是极难的问题【7†source】。EverMind AI 提出的问题也值得深思:当前所有记忆系统都假设 Agent 是一对一的助手,但如果把 Agent 放入一个群聊,它该记住谁的、如何分别记忆每个人的信息?【7†source】</p>
<h3 id="智能体记忆的未来趋势">智能体记忆的未来趋势</h3>
<p>肖涵最后分享了他对智能体记忆未来趋势的几点判断【7†source】:</p>
<div class="component-group">
<ol>
<li><strong>统一范式尚未形成</strong>:当前智能体记忆领域百花齐放,就像 2017 年 Transformer 出现前的深度学习,各种架构(CNN、RNN、LSTM)并存,尚未出现统一范式【7†source】。</li>
<li><strong>纯文本派是“躺平”</strong>:一些方案完全不构建模型或层级,只靠 Grep、关键词搜索,这相当于躺平。这种做法有天花板,而且天花板显而易见【7†source】。</li>
<li><strong>Unlearning 是一笔多年的技术债,该还了</strong>:所有系统都是只增不减,这是一笔长期的技术债。2009 年他做机器学习时就讨论过“机器遗忘(Machine Unlearning)”问题,即如何让已训练的模型忘掉某些数据,但至今没有完美解决方案【7†source】。推荐系统一旦被污染(如刷抖音刷废了号),无法恢复,本质上也是因为不会遗忘【7†source】。</li>
<li><strong>推荐系统会因智能体记忆重新火起来</strong>:智能体记忆的核心是个性化——记住用户偏好、行为模式、历史决策,这与推荐系统做了二十年的事完全一样【7†source】。那些在推荐系统领域深耕的公司(如小红书、抖音、淘宝),凭借经验和优势,可能在智能体记忆时代再次崛起【7†source】。</li>
</ol>
</div>
<p>肖涵的演讲为现场听众勾勒出了智能体记忆的发展脉络和未来走向:从搜索范式的六次跃迁,到当前记忆系统的架构分类与工程取舍,再到评估基准的挑战与行业共识,他强调了一个核心观点——<strong>在 2026 年,做 AI 搜索,本质上就是在做智能体的记忆系统</strong>【7†source】。随着 Agent 能力的提升和任务的复杂化,记忆不再是可选项,而是决定 Agent 能否持续、高效、可靠运行的关键命门【7†source】。未来,谁能在智能体记忆的统一范式、遗忘机制和跨模型迁移等难题上取得突破,谁就能在 AI 2.0 时代占据先机。</p>
</div>
</body>
</html>
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!