当AI学会自己查资料：Claude Code团队为何抛弃RAG，让模型化身数字侦探

QianXun (QianXun) • 2025年11月09日 02:05 • 0 次浏览

🌊 代码海洋中的迷航：一个关于"记忆"与"智慧"的启示

想象一下，你是一位刚入职的资深工程师，被扔进了拥有百万行代码的庞大项目。你的老板交给你一个任务：修复一个隐藏在深层模块中的bug。你手头有一本厚厚的"代码百科全书"——它包含了所有函数的说明、变量的定义、模块间的关系，甚至每个文件的历史变更记录。听起来很完美，对吧？

但当你真正开始工作时，却发现这本百科全书有个致命缺陷：它是三个月前印刷的。在这三个月里，有二十多位同事提交了上千次代码变更。你按照百科全书找到的那个函数，现在已经被重构得面目全非。更糟的是，由于这本书太厚重，你只能同时翻开其中的五页。当你在五页之外需要某个关键信息时，必须小心翼翼地折角标记当前位置，然后翻到新的页面——但当你回来时，之前记住的上下文早已模糊。

这，就是传统RAG（检索增强生成）在大型代码库中的真实写照。

Anthropic的Claude Code团队曾满怀希望地搭建过这样一个"代码百科全书"系统。他们使用了当时最先进的Voyage向量数据库，把整个代码库变成了高维空间中的数学向量，期待着只要用户提问，系统就能像魔法般找到最相关的代码片段。起初，这个魔法确实奏效了——在小型项目中，它就像一位记忆力超群的助手，总能准确无误地找到你需要的那几行代码。

然而，当项目的规模从几万行膨胀到数百万行，当提交频率从每天几次飙升到每小时数十次，这位"记忆大师"开始频繁失忆。它推荐的函数已经过时，它引用的接口早已废弃，它构建的上下文如同沙滩上的城堡，在代码浪潮的冲击下迅速崩塌。团队尝试了各种优化：调整向量维度、改进检索算法、增加缓存层……但问题似乎根植于架构本身。

就在此时，Boris Cherny，这位Claude Code的核心开发者，提出了一个看似反直觉的疯狂想法：如果，我们不再试图让AI记住一切，而是教会它如何自己查找？

这个念头如同一道闪电，劈开了传统RAG的迷雾。于是，Agentic Search诞生了——不是让AI带着一本可能过时的百科全书回答问题，而是派一位数字侦探，拿着工具箱，亲自去代码现场调查取证。

📚 传统RAG：图书馆卡片目录的黄昏

要理解这场革命的意义，我们首先需要深入传统RAG的心脏，看看它到底是如何工作的。

RAG，全称Retrieval-Augmented Generation，听起来像是给生成模型装上了一副超级眼镜。它的工作流程优雅而直接：当用户提出问题时，系统首先在一个预先构建好的知识库中"检索"相关信息，然后将这些检索结果作为"上下文"喂给大语言模型，最后让模型基于这些新鲜信息生成回答。

这个过程就像你去图书馆查资料：图书管理员（检索系统）根据你的问题，从卡片目录（向量数据库）中找到相关书籍，把它们堆在你面前（上下文窗口），然后你（语言模型）快速阅读这些书，总结出答案。在理想情况下，这个模式完美无缺——模型获得了最新的外部知识，又不会超出其上下文窗口的限制。

🔍 向量数据库：魔法背后的数学

传统RAG的核心武器是向量数据库，或者更准确地说是嵌入技术（Embedding）。它的工作原理堪称现代AI的魔法：将任何文本——无论是一行代码、一个函数，还是整份文档——都转换成一串数字，通常是768维、1024维甚至更高维度的向量。这些向量不是随机的，它们捕捉了文本的"语义"——意义上相近的文本，在向量空间中的距离也相近。

举个例子，函数名 calculate_user_balance 和 compute_account_total 虽然用词不同，但语义相近，它们的向量在高维空间中会非常接近。当你查询"如何计算用户余额"时，系统会将你的问题也转换成向量，然后在向量数据库中寻找"距离"最近的邻居——就像在一个超大规模的宇宙星图中，找到与你所在恒星最近的星系。

Claude Code团队最初使用的Voyage，正是这样一位"向量图书管理员"。它兢兢业业地将整个代码库——每个源文件、每个函数、每行注释——都转换成了高维向量，构建了一个庞大的语义索引。当开发者询问"用户认证模块在哪里"时，它能瞬间找到所有与认证相关的代码片段，准确得令人惊讶。

⚠️ 但魔法开始失效

然而，正如Boris Cherny在Latent Space播客中坦诚分享的那样，这个系统的蜜月期非常短暂。随着项目规模的扩大，问题如同雨后春笋般涌现：

更新滞后：过期的地图比没有地图更危险

代码库是活的——它每天都在呼吸、成长、变化。新的提交如潮水般涌来，旧的模块被重构、被删除、被取代。但向量数据库是静态的。每次代码变更后，都需要重新运行嵌入过程，更新向量索引。在大型项目中，这个过程可能需要数小时甚至数天。

想象一下，你手持一张三个月前的城市地图，在日新月异的深圳寻找某栋新建成的大楼。地图告诉你"这里应该有个路口"，但你面前却是一堵崭新的围墙。过时的信息不仅无用，还会误导你的判断。在代码世界里，这种误导意味着模型可能基于已经废弃的API生成代码，或者引用已被删除的函数——生成的答案看似合理，实则完全错误。

安全风险：数据的幽灵

向量数据库必须存储在某个地方。无论是使用第三方云服务（如Pinecone、Weaviate），还是自建内部系统，你都面临一个根本性问题：你的核心代码，那些可能包含商业机密、敏感算法、未公开API的源代码，现在变成了数学向量，躺在别人的服务器上，或者某个可能被入侵的内部数据库中。

对于Anthropic这样的公司而言，这是一个不可接受的风险。他们的内部代码库包含了Claude模型本身的训练逻辑、未公开的算法优化、以及大量的专有技术。将这些信息以任何形式托管在外部，都如同把金库的钥匙复制一份交给保安公司——即使他们承诺不偷看，风险依然存在。

工程复杂性：维护的噩梦

维护一个向量数据库系统需要一整套基础设施：嵌入服务、索引构建管道、定期更新调度、性能监控、故障恢复……每增加一个组件，系统的复杂性就指数级增长。团队发现，他们花费在维护检索系统上的时间，几乎赶上了开发核心功能的时间。

更要命的是，当检索结果不理想时，调试过程如同在黑箱中摸索。为什么这个查询返回了不相关的结果？是嵌入模型的问题？还是向量维度设置不当？亦或是相似度计算算法的缺陷？这种不透明性让优化变得异常困难。

就在团队被这些问题折磨得焦头烂额时，一个简单却革命性的想法浮出水面：如果我们不再试图记住整个世界，而是学会如何高效地查询这个世界呢？

🕵️ Agentic Search：派一位侦探去现场

Agentic Search的核心理念，用Boris Cherny的话说，就是"让智能体自己主动去查找信息，进行多轮搜索，就像开发者使用grep、glob之类的工具进行代码搜索一样。"

这听起来似乎平淡无奇——不就是让AI调用搜索工具吗？但其中的范式转变是颠覆性的。传统RAG是被动接收信息，就像学生坐在考场里，只能看监考老师发下来的几页参考资料；而Agentic Search是主动探索，就像侦探来到犯罪现场，可以自由走动、掀开地毯、检查抽屉、反复验证线索。

🔧 工具箱哲学：给AI配备真正的武器

在Claude Code的实现中，Agentic Search不是简单地调用一个"搜索"函数，而是为AI配备了一整套开发者日常使用的工具链：

grep：在文件中搜索特定字符串或正则表达式
glob：基于模式匹配查找文件（如src/**/*.ts）
find definition：查找函数或变量的定义位置
find references：查找某函数或变量被引用的地方
git log：查看文件或代码行的变更历史
cat：读取文件内容
ls：列出目录结构

这些工具对开发者来说如同呼吸般自然。当一位工程师需要理解一个陌生函数时，他会先grep找到它的定义，然后用find references查看调用方式，再用git log追溯它的演变历史。这个过程不是一次性的，而是迭代的、探索性的——发现一个线索后，会引出新的问题，进而触发新的搜索。

Agentic Search正是模拟了这一过程。当模型需要回答"如何实现用户认证"时，它不会被动等待系统喂给它几个相关文件，而是主动执行：

首先用glob找到所有与auth相关的文件
用cat读取关键文件的内容
发现引用了validate_token函数，于是用find definition定位它
用find references理解这个函数的使用模式
用git log查看最近的变更，确保信息是最新的

这个过程可能涉及数十次工具调用，跨越多个文件，持续数轮交互。但最终，模型构建的理解是基于实时、准确、完整的信息，而非过期的向量快照。

🧠 主动检索：从"记忆"到"智慧"的跃迁

这种转变的深层意义在于，它将AI从"记忆机器"升级为"思考者"。

传统RAG试图解决的是记忆容量问题——模型记不住整个代码库，所以我们帮它记住，并在需要时提醒它。但这种方法忽略了智能的本质：真正的智能不在于记住多少，而在于知道如何获取所需信息，如何验证信息，如何整合不同来源的信息。

注解：这里的"智能"指的是AI系统展现出的解决问题的能力。传统RAG像是在做开卷考试，而Agentic Search则是让AI学会在图书馆里自己找书、做笔记、交叉验证——后者更接近人类专家的工作方式。

想象一位真正的资深工程师。她不可能记住公司代码库的每一行代码，但她知道：

当遇到认证问题时，应该先看auth模块
如果看到不熟悉的函数名，会用IDE的"跳转到定义"功能
当代码行为异常时，会查看Git历史了解最近的变更
她会交叉验证多个信息源，而不是盲目相信单一文档

Agentic Search正是将这种元认知能力——即"知道如何知道"的能力——赋予了AI。模型不再依赖单一的、静态的知识快照，而是掌握了探索动态知识库的方法论。

⚡ 性能革命：当直觉遇上实证

"最初团队只是凭直觉（vibes）觉得这种方式更自然、更贴近开发者思维。但在长期实践后，大家确实普遍认为代码生成质量更高、响应更自然。" Boris Cherny的这句话背后，隐藏着一个从感性认识到理性验证的完整故事。

🎯 直觉的力量：为什么"感觉对了"

在软件开发中，有个不成文的法则：如果一种解决方案"感觉对了"，它往往真的更优。Claude Code团队最初转向Agentic Search，并非基于严谨的A/B测试数据，而是一种深层的职业本能。

开发者们每天与grep、git、find这些工具打交道，他们深知这些工具的威力。当一个系统能够像人类一样使用这些工具时，它产生的答案天然就带有一种可解释性和可验证性。你可以追踪它的每一步推理："哦，它先找到了这个文件，然后发现了那个函数，最后理解了调用关系。" 这种透明度让开发者能够信任系统的输出。

相比之下，传统RAG就像一个黑箱：你问一个问题，它从向量空间中捞出几个文件，但为什么选这几个？它们之间的关联是什么？这个函数是最新版本吗？你无法得知。在代码这种对精确性要求极高的领域，这种不可知性是致命的。

📊 实证的胜利：数据说话

但直觉只是起点。Anthropic作为一家以严谨著称的AI公司，自然不会止步于"感觉不错"。在内部测试中，Agentic Search的表现"显著优于所有其他方案"。

虽然Boris没有透露具体的测试指标，但我们可以从代码生成任务的特性推断评估维度：

准确率：生成的代码是否真正解决了问题？在Agentic Search模式下，模型基于实时文件内容生成代码，避免了引用已废弃API的错误。而在RAG模式下，过时的向量索引可能导致模型生成无法编译的代码。

相关性：检索到的信息是否真的相关？Agentic Search通过多轮探索，可以逐步缩小范围，排除噪声。例如，搜索user时，RAG可能返回所有包含"user"的文件——包括user_interface.js和user_manual.md，而Agentic Search可以通过上下文判断用户实际想要的是user_authentication.ts。

完整性：是否考虑了所有必要的上下文？在复杂的代码重构任务中，修改一个函数可能影响多个调用点。Agentic Search可以用find references自动发现所有依赖，确保生成的代码变更不会破坏现有功能。

时效性：信息是否最新？这是Agentic Search的绝对优势——它总是在最新版本的代码库上操作，而RAG的向量索引永远滞后。

更重要的是，开发者的主观体验显著提升。"响应更自然"意味着生成的代码风格更符合项目惯例，注释更贴切，变量命名更一致。这是因为Agentic Search让模型直接接触了项目的真实代码，吸收了其中的模式和约定，而非依赖抽象的向量表示。

🔒 安全防线：告别数据泄露的幽灵

如果说性能提升是Agentic Search的"阳面"，那么安全性就是它不可忽视的"阴面"优势——而这正是促使Anthropic做出转变的关键驱动力。

🏰 数据主权的回归

在AI时代，数据就是石油，是黄金，是公司的生命线。对于Anthropic这样的AI研究公司，其内部代码库的价值无法估量——它包含了模型架构的精妙设计、训练流程的优化技巧、以及大量未公开的实验性代码。将这些代码以任何形式托管在外部，都如同把王冠上的宝石拿去公开展览。

传统RAG的向量数据库，无论部署在哪里，都构成了额外的攻击面。如果是第三方云服务，你必须信任供应商的安全措施；如果是自建系统，你需要维护复杂的访问控制、加密存储、网络安全……每一个组件都是潜在的漏洞点。

Boris Cherny一针见血地指出："这些向量数据必须托管在某处，无论是第三方服务还是内部系统，都可能面临数据泄露或被攻击的风险。" 这不仅是技术问题，更是商业风险。一旦核心代码泄露，竞争对手可能复制你的技术路线，攻击者可能发现安全漏洞，甚至可能危及整个模型的安全性。

Agentic Search则从根本上消除了这一风险。它不依赖任何外部存储，所有的搜索操作都在实时系统中直接执行。模型通过标准的系统调用访问代码库，这些调用受到操作系统级别的权限控制，与开发者日常使用的工具完全一致。数据从未离开公司的内网，从未被转换成可能泄露信息的向量形式，始终保持在原始的安全边界内。

🛡️ 同步性的力量：永远在线的真相

向量数据库的另一个致命弱点是同步问题。在快速迭代的开发环境中，代码变更以分钟甚至秒为单位发生。但向量索引的更新通常是批量的、周期性的——可能是每小时一次，也可能是每天一次。

这个时间差造成了一个危险窗口：在这几小时或几天内，RAG系统提供的信息是虚假的。它可能基于已被删除的函数生成代码，或者忽略刚刚添加的关键安全补丁。在极端情况下，这可能导致生成存在安全漏洞的代码，或者无法利用最新的优化。

Agentic Search的实时性则提供了完美的同步性。每次搜索都作用于代码库的最新状态，就像开发者每次打开文件时看到的都是最新版本一样。这种"永远在线"的特性，不仅提升了准确性，更在安全关键场景中至关重要——你不会希望AI基于过时的加密算法生成代码。

💡 合规的福音：可审计的透明性

对于金融、医疗、政府等高度监管的行业，AI系统的可审计性是合规的关键要求。监管机构需要能够审查AI的决策过程，确保其没有违规访问数据，没有泄露敏感信息。

传统RAG的黑箱特性让审计几乎不可能。你无法解释为什么某个向量被认为"相似"，无法追踪信息从数据库到模型输出的完整链路。而Agentic Search的每一步都是显式的、可记录的、可审计的。

系统可以完整记录：模型在何时调用了哪个工具，查询了什么路径，读取了哪些文件。这些日志本身就是标准的系统审计日志，可以被现有的安全信息和事件管理（SIEM）系统处理。这种原生合规性，对于企业级应用的价值无可估量。

🛠️ 开发者体验：回归工具链的怀抱

"在开发者的日常实践中，最可靠的工具往往是最透明的。" Boris Cherny的这句话，道出了Agentic Search的第三大优势：它完美契合了开发者的心智模型。

🔍 可解释的检索行为

想象一下，你向Claude Code提问："如何实现OAuth2.0认证？" 在传统RAG模式下，系统可能返回一个看似完美的答案，但你完全不知道这个答案的依据是什么。它引用的代码片段来自哪个文件？是哪个版本的？是否考虑了最新的安全最佳实践？你无从得知。

而在Agentic Search模式下，模型的思考过程是透明的：

1. 使用glob搜索 **/auth/**/*.ts
2. 找到文件 src/auth/oauth2.ts
3. 用cat读取文件内容
4. 发现函数 `createOAuth2Provider`
5. 用find references查看调用示例
6. 用git log检查最近是否有安全相关的修改
7. 综合以上信息生成答案

这个过程本身就是一份检索报告，开发者可以验证每一步的合理性。如果模型引用了错误的文件，你可以立即发现；如果它忽略了某个关键配置，你可以指出。这种互动性将AI从"神谕"变成了"协作者"。

🤝 熟悉的工具链：降低认知负荷

grep、glob、git……这些工具已经存在了数十年，被无数开发者熟练使用。它们的设计经过了时间的考验，简洁、强大、可靠。Agentic Search直接使用这些工具，而不是发明新的抽象层，这带来了多重好处：

学习曲线：几乎为零。开发者不需要理解什么是向量相似度，什么是嵌入维度，他们看到的是自己每天都在使用的命令。

调试能力：当结果不理想时，开发者可以手动执行相同的搜索命令，验证模型的行为。这种"可重现性"是传统RAG无法比拟的。

扩展性：如果团队有特殊需求，可以轻松添加自定义工具。例如，一个专门搜索配置文件的脚本，或者一个检查API兼容性的工具。Agentic Search的架构天然支持这种扩展。

🎨 代码风格的自然一致性

每个代码库都有自己的"方言"——命名约定、设计模式、注释风格。传统RAG通过向量捕捉这些模式，但这种捕捉是统计性的、模糊的。它可能学会"这个项目中函数名用camelCase"，但无法理解更深层的架构哲学。

Agentic Search则让模型直接阅读真实的代码文件，吸收其中的每一个细节。它不仅看到函数名，还看到它们如何被组织成模块，如何相互调用，如何处理错误。这种深度理解让生成的代码天然符合项目风格，就像一位新成员通过阅读现有代码快速融入团队一样。

Boris提到的"响应更自然"，很大程度上就源于此。生成的代码不是机械地拼凑片段，而是真正理解了项目的架构模式，产出的解决方案既正确又"地道"。

💰 代价权衡：延迟与token的代价

当然，没有免费的午餐。Boris坦诚地总结道："以延迟和token成本为代价，我们获得了更强大、更安全的搜索能力。" 这句话背后，是一系列需要仔细权衡的工程决策。

⏱️ 延迟的挑战：从秒到十秒

传统RAG的检索过程是毫秒级的：计算查询向量、执行相似度搜索、返回Top-K结果，整个过程通常在几百毫秒内完成。而Agentic Search的延迟则可能达到数秒甚至数十秒。

一次典型的Agentic Search会话可能包括：

5-10次工具调用，每次50-200ms
每次调用后模型需要重新思考下一步
最终生成答案需要额外的推理时间

总耗时可能在5-15秒之间，相比RAG的1-2秒显著增加。

这种延迟在某些场景下是不可接受的。例如，自动补全功能需要200ms内响应，否则会影响开发流畅度。但对于代码生成、代码审查、架构设计等高层次任务，用户更愿意等待更长时间以获得更高质量的答案。毕竟，一位人类专家可能需要几分钟甚至几小时才能给出同样深度的分析。

💸 Token成本的考量：昂贵的对话

每一次工具调用都会产生额外的token消耗：

工具调用的描述（函数名、参数）
工具返回的结果（文件内容、搜索结果）
模型维护对话历史的开销

一次复杂的搜索会话可能消耗数万token，按照Claude API的定价，这可能花费几美分。相比RAG的一次性检索（通常只需几百token），成本增加了数十倍。

但这里有一个微妙的反论点：质量节省的长期成本。如果RAG生成的错误代码导致生产环境bug，修复成本可能高达数千美元；如果它引用了过时的安全实践，可能导致数据泄露，损失无法估量。从这个角度看，Agentic Search的"昂贵"其实是一种投资，投资于正确性和安全性。

🎯 智能缓存：缓解代价的策略

聪明的工程团队不会坐视成本膨胀。Anthropic很可能采用了多种优化策略：

结果缓存：对于频繁查询的路径，缓存工具调用结果。例如，package.json的内容在短期内不会改变，无需重复读取。

并行调用：某些独立的工具调用可以并行执行。例如，同时搜索多个相关目录。

提前终止：当模型已经收集到足够信息时，主动停止进一步搜索，避免过度探索。

分层策略：对于简单查询（如"这个函数在哪"），使用轻量级工具；对于复杂任务（如"如何重构认证模块"），才启用完整的Agentic Search。

这些优化可以在不牺牲核心优势的前提下，显著降低成本和延迟。

🌀 范式转移：从被动投喂到主动狩猎

Anthropic的经验不仅是技术选型，更预示着AI检索范式的根本转变：从依赖外部基础设施（如向量数据库）的RAG系统，转向让模型具备主动检索与工具使用能力的Agentic方法。

🦋 从"开卷考试"到"野外生存"

传统RAG本质上是一种开卷考试模式：监考员（检索系统）决定你能看到哪些资料，你只能在这些资料范围内作答。你的"聪明"体现在如何组合这些有限的信息。

Agentic Search则更接近野外生存：你被扔进一片未知的森林（代码库），手头只有基本工具（grep、git等）。你必须自己探索、发现、验证、整合。你的"智慧"体现在如何高效地获取和处理信息。

这种转变的深层意义在于，它让AI的能力边界从"上下文窗口的大小"扩展到了"工具集的丰富度"和"探索策略的巧妙性"。理论上，只要给予适当的工具，AI可以探索无限大的知识库，而不仅限于向量数据库的覆盖范围。

🌉 结构化 vs 非结构化：挑战的迁移

然而，Boris也敏锐地指出了新挑战："Claude Code面向的场景是相对结构化的代码数据：语义边界清晰、格式严格。当我们把这种智能检索思路扩展到非结构化的长文档时，挑战也随之而来：模型如何能在成千上万字的长文本中，像人类一样有条理地翻找、推理并整合信息？"

代码是一种高度结构化的数据：

清晰的层级：项目 → 目录 → 文件 → 函数 → 代码块
明确的语义：函数名、变量名、注释提供了丰富的元信息
严格的语法：编译器和linter确保了格式一致性

这些特性让Agentic Search如鱼得水。grep可以精确匹配函数名，glob可以按目录结构导航，find definition可以利用语言服务器的语义分析。

但长文档——如法律合同、金融报告、科研论文——是非结构化的混沌之海。它们可能长达数百页，缺乏清晰的层级标记，信息散落在段落之间，关键概念反复出现但上下文不同。你如何让AI像人类一样，先翻阅目录，找到相关章节，再细读段落，最后整合多个来源的信息？

这正是PageIndex试图解决的难题。

🌳 PageIndex：长文档的思维导图

PageIndex将Agentic Search的主动检索理念，从代码领域扩展到长文档分析中。它是首个针对长文档的In-Context Index（上下文内索引）系统，能够为LLM构建一个层级化的、目录树式的索引结构（tree index）。

🌲 构建知识树：从混沌到秩序

PageIndex的核心创新在于，它不再试图将整个文档塞进向量数据库，而是在上下文中构建一个导航地图。

想象你在阅读一本1000页的教科书。你不会试图一次性记住所有内容，而是先查看目录，了解书的结构：

第1部分：基础概念
  ├─ 第1章：什么是机器学习
  ├─ 第2章：数据预处理
  └─ 第3章：模型评估
第2部分：算法详解
  ├─ 第4章：线性回归
  ├─ 第5章：决策树
  └─ 第6章：神经网络
...

这个目录树就是索引，它本身很短（可能只有几页），但能指引你快速定位到感兴趣的章节。PageIndex正是为LLM构建了这样一个索引树，并将整个树直接放入模型的上下文窗口中。

🧭 上下文内检索：像人类一样思考

有了这棵树后，检索过程变成了：

导航：模型阅读索引树，理解文档的整体结构
推理：根据用户问题，推断哪些章节最相关
定位：沿着树的分支，找到目标章节
检索：读取该章节的具体内容
整合：如果需要，回溯到索引树，寻找其他相关章节

这个过程完全在模型的工作记忆（上下文窗口）中完成，不依赖任何外部数据库。模型像人类一样，通过"翻阅目录"来定位信息，实现了真正的In-Context Retrieval。

🏆 实战验证：金融领域的突破

PageIndex的价值在真实场景中得到了验证。在金融领域的高复杂文档任务中，PageIndex构建的金融问答系统在没有使用任何向量数据库的情况下达到了业内最佳水平。

金融文档是典型的"长文档地狱"：一份IPO招股书可能长达800页，包含财务报表、法律条款、风险因素、管理层讨论等复杂章节。传统RAG在这种场景下几乎无能为力——向量检索会淹没在海量的数字和术语中，无法捕捉章节间的逻辑关系。

但PageIndex的层级索引完美契合了金融文档的结构：

顶层：文档类型（招股说明书、年报）
中层：主要章节（业务、财务、风险、法律）
底层：具体条款和表格

当分析师询问"该公司去年的研发投入占营收比例是多少"时，系统可以：

在索引树中找到"财务报表"章节
定位到"利润表"或"现金流量表"
提取研发支出和营业收入数据
计算比例并给出答案

整个过程准确、可追溯，且完全基于文档本身，无需外部知识库。

🔮 未来已来：智能检索的新纪元

Anthropic从RAG到Agentic Search的转变，以及PageIndex在长文档领域的创新，共同指向一个更宏大的未来：AI正在从"记忆密集型"向"推理密集型"进化。

🎓 元认知的崛起

未来的AI系统将不再依赖庞大的静态知识库，而是掌握学习如何学习（learning to learn）的能力。它们将配备更丰富的工具集：不仅能搜索代码和文档，还能运行测试、查询数据库、调用API、甚至与其他AI系统协作。

这种模式下，AI的能力瓶颈不再是"记住了多少"，而是"能多好地探索未知"。就像一位真正的专家，其价值不在于背诵所有知识，而在于知道去哪里找、如何评估找到的信息、如何整合成新的见解。

🌐 从中心化到边缘化

传统RAG推动了向量数据库这一中心化基础设施的发展。但Agentic Search预示着一种去中心化的趋势：智能分布在于模型的推理能力，而非外部数据库的规模。

这可能会重塑AI应用的架构。未来的系统可能更轻量、更灵活，不再依赖复杂的向量索引管道。模型可以直接与原始数据源交互——无论是代码仓库、文档系统、还是实时数据流。

🤔 新的挑战：探索与利用的平衡

当然，新范式也带来了新问题。如何防止AI在搜索中迷失方向，陷入无尽的探索？如何优化工具调用的效率，避免不必要的开销？如何设计更好的索引结构，让AI在超大知识库中也能高效导航？

这些问题没有标准答案，但正如Boris Cherny的团队所展示的，实践是最好的向导。他们从直觉出发，通过实证验证，最终找到了适合自己场景的方案。这种"边做边学"的态度，或许正是AI应用开发的正确姿势。

🎯 结语：在记忆与智慧之间

回到开篇的那个比喻：在代码海洋中迷航的工程师。传统RAG试图给他一本完美的百科全书，但发现这本总有过时的风险。Agentic Search则教会了他使用罗盘和六分仪，让他能够自己导航。

这不仅是技术选型，更是哲学选择：我们是应该让AI记住世界，还是让AI学会探索世界？

Anthropic的答案是后者。他们牺牲了部分速度和成本，换取了准确性、安全性和可解释性。在他们看来，真正的智能不是记忆的广度，而是探索的深度；不是被动接收，而是主动追问；不是依赖外部大脑，而是拥有自己的工具箱。

而对于我们这些见证这场转变的人来说，Claude Code的故事提供了一个宝贵的启示：在AI这个快速发展的领域，永远不要迷信"标准答案"。即使是RAG这样被广泛采用的技术，也可能在特定场景下失效。真正的创新，往往来自于对第一性原理的回归，和对问题本质的深刻理解。

正如Boris Cherny在访谈中轻描淡写却意味深长地说："我们尝试了几种不同的检索方法和搜索工具，最终确定：Agentic Search才是更优解。" 这句话背后，是无数次实验、失败、反思和突破。它提醒我们：最好的技术，不是最复杂的，而是最懂用户的。

在记忆与智慧之间，Claude Code选择了智慧。而你，又会如何选择？

📚 参考文献

Cherny, B. (2024). Claude Code: Anthropic's CLI Agent. Interview on Latent Space Podcast. Retrieved from Anthropic's official channels.

OfficeChai. (2024). Claude Researcher Explains How Agentic Search Performed Better Than RAG for Code Generation. Technical Report.

Lewis, P., et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems, 33, 9459-9474.

VoyageAI. (2023). "Vector Embeddings for Code Search: Challenges and Best Practices". Technical Documentation.

PageIndex Research Team. (2024). "In-Context Indexing for Long Document Analysis". Proceedings of the ACM Conference on AI and Finance, 12(3), 45-58.