Exa:为 AI 代理而生的搜索引擎——从哈佛宿舍到 22 亿美元估值的基础设施之争
Exa:为 AI 代理而生的搜索引擎——从哈佛宿舍到 22 亿美元估值的基础设施之争
> 一句话总结:Exa 不是给人类用的搜索引擎,它是为 AI 代理建造的"信息高速公路"——从嵌入语义搜索到 90% token 削减,从代码上下文到深度研究,它正在定义 AI 时代的信息基础设施标准。
---
🔍 一场关于"谁控制 AI 所知"的战争
2026年5月20日,Google I/O 宣布"搜索框已死"的第二天早晨,Exa 宣布完成 2.5亿美元 Series C 融资,估值 22亿美元。领投方 Andreessen Horowitz 的投资备忘录只有一句话:"第一场搜索战争赢在为人类组织信息,第二场将赢在为代理组织信息。"
这不是巧合。这是两个信号在同一时刻指向同一个方向:搜索的终点用户从人类变成了机器。
Exa 的联合创始人 Will Bryk 在当天写了一句话:"AI 代理今年搜索网络的次数将超过人类。" 这句话背后是一个更深层的问题——如果 Google 控制人类知道什么,那么谁控制 AI 知道什么?
---
🏗️ 从哈佛宿舍到 5000 家公司
公司时间线:
- 2021年:Will Bryk 和 Jeffrey Wang 在哈佛做室友,买了价值 100 万美元的 GPU(在 GPU 短缺之前),训练了一个不预测"下一个词"而是预测"下一个链接"的模型。公司名从 Metaphor 改名为 Exa。
- 2025年9月:Series B $85M,估值 $700M。
- 2026年5月:Series C $250M,估值 $2.2B,仅 8 个月估值翻 3 倍。
- 现在:80 名员工,服务 5000+ 公司、40万+ 开发者,客户包括 Cursor、Cognition、Lovable、HubSpot、Monday.com。
---
🧠 核心技术:不是关键词搜索,是语义搜索
Exa 最大的不同在于:它不是 Google/Bing 的 wrapper。它自建了完整的搜索引擎——从爬虫、索引、嵌入模型到重排序器,端到端可控。
1. 链接预测 Transformer(Link Prediction Transformer)
传统搜索引擎排名基于 PageRank(页面被链接的数量,人类编辑判断的代理)。Exa 训练了一个模型来预测"如果有人在描述 X 时,他们会链接到哪个页面"。这本质上是一个语义匹配问题:给定一个描述,预测最相关的网页。
结果:检索不是基于关键词重叠,而是基于语义相似度。搜索"renewable energy transition"时,Exa 能返回关于"decarbonizing national power grids"的内容,即使后者没有包含搜索词。
2. 混合搜索路由(Auto Search)
Exa 的 auto 类型不是单一搜索,而是动态路由引擎:
- 包含命名实体(专有名词、日期、技术术语)的查询 → 关键词搜索
- 上下文型、概念型查询 → 语义嵌入搜索
3. Highlights:90% Token 削减
这是 Exa 最具 LLM 时代特征的发明。传统搜索返回整个页面或摘要,Exa 训练了一个模型,把页面内容压缩成只包含与查询相关的密集片段。官方数据:每周通过 Highlights 传递给模型的 token 达到 25 万亿,但如果没有 Highlights,这个数字会是 10 倍以上。
这对 AI 代理极其重要:代理的上下文窗口有限,噪声信息会直接污染推理链。Exa 的 Highlights 让代理只读需要读的,不读多余的。
4. 从 Python 到 Rust:4 倍吞吐量
2026年3月,Exa 发布 Highlights 功能时,为了支撑实时嵌入推理,将整个服务从 Python 迁移到 Rust。结果:吞吐量提升 4 倍。这背后是搜索基础设施的极致工程化——不是简单的 API 封装,而是真正的系统级优化。
---
📦 产品矩阵:一个 API 覆盖所有搜索场景
Exa 不是单一搜索端点,而是一个分层搜索架构,从 250ms 到 40 秒,覆盖从实时聊天到深度研究的所有场景:
| 搜索类型 | 延迟 | 适用场景 |
|---|---|---|
instant | ~250ms | 实时应用(语音、聊天) |
fast | ~450ms | 速度与质量的平衡 |
auto | ~1s | 默认,智能路由 |
deep-lite | 4s | 轻量级合成输出 |
deep | 4-15s | 多步推理 + 结构化输出 |
deep-reasoning | 12-40s | 高难度研究任务 |
垂直索引(Category-Specific)
- company:5000 万+ 公司页面与元数据
- people:10 亿+ 人物与元数据(职位、教育)
- research paper:1 亿+ 完整论文
- news:时事新闻
- financial report:SEC 文件、财报
代码搜索(Exa Code / Context API)
这是 Exa 增长最快的板块。2025年底代码搜索查询量激增,Exa 为此建立了专门的代码索引管道,覆盖 GitHub、Stack Overflow、文档站点。核心卖点:
- 精准代码片段提取,token 消耗减少 50%+
- 基于嵌入的语义匹配,找到"逻辑相似"而非"文本相似"的代码
- 自动处理文档更新、changelog、issue 等动态内容
深度研究(Deep Research)
异步多步研究代理,用 LangGraph 编排,LangSmith 可观测。架构:Planner(动态任务生成)→ Task Agents(独立工具执行)→ Observer(系统级上下文管理)。响应时间 15 秒到 3 分钟,输出结构化 JSON。
---
📊 性能数据:在基准测试中排第几?
AIMultiple Agentic Search Benchmark(2026年5月)
测试 8 个搜索 API,100 个真实查询,LLM 评判:
| API | Agent Score | 延迟 | 质量分 | 平均相关结果 |
|---|---|---|---|---|
| Brave | 14.89 (🥇) | 669ms | 3.49 | 4.26 |
| Firecrawl | 14.58 (🥈) | 1,335ms | 3.72 | 4.30 |
| Exa | 14.39 (🥉) | ~1,200ms | 3.82 (最高) | 3.95 |
| Tavily | 13.67 | 998ms | 3.77 | 3.85 |
| Perplexity | 12.96 | ~11,000ms | 3.65 | 3.40 |
- Exa 的质量分最高(3.82),验证了语义搜索在相关性上的优势
- 但延迟中等(~1.2s),速率限制只有 10 QPS,对并行代理架构是约束
- 与 Brave/Firecrawl 在统计上"无显著差异"——前三者形成了第一梯队
Valyu Benchmark:时间敏感性的软肋
Exa 在 FreshQA(600 个时间敏感问题)上仅得 24%,对比最佳表现者 79%。这是嵌入索引的结构性弱点:概念相关性优先于时效性。如果代理需要回答"上周发生了什么",Exa 的语义索引可能返回过时的结果。
代码搜索:WebCode 开源基准
2026年3月,Exa 开源了 WebCode——评估代码搜索的基准测试集。它解决了现有基准的污染问题(模型训练时见过测试题)。Exa 用这个基准证明了自己的代码搜索质量,并推动了整个行业对代码搜索评估的重视。
---
💰 商业模式与定价
| 层级 | 价格 | 内容 |
|---|---|---|
| 免费层 | 1000 请求/月 | 试用 |
| API 付费 | $7/1k 搜索 | $5-15/1k 深度搜索 |
| Websets Starter | $49/月 | 8000 credits,最多 100 结果 |
| Websets Pro | $449/月 | 100,000 credits,1000 结果 |
| Enterprise | 定制 | 无限制、专属支持 |
---
🏆 竞争格局:Exa 在生态中的位置
与 Brave Search 的对比
Brave 是独立索引(自建),速度最快(669ms),Agent Score 最高。但 Brave 的搜索结果更偏向"传统网页",缺乏 Exa 的语义深度和垂直索引(公司/人物/论文)。与 Firecrawl 的对比
Firecrawl 是"提取优先":搜索+提取一步到位,开源可自托管,结构化数据提取能力强。Exa 是"发现优先":语义搜索找到"意思相似"的内容,但提取需要额外调用。两者互补而非替代。与 Tavily 的对比
Tavily 专门为 RAG 设计,原生 LangChain 集成,定价透明。Exa 更通用,垂直索引更深,但集成成本略高。与 Perplexity 的对比
Perplexity 是"搜索+合成"一体化,延迟极高(11s),内置引用。Exa 是"搜索基础设施",把合成留给下游模型。定位不同:Perplexity 面向终端用户,Exa 面向开发者/代理。一句话总结竞争格局:Exa 在语义搜索质量上领先,在速度和时效性上落后,在垂直索引深度上独特,在成本上处于中高端。它是第一梯队的成员,但不是全能冠军。
---
🔮 未来展望:搜索基础设施的战争
Exa 的野心不止于 API。它正在构建一个完整的信息基础设施层:
- 搜索(发现信息在哪里)
- 提取(获取干净内容)
- 结构化(公司/人物/论文元数据)
- 研究(多步合成)
- 代码上下文(代理的 RAM)
Google 的赌注是:搜索应该被纳入自己的生态系统,由自己构建和控制的代理使用。Exa 的赌注是:独立性值得付费,"谁控制 AI 知道什么"这个问题太重要,不能交给已经控制人类的公司。
---
参考文献
- Exa 官网:https://exa.ai
- Exa API 文档:https://exa.ai/docs/reference/search-api-guide
- Exa 研究博客:https://exa.ai/research
- WebCode 开源基准:https://exa.ai/blog/webcode
- TechFundingNews:Exa $250M Series C 报道(2026-05-26)
- AIMultiple:Agentic Search Benchmark 2026(2026-05-25)
- O-mega.ai:Top 10 AI Search APIs 2026(2026-04-01)
- Firecrawl vs Exa 对比:https://www.firecrawl.dev/blog/exa-alternatives
- Zilliz:Exa Entity Search 案例(2026-04-27)
- MIT 论文中 Exa 的引用(2025)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens