你的AI每轮对话都从零开始。SuperMemory 用五层架构和一个核心洞察——"记忆不是RAG"——解决了这个问题。它同时登顶 LongMemEval、LoCoMo 和 ConvoMem 三大基准,85.4% 的准确率让 Mem0 的 49% 相形见绌。更反直觉的是,它的核心引擎并非传统知识图谱,而是一种"vector-graph"混合结构,加上一个叫"dynamic dreaming"的机制。一位19岁的创始人,从开源"second brain"起步,拿到 $29M 融资,正在定义AI基础设施的下一个 Layer。
发布时间: 2026-06-05
来源: SuperMemory AI / Dhravya Shah, 2024-2026
核心论文/博客: https://supermemory.ai/blog/ 系列技术文章
GitHub: https://github.com/supermemoryai/supermemory (21.7K stars)
融资: \(29M (Seed +\)26M)
1. 问题:为什么LLM没有记忆?
每次你打开 ChatGPT,它都不记得昨天聊过什么。这不是 bug,是架构限制——LLM 是 stateless 的,每个 API call 都是独立请求。
业界的临时解决方案:
- 向量数据库:把对话存成 embedding,检索相似内容。快,但蠢——它不知道"我昨天说我是素食者"已经覆盖"我爱牛排"。
- 对话历史压缩:把前几轮对话塞进 prompt。简单,但长对话后 token 爆炸,且无法跨会话。
- 手动 RAG:自己搭一套检索+重排+注入 pipeline。能工作,但维护成本高,且没有个性化。
SuperMemory 的洞察:记忆不是检索。记忆是理解。
2. 五层架构:一个API解决整个 context stack
SuperMemory 把 Connectors、Extractors、Retrieval、Memory Graph、User Profiles 打包成一个 API。不需要自己拼 5-7 个服务。
┌─────────────────────────────────────┐
│ Your App / AI Agent │
└──────────────┬──────────────────────┘
│ single API call
┌──────────────▼──────────────────────┐
│ SuperMemory │
│ ┌──────────────────────────────┐ │
│ │ 01 · Connectors │ │
│ │ Google Drive, Gmail, Notion, │ │
│ │ GitHub, Slack, S3, Webhook │ │
│ └──────────────────────────────┘ │
│ ┌──────────────────────────────┐ │
│ │ 02 · Extractors │ │
│ │ PDFs, OCR, Video Transcription│ │
│ │ Code (AST-aware chunking) │ │
│ └──────────────────────────────┘ │
│ ┌──────────────────────────────┐ │
│ │ 03 · Super-RAG │ │
│ │ Hybrid search (vector+keyword) │ │
│ │ Context-aware reranking │ │
│ └──────────────────────────────┘ │
│ ┌──────────────────────────────┐ │
│ │ 04 · Memory Graph │ │
│ │ Vector-graph engine │ │
│ │ Ontology-aware edges │ │
│ │ Contradiction resolution │ │
│ │ Temporal tracking │ │
│ └──────────────────────────────┘ │
│ ┌──────────────────────────────┐ │
│ │ 05 · User Profiles │ │
│ │ Static facts (always true) │ │
│ │ Dynamic context (episodic) │ │
│ └──────────────────────────────┘ │
└─────────────────────────────────────┘
2.1 Layer 1: Connectors — 数据自动流入
SuperMemory 不是从零开始构建记忆,而是从你已经有的数据开始:
- Google Drive / OneDrive — 文档自动同步
- Gmail — 邮件线程提取
- Notion — 笔记结构化
- GitHub — 代码仓库、issue、PR 上下文
- Slack — 团队对话
- S3 — 任意文件存储
- Web Crawler — 实时网页抓取
关键设计:实时 webhooks。不是批量导入,是数据一变,记忆就更新。这对于"客户信息变了""项目状态更新了"这类场景至关重要。
2.2 Layer 2: Extractors — 多模态内容理解
不只是文本。SuperMemory 处理:
- PDFs — 结构化提取,保留表格和层级
- Images — OCR + 视觉理解
- Videos — 语音转文字 + 时间戳
- Code — AST-aware chunking,不是按行切割,而是按函数/类/模块切割,保留语义边界
这个设计让 agent 能"读"你公司的设计文档、"看"产品截图、"听"会议录音,全部变成可检索的记忆。
2.3 Layer 3: Super-RAG — 混合检索
传统的 RAG 只有一种策略:向量相似度。SuperMemory 的检索是混合的:
- 向量搜索 — 语义相似度,捕获"同义不同词"
- 关键词搜索 (BM25) — 精确匹配,捕获专有名词和术语
- 图遍历 — 沿着关系找关联记忆
- 上下文感知重排 — 不是按相似度排序,而是按"对当前问题的相关性"排序
结果:sub-300ms 的端到端检索时间,包括混合搜索和重排。
对比:
- Zep: ~4 秒
- Mem0: 7-8 秒
- 自搭 RAG pipeline: 450ms+(还不包含 embedding 和重排的网络延迟)
2.4 Layer 4: Memory Graph — 核心技术突破
这是 SuperMemory 区别于所有竞品的核心。
传统知识图谱:(entity, relation, entity) 三元组。"Alex works at Google" → (Alex, works_at, Google)。问题是:查询慢,更新难,规模大了之后遍历成本高。
SuperMemory 的 vector-graph:不是传统图。它是:
- 每个记忆是一个节点(带向量 embedding)
- 关系是 "ontology-aware edges" — 边本身携带语义类型:updates, extends, derives, contradicts
- 所有关系围绕一个中心实体:用户自己
Memory 1: "Alex works at Google as a software engineer"
Memory 2: "Alex just started at Stripe as a PM"
↓
Memory 2 [UPDATES] Memory 1
Memory 3: "Alex is a PM at Stripe"
Memory 4: "Alex frequently discusses payment APIs and fraud detection"
↓
Derived: "Alex likely works on Stripe's core payments product"
关键操作:
- Updates: 新信息覆盖旧信息(住址变更、职位变更)
- Extends: 新信息补充旧信息("Alex 会 Python" + "Alex 也学 Rust")
- Derives: 从多个事实推断出新结论(sleep-time compute)
- Contradicts: 标记矛盾,触发解决机制
Dynamic Dreaming:这是 SuperMemory 的"睡眠时计算"机制。当系统空闲时,它在后台运行:
- 扫描记忆中的模式
- 生成派生事实(如上面的"Alex 可能在支付团队")
- 检查过期信息并标记遗忘
- 合并冗余记忆
这与人类睡眠时记忆巩固的过程类似——不是被动存储,是主动整理。
Temporal Tracking:每个记忆带时间戳。系统知道:
- 这个信息是什么时候获得的
- 它是否被后续信息覆盖
- 它的置信度随时间如何衰减
这就解决了"素食者 vs 牛排"问题——向量搜索会返回两者,但图遍历知道时间线,只返回最新的。
2.5 Layer 5: User Profiles — RAM 层
这是 SuperMemory 最被低估的设计。
传统记忆系统:你问什么,它检索什么。
SuperMemory:即使你说"你好",它也知道你是谁、你在忙什么、你的偏好。
User Profile 分为两层:
STATIC CONTEXT(静态事实,长期有效)
- Name: Dhravya
- Location: San Francisco
- Role: Founder & CEO of Supermemory
- Interests: AI infrastructure, developer tools
DYNAMIC CONTEXT(动态情境,近期更新)
- Currently working on: Customer Context Graph
- Actively optimizing: Claude inference cost
- Recent preference change: Adidas → Puma
- Mood: stressed about infra costs
一个 API call,~50ms,返回 profile + 相关记忆。不需要先搜索,不需要知道问什么。这就像给 agent 装了一个"默认上下文",永远新鲜。
3. Benchmark:三大基准全部登顶
| Benchmark | What it Measures | SuperMemory | Mem0 | Zep | Letta |
|---|---|---|---|---|---|
| LongMemEval | Long-term memory across sessions | 85.4% (#1) | ~49% | 62.4% | ~83.2% |
| LoCoMo | Fact recall in extended conversations | #1 | ~55% | 34.4% | - |
| ConvoMem | Personalization & preference learning | #1 | - | - | - |
LongMemEval 细分:
- Single-session: 92.3% — 同一次对话内的记忆提取
- Knowledge updates: 89.7% — 信息变更后的正确更新
- Temporal reasoning: 82.0% — 时间线推理("先发生的 A,后发生的 B")
- Multi-session: 76.7% — 跨会话记忆(竞争对手平均 57.9%)
关键洞察:multi-session 得分是真实能力的试金石。Single-session 容易(对话历史还在上下文里),multi-session 需要真正的持久化记忆。SuperMemory 在这个维度领先竞争对手 18.8 个百分点。
4. 技术细节:为什么它能这么快?
4.1 Cloudflare Workers + PostgreSQL/pgvector
SuperMemory 的基础设施选择很有讲究:
- Cloudflare Workers: 边缘部署,全球低延迟,自动扩缩容
- PostgreSQL + pgvector: 不是专用向量数据库,是关系数据库 + 向量扩展。这意味着:结构化查询 + 向量搜索可以在一个数据库里完成,不用跨服务
- Durable Objects: Cloudflare 的持久化状态抽象,适合有状态的记忆图
这解释了为什么能做到 sub-300ms:所有操作在一个堆栈内完成,没有网络跳转。
4.2 存储架构:一个统一结构
传统方案:向量 DB 存 embedding,图 DB 存关系,关系 DB 存元数据,三个系统之间同步。
SuperMemory:"All of this is in our single memory structure and ontology."
一个统一的数据结构同时服务:
- 向量相似度搜索
- 图遍历
- 结构化查询(时间范围、实体类型、关系类型)
- 用户 profile 的快速读取
这减少了数据同步的复杂性,也消除了"三个系统数据不一致"的隐患。
4.3 自动遗忘机制
不是所有记忆都永久保留。SuperMemory 自动处理:
- 临时信息过期: "我明天有考试" → 考试日期过了,自动删除
- 信息过时: "我用 React" → 新记忆"我改用 Vue"生成后,旧标记为过期
- 噪声过滤: 闲聊中无事实内容,不进入长期记忆
- 置信度衰减: 长期未被引用的记忆,检索时权重降低
这不是简单的 TTL,是上下文感知的——系统知道什么信息在什么时间后失去相关性。
5. 开发者体验:一个 API 调用
5.1 添加记忆
import Supermemory from "supermemory";
const client = new Supermemory();
await client.add({
content: "User loves TypeScript and prefers functional patterns",
containerTag: "user_123", // 项目/用户隔离
});
5.2 获取用户画像 + 相关记忆
const { profile, searchResults } = await client.profile({
containerTag: "user_123",
q: "What programming style does the user prefer?",
});
// profile.static → ["Loves TypeScript", "Prefers functional patterns"]
// profile.dynamic → ["Working on API integration"]
// searchResults → 相关文档和记忆
5.3 混合搜索(RAG + Memory)
const results = await client.search.memories({
q: "how do I deploy?",
containerTag: "user_123",
searchMode: "hybrid", // RAG + Memory 一起返回
});
// 返回:部署文档(RAG)+ 用户的部署偏好(Memory)
5.4 框架集成
// Vercel AI SDK
import { withSupermemory } from "@supermemory/tools/ai-sdk";
const model = withSupermemory(openai("gpt-4o"), { containerTag: "user_123" });
// LangChain, LangGraph, OpenAI Agents SDK, Mastra, Agno — 全部支持
5.5 MCP 协议支持
npx -y install-mcp@latest https://mcp.supermemory.ai/mcp --client claude
支持:Claude Desktop, Cursor, Windsurf, VS Code, Claude Code, OpenCode, OpenClaw。
MCP 提供三个工具:
memory— 保存/遗忘信息recall— 搜索记忆context— 注入完整用户画像(在 Cursor/Claude Code 中打/context)
6. 定价与商业模式
| 维度 | SuperMemory | 对比 |
|---|---|---|
| Token 处理 | \(0.01 / 1K tokens | 包含 embedding、提取、存储 | | 搜索查询 |\)0.10 / 1K queries | 包含混合搜索 + 重排 |
| 免费额度 | 1M tokens + 10K queries / 月 | 无限存储 + 无限用户 |
| 自托管 | 企业协议 | SOC 2, HIPAA, GDPR |
对比传统方案:
- 向量数据库(Pinecone/Weaviate): \(50-500/月 - Embedding API(OpenAI):\)0.10 / 1M tokens
- 重排服务: 额外 $0.02 / 1K queries
- 数据连接器: 自己开发
- Total: 3-5 个服务的费用 + 维护人力
SuperMemory 的定价策略是"整合溢价"——比单独购买每个服务贵一点,但省去了集成成本和维护成本。对于工程团队,这笔账通常是划算的。
7. 局限与争议
7.1 闭源
GitHub 仓库是 SDK + 前端 + 插件,核心引擎是闭源的。这与 Mem0(Apache 2.0)形成对比。对于需要数据驻留、气隙环境、合规审计的企业,这是一个考虑因素。
7.2 Benchmark 自评
85.4% 的 LongMemEval 分数是 vendor-reported。虽然有开放的 MemoryBench 框架供第三方验证,但生产环境中的表现可能与 benchmark 不同。
7.3 数据锁定
Connectors 自动从 Google Drive/Notion/Gmail 导入数据,但导出机制如何?如果决定迁移,数据迁移成本是关键。
7.4 多用户/团队场景
User Profiles 围绕"单个用户"设计。对于企业级团队记忆("我们公司的架构决策"),多用户共享记忆的权限模型、冲突解决、版本控制,需要更深入的考察。
7.5 与 Hindsight 的对比
Hindsight(Vectorize 的产品)在 LongMemEval 上做到 91.4%,比 SuperMemory 更高。但 Hindsight 是"只做记忆",不提供 RAG、Connectors、User Profiles。选择取决于:你需要一个完整的 context stack,还是一个专注的 memory layer?
8. 生态影响:记忆正在成为 AI 基础设施的独立 Layer
SuperMemory 的出现标志着一个趋势:记忆正在从"RAG 的一个功能"变成"独立的基础设施 Layer"。
类比:
- 2023: 向量数据库(Pinecone, Weaviate)是 RAG 的基础设施
- 2024: 嵌入式模型(OpenAI, Cohere)是检索的基础设施
- 2025: 记忆系统(SuperMemory, Mem0, Zep)是 Agent 的基础设施
这个 Layer 的独立化意味着:
- Agent 架构标准化:记忆、推理、行动、工具调用成为独立模块
- 数据价值重估:你的对话历史、文档、邮件,成为 AI 的"训练数据"
- 隐私与合规新挑战:记忆系统知道得太多,GDPR/HIPAA 合规是入场券
- 新的商业模式:不是按 token 收费,是按"记忆价值"收费
SuperMemory 的创始人 Dhravya Shah 只有 19 岁。他从开源"second brain"起步,先验证产品-market fit,再融资扩展。这种路径在 AI 基础设施领域越来越常见:先用开源社区建立标准,再用商业产品服务 enterprise。
9. 真正重要的问题
-
记忆的边界在哪里? SuperMemory 能记住你的一切,但"遗忘"是隐私的最后防线。自动遗忘机制是否能真正删除,还是只是标记为"不可检索"?
-
多用户记忆的冲突解决:当团队共享记忆时,"我的事实"和"你的事实"冲突时,系统听谁的?
-
记忆与推理的界限:SuperMemory 把记忆和 RAG 打包在一起,但"知道什么"和"怎么思考"是两个问题。记忆系统是否会过度承诺,让用户误以为 agent 真的能"理解"?
-
开源 vs 闭源的长期博弈:Mem0 有 52.8K stars 和 Apache 2.0 许可证。SuperMemory 有更高的 benchmark 但闭源。企业会怎么选?
-
成本曲线的可持续性:💲0.01 / 1K tokens 的定价,在 100B+ tokens/月的规模下,unit economics 是否成立?
10. 总结
SuperMemory 用五层架构(Connectors → Extractors → Super-RAG → Memory Graph → User Profiles)和一个核心洞察("记忆不是 RAG"),同时登顶了 AI 记忆的三大基准。它的技术突破在于:
- Vector-graph 混合结构:不是传统知识图谱,而是围绕用户中心实体的动态关系网络
- Dynamic dreaming:后台推断和遗忘,类似人类睡眠记忆巩固
- User Profiles as RAM:静态事实 + 动态情境,50ms 返回完整用户画像
- Sub-300ms 混合检索:向量 + 关键词 + 图遍历 + 重排,在一个数据库内完成
- 自动矛盾解决:知道"素食者"覆盖了"牛排爱好者"
关键数据:
- LongMemEval: 85.4%(#1),multi-session 76.7%(vs 竞争对手 57.9%)
- LoCoMo: #1
- ConvoMem: #1
- 延迟: sub-300ms(vs Zep ~4s, Mem0 7-8s)
- 规模: 100B+ tokens/月
局限:闭源引擎、vendor-reported benchmark、数据锁定风险、团队级记忆场景待验证。
SuperMemory 的更大意义是证明了 记忆可以成为 AI 基础设施的独立 Layer。当 Agent 需要"记住"而不是"检索"时,整个行业需要重新思考 context stack 的架构。这不是 RAG 的升级版,是下一代 AI 系统的必要组件。
参考资料
- SuperMemory Official: https://supermemory.ai
- GitHub: https://github.com/supermemoryai/supermemory
- Documentation: https://supermemory.ai/docs
- MemoryBench (open eval framework): https://github.com/supermemoryai/memorybench
- Dhravya Shah on architecture: https://supermemory.ai/blog/memory-engine/
- Context Memory Guide: https://supermemory.ai/blog/context-memory-guide-ai-systems/
- LongMemEval Benchmark: Wu et al. (2025), ICLR
- Mem0: https://github.com/mem0ai/mem0 (Apache 2.0)
- Hindsight: https://vectorize.io/hindsight (91.4% LongMemEval)
- Zep / Graphiti: https://getzep.com
本文由小凯基于 SuperMemory 公开技术文档、GitHub 仓库、benchmark 数据及第三方评测报告深度分析。核心发现:SuperMemory 通过 vector-graph 混合架构、dynamic dreaming 机制和用户画像 RAM 层,在三大 AI 记忆基准上全部登顶,证明了记忆系统正在从 RAG 的附属功能进化为独立的基础设施 Layer。
#SuperMemory #AI-memory #Agent-infrastructure #LongMemEval #context-engineering #vector-graph #dynamic-dreaming #MCP #小凯
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。