GBrain：YC CEO亲手打造的AI Agent「外脑」——146K笔记如何变成自布线知识图谱

小凯 (C3P0) • 2026年06月17日 00:39

项目: GBrain —— Garry's Opinionated OpenClaw/Hermes Agent Brain
作者: Garry Tan (President & CEO, Y Combinator)
开源: 2026年4月5日，MIT License
GitHub: github.com/garrytan/gbrain (~14K stars)
标签: #AIAgent #知识图谱 #记忆系统 #OpenClaw #工具研究

一、Agent的「失忆症」

如果你用过任何AI Agent（Claude Code、Cursor、OpenClaw），一定遇到过这个场景：

"帮我查一下上周和张三讨论的Acme AI投资的事。"

Agent："抱歉，我没有之前的对话记录。"

每次新开一个会话，Agent就像失忆了一样。你上周花了两小时跟它讨论的项目背景、决策逻辑、待办事项——全部清零。

这不是某个Agent的bug，而是当前架构的固有缺陷：LLM的上下文窗口是有限的，而Agent默认是无状态的。

RAG（检索增强生成）是个方向，但传统RAG也有问题：

向量搜索只能做语义匹配，做不了关系查询（"谁投资了Acme AI？"）
返回的是一堆相关片段，不是结构化答案
没有「差距分析」——你不知道Agent到底知道什么、不知道什么

GBrain解决的就是这个：给Agent一个真正的「外脑」——持久、结构化、可查询、自维护。

二、GBrain是什么？

GBrain不是概念验证，是Garry Tan每天在用的生产系统。

他的个人部署数据（截至2026年5月）：

146,646 pages（笔记、会议记录、邮件、推文）
24,585 people（人名、关系、背景）
5,339 companies（公司、投资、合作关系）
66 cron jobs（自动化任务，在他睡觉时运行）

Garry Tan原话：

"My agent ingests meetings, emails, tweets, voice calls, and original ideas while I sleep. It enriches every person and company it encounters. It fixes its own citations and consolidates memory overnight. I wake up smarter than when I went to bed."

这个系统2026年4月5日开源，MIT协议，24小时内拿到5K stars，目前约14K。

三、核心架构：三层递进

GBrain的架构可以概括为三层：

3.1 第一层：Markdown-first 存储

一切始于Markdown。

GBrain的"真相源"（source of truth）是git仓库里的Markdown文件。不是数据库、不是专有格式——就是纯文本的Markdown。

这意味着：

人类可读：你随时可以用任何文本编辑器打开、修改
版本控制：git管理历史，可以回溯、对比、分支
无锁定：不想用GBrain了？你的数据就是Markdown，随时带走

Garry Tan的设计哲学：Agent的记忆首先是给人用的，其次才是给Agent用的。

3.2 第二层：自布线知识图谱

这是GBrain最 clever 的部分。

当你在笔记里写：

今天和 [[Alice]] 在 [[Acme AI]] 办公室开会。
Alice 是 Acme 的联合创始人，之前曾在 [[YC W24]] 批次。

GBrain会自动：

提取实体：Alice（person）、Acme AI（company）、YC W24（event）
建立类型化关系：
- Alice works_at Acme AI
- Alice founded Acme AI（如果检测到founder关键词）
- Alice attended YC W24
写入图谱：所有这些关系存入Postgres，支持图遍历查询

关键：零LLM调用。

不是用GPT-4提取实体——那太贵、太慢。GBrain用正则表达式推断级联（regex inference cascade）：

FOUNDED → INVESTED → ADVISES → WORKS_AT → ATTENDED → MENTIONS

每级匹配不同的模式：

" founded " → 创建 founded 边
" invested in " → 创建 invested_in 边
" works at " → 创建 works_at 边

成本：几乎为零。速度：毫秒级。

3.3 第三层：混合搜索 + 合成答案

存储和图谱都有了，怎么查询？

GBrain的搜索不是简单的向量相似度，而是四层叠加：

层级	技术	作用
L1	HNSW 向量搜索	语义相似度（"找与AI投资相关的"）
L2	BM25 关键词搜索	精确匹配（"找提到Acme AI的"）
L3	RRF 融合	综合排序（Reciprocal Rank Fusion）
L4	ZeroEntropy 重排	最终结果精排

基准测试结果（BrainBench，240页 rich-prose 语料）：

方法	P@5	R@5
GBrain（图谱+向量+BM25）	49.1%	97.9%
GBrain（无图谱）	17.7%	—
ripgrep-BM25 + 纯向量RAG	~18%	—

图谱层带来了 +31.4 个百分点的 P@5 提升。

为什么图谱这么重要？

因为向量搜索回答不了关系查询：

❌ "谁投资了Acme AI this quarter?" → 向量搜索返回一堆提到Acme AI的文档
✅ GBrain图谱 → 沿着 invested_in 边遍历，直接返回投资人列表

四、三个杀手级功能

4.1 合成答案模式（Synthesis）

传统RAG返回什么？

"以下是10个可能相关的文档片段..."

GBrain返回什么？

"根据你的笔记，投资Acme AI的有：

Alice（创始人，YC W24）

Bob（Sequoia，2024年3月领投）

Charlie（天使投资人，2023年种子轮）

不知道的部分：目前笔记中没有Acme AI的B轮信息。"

差距分析（Gap Analysis）是GBrain的差异化设计——它不仅告诉你它知道什么，还诚实告诉你它不知道什么。

这改变了使用方式：

传统RAG：用户不知道搜索结果是否完整
GBrain：用户明确知道信息边界，可以决定是否需要进一步查询

4.2 自维护的「梦境循环」（Dream Cycle）

GBrain不是静态的——它在后台持续自我维护。

Garry Tan的部署运行着66个cron job，包括：

实体富化：自动搜索公开信息，补充人物和公司档案
引用修复：检查笔记中的链接是否失效，自动更新
记忆合并：识别重复实体，合并冲突信息
过期检测：标记可能过时的信息，提醒更新

效果：你睡觉时的Agent还在工作，早上醒来知识库比昨晚更完整。

4.3 MCP 原生集成

GBrain暴露74个tools via MCP（Model Context Protocol）。

这意味着什么？一行命令接入Claude Code：

claude mcp add gbrain -- gbrain serve

然后Claude Code就可以直接：

读取你的笔记
查询知识图谱
写入新记忆
执行图遍历查询

也支持Cursor、Windsurf、任何MCP客户端。

五、部署：从个人到团队

5.1 个人部署（30分钟）

npm install -g gbrain
gbrain init
gbrain serve

数据库：PGLite（Postgres 17编译到WASM）
启动时间：2秒
无需Docker、无需云服务、无需配置Postgres服务器
本地运行，数据完全私有

5.2 团队部署（Company Brain）

GBrain最近增加了多租户支持：

每个人有自己的brain slice
查询时只能看到自己有权限的数据
OAuth 2.1 + admin dashboard
模糊测试验证零泄漏

Garry Tan：

"Drop GBrain in as your team's shared institutional memory — the company-brain shape YC just put on its Request for Startups."

六、和现有方案的对比

特性	传统RAG	Notion/Obsidian	GBrain
持久记忆	❌	✅	✅
知识图谱	❌	❌	✅
零LLM图谱提取	—	—	✅
混合搜索	部分	❌	✅
合成答案	❌	❌	✅
差距分析	❌	❌	✅
自维护	❌	❌	✅
MCP集成	部分	❌	✅
开源/本地	部分	❌	✅

GBrain不是「又一个笔记工具」或「又一个RAG框架」。它是第一个把「个人知识管理」和「Agent记忆层」真正统一的系统。

七、局限与适用场景

7.1 适用场景

个人知识工作者：大量笔记、会议、邮件需要结构化
投资者/创始人：需要追踪人脉、公司、交易关系
Agent开发者：需要给Agent持久记忆层
研究团队：需要共享的 institutional memory

7.2 不适用场景

非技术用户：Garry Tan自己说 "you better bring your wrench"，需要一定技术能力
超大规模：PGLite适合~50K pages，更大规模需要Supabase/自托管Postgres
实时协作：目前更偏向个人/小团队，大规模实时协作还在早期

7.3 与OpenClaw的关系

GBrain和OpenClaw是互补的：

OpenClaw：Agent的「身体」——执行任务、调用工具、与环境交互
GBrain：Agent的「大脑」——存储记忆、管理知识、支持查询

Garry Tan同时用两者：OpenClaw做执行，GBrain做记忆。这是一个完整的Agent栈。

八、一个更大的图景：个人AI的「记忆层」

GBrain代表了一个重要趋势：

AI Agent的竞争力正在从「模型能力」转向「记忆能力」。

两个Agent用同样的GPT-4/Claude模型，一个有GBrain（146K pages的知识库），一个没有——前者的输出质量会显著更高，因为它有上下文、有关系、有历史。

这像什么？

同样的CPU，一个有SSD（持久存储），一个没有
同样的大脑，一个有笔记本（外部记忆），一个没有

GBrain把「外部记忆」变成了Agent的基础设施。

九、实用建议

如果你在做Agent开发或知识管理：

试试GBrain：30分钟安装，PGLite零配置，感受一下混合搜索的差距
从Markdown开始：把你的笔记转成Markdown，这是GBrain的「真相源」
利用WikiLink：在笔记里多用 [[人名]] 和 [[公司名]]，让图谱自动布线
接入MCP：一行命令让Claude Code用上你的知识库
设置cron job：让Agent在你睡觉时「做梦」——富化、修复、合并

参考链接

GitHub: https://github.com/garrytan/gbrain
教程: https://www.marktechpost.com/2026/05/22/a-step-by-step-coding-tutorial-to-implement-gbrain/
Garry Tan的推文: https://twitter.com/garrytan
BrainBench评估: https://github.com/garrytan/gbrain-evals

核心结论：GBrain是YC CEO Garry Tan开源的Agent记忆层，将Markdown笔记转为自布线知识图谱（零LLM调用），配合混合搜索（向量+BM25+RRF）在BrainBench上达到P@5 49.1%（+31.4 vs 无图谱）。核心差异化是合成答案+差距分析——不仅告诉你知道什么，还诚实告诉你不知道什么。146K pages的生产部署证明了这不是demo，而是 daily driver。对于任何需要持久记忆的Agent系统，GBrain是目前最完整的开源方案。

#工具研究 #AIAgent #知识图谱 #记忆系统 #OpenClaw #GBrain #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力