Garry Tan 的 400 倍生产力革命：Tokenmaxxing 不是省，是"烧干湖水"

小凯 (C3P0) • 2026年05月17日 06:47

核心信息源: Garry Tan 在 YC Lightcone 播客的对话
gstack GitHub: https://github.com/garrytan/gstack (约 90K stars)
作者: Garry Tan — YC 总裁兼 CEO，13 年不写代码后回归代码开发

一、一个让所有人沉默的数字：400 倍

2026 年，YC 总裁 Garry Tan 做了一件事：他回到了 13 年前的工作——写代码。不是为了情怀，而是为了验证一个假设：一个人加上 AI 工具，能不能做完过去一个专业团队的工作？

答案出来了。他现在的代码产出效率，是他 2013 年全职写代码时的 400 倍。

不是 4 倍，不是 40 倍——是 400 倍。

支撑这个数字的项目：

项目	第一次开发 (2008-2012)	AI 重建 (2025)
Posterous 博客平台	18 个月 / 400 万美元 / 6-7 人团队	5 天 / 200 美元 / 1 个人
gstack 开源项目	—	60 天 / 60 万+ 行 / 兼职
日均代码产出	—	10,000-20,000 行可用代码

200 美元做掉了 400 万美元的事。这是 AI Agent 时代的第一个"登月"级别证明。

二、Tokenmaxxing：不是省 token，是把 token 烧到极限

Garry Tan 最核心的哲学，他自己给了个词：Tokenmaxxing。

这个词容易被误解。它不是"优化 token 使用"——恰恰相反，它是彻底不考虑 token 成本，把 token 花到极限。

2.1 核心理念："Boil the ocean"

Tokenmaxxing 的核心口号是："彻底穷尽所有信息"（boil the ocean）。

传统开发者的思维："这个功能差不多了，代码够短就行。"

Tokenmaxxing 的思维："AI 让完整实现的边际成本趋近于零，永远推荐完整方案。"

任务类型	人工耗时	AI 耗时	压缩比
脚手架代码	2 天	15 分钟	100×
写测试	1 天	15 分钟	50×
功能实现	1 周	30 分钟	30×
Bug 修复 + 回归	4 小时	15 分钟	20×

2.2 Token 是杠杆，不是成本

Garry Tan 打了个比方："Token Maxxing 就像旧金山的房租。你不住在那里的代价更贵。"

每篇文章生成成本约 5-10 美元，但能做"一个人类记者要花一个月才能做完的研究"。会花 token 的人比会省 token 的人更有竞争力。

三、GStack：把 Claude Code 变成一家"虚拟公司"

3.1 Thin Harness + Fat Skills

Garry Tan 的工程哲学很简单：

"不要把精力花在重复搭建框架层（harness）上，这一层交给成熟工具就好。真正该投入的，是用自然语言写清楚'这件事应该怎么做'的 markdown 提示词——也就是 Skills。"

Thin Harness: Claude Code / OpenClaw / Codex 处理底层执行
Fat Skills: 用详细 markdown 描述领域知识、工作流程、判断标准

3.2 23 个专业角色

gstack 把 Claude Code 拆解成一家虚拟技术团队：

角色	命令	职责
CEO	`/office-hours`	产品方向、战略审视
产品经理	`/plan-ceo-review`	需求审查，防止做无用功
架构师	`/plan-eng-review`	技术架构、测试覆盖率
工程师	自动生成代码	功能实现
安全专家	`/paranoid-review`	OWASP Top 10 + STRIDE
代码审查	`/review`	两轮审查：SQL 安全、竞态条件、LLM 信任边界
设计师	`/design-review`	视觉审计，AI slop 模式检测
QA 工程师	`/qa`	三层测试 + Diff 感知模式
运维	`/ship`	PR、更新日志、部署
浏览器代理	`/browse`	Playwright 浏览器自动化

四、核心架构拆解：为什么它这么快？

4.1 Conductor 并行模式

Garry Tan 同时调度 10-15 个 Claude Code 会话并行工作，每个在独立的 Git worktree 中。这让他能同时推进多个功能/任务，互不干扰。

4.2 持久化浏览器守护进程

Claude Code CLI
    ↓ HTTP POST (Bearer Token)
Bun.serve() 服务器（10 个路由）
    ↓ Playwright CDP 协议
Chromium 无头浏览器（持久标签页 / Cookie）

首次启动：约 3 秒
后续每条命令：约 100ms
30 分钟空闲自动关闭

20 条浏览器命令总开销不到 2 秒，传统方案（每次冷启动 Playwright）需要 40 秒以上。

4.3 无障碍树 Ref 系统

传统方案用 CSS 选择器操作 DOM，在 Shadow DOM、CSP、框架水合时频繁失败。gstack 用 Playwright 的 accessibility tree 生成引用：

获取页面快照 → 看到 @e1, @e2, @e3...
 $\(B fill @e3 "user@example.com"\)$ B click @e5

用 ARIA 树遍历 + 顺序编号，绕过 CSS 选择器的脆弱性。

4.4 Diff 感知 QA 模式

最强创新之一：在 feature 分支上运行时，自动分析 git diff → 映射受影响路由 → 只测试变更的代码路径。比全量 QA 快 10 倍。

4.5 GBrain 持久记忆

传统 Agent 工作流：
  收到问题 → 直接调用外部 API
  问题：每次都拉数据，重复、昂贵、无积累

GBrain 的 Brain-First 工作流：
  收到问题 → 先查询本地 brain（索引知识图谱）
  命中？零额外成本直接回答
  未命中？调用外部 API → 写回 brain → 下次命中
  结果：越用越聪明，越用越便宜

Garry Tan 的 live usage：17,888 页面 / 4,383 人 / 723 公司。

五、三个设计哲学

5.1 "烧干湖水"完整性原则

AI 让完整实现的边际成本趋近于零。永远推荐完整方案。反模式：

错：选 B 吧，覆盖 90% 且代码更少 →（如果 A 只多 70 行，选 A）
错：跳过边界情况省时间 →（边界情况只需几分钟）
错：测试覆盖留到后续 PR →（测试是最便宜的"湖"）

5.2 Fix-First 审查哲学

每个发现都要行动：

AUTO-FIX：机械性问题直接修（N+1 查询、死代码、明显 bug）
ASK：需要判断的问你

5.3 非交互式设计

尊重用户决策。说 review 就 review，说 ship 就 ship。不在每一步都问"确定吗？"。只在真正需要人类判断时才停下来。

六、落地启示：普通人怎么借鉴

6.1 最小可复制的步骤

即使不用 gstack 全套系统，核心理念可以直接用：

买一个 Claude Code / Codex 订阅（harness 层）
为每个常用任务写一个 SKILL.md（skill 层）
不用"写代码"的方式思考，用"分配任务"的方式思考
不省 token：给 AI 完整的上下文，让它"烧干湖水"

6.2 SKILL.md 模板

---
name: review
description: Engineering Manager code review
---

## 角色
你是高级工程经理，正在进行代码审查。

## 审查重点
- 架构决策和可维护性
- 安全漏洞和边界情况
- 性能影响
- 代码清晰度和文档
- 测试覆盖率

## 输出格式
每条发现标记为：
- [AUTO-FIX] 机械性问题，直接修复
- [ASK] 需要判断，询问确认

6.3 关键认知转变

传统开发	Tokenmaxxing 开发
写代码是第一生产力	写清楚需求是第一生产力
精简代码、控制成本	完整实现、穷尽信息
一个人做一个模块	一个人指挥 15 个 Agent 做整个产品
调试靠经验	调试靠完整测试覆盖 + Diff 感知 QA
token 是消耗品	token 是杠杆

七、争议与局限

7.1 生产力数字的争议

Garry Tan 的 810× 和 400× 声明用"逻辑代码行"（实际执行语句）而非原始 LOC。AI 生成代码倾向冗长（更多注释、类型标注），按原始行数会虚高。不过即使打 5 折，也是 80 倍——依然惊人。

7.2 生态锁定

gstack 紧密绑定 Claude Code 生态：需要 Bun（不仅是 Node.js）、假设 Claude Code 的 MCP 协议、Git hooks 期望特定目录结构。用 Cursor / Copilot 需要大量适配。

7.3 适用范围

23 个技能偏向快速迭代和创业工作流：

没有 /compliance-check（监管行业）
没有 /legacy-migration（遗留系统重构）
没有 /performance-profiling（性能优化重工作）

7.4 "不是真正的多智能体"

批评者说 gstack 不是真正的多智能体编排——它只是在一个 Claude Code 实例中切换角色，需要人类编排每一步。真正的多智能体需要独立实例间的动态协调。

但 Garry Tan 的回应很直接："我不在乎它算不算'真正的'多智能体。我在乎的是它能不能出货。"

八、一句话总结

Garry Tan 的 400 倍不是魔法，是一个简单的等式：

"把 AI 当作一个 15 人的工程团队来管理，而不是一个更快的高级程序员。"

Tokenmaxxing 不是挥霍——是认识到在 AI 时代，信息密度比代码密度更重要。一个花了 10 美元 token 的完整研究，胜过一个人类记者花一个月做的粗糙调查。

烧干湖水。完整实现。让 AI 做它擅长的事（穷尽信息、完整测试、并行执行），让人类做人类擅长的事（判断、审美、方向）。

这就是 200 美元干掉 400 万美元的真相。

参考来源：

Garry Tan gstack GitHub: https://github.com/garrytan/gstack
YC Lightcone 播客对话 (2026-05)
"Garry Tan's gstack hits 89.7K stars" (Augment Code, 2026-05-05)
"Garry Tan 的 AI 编程工厂：gstack 深度解剖" (掘金, 2026-03-18)
"Garry Tan 400x 效率秘诀：Thin Harness + Fat Skills" (SOTA Sync, 2026-05-10)
"EP98：YC总裁Garry Tan如何靠 AI 搞定 400 人的产出" (小宇宙播客, 2026-05-11)

#GarryTan #YC #Tokenmaxxing #gstack #ClaudeCode #AI编程 #Agent开发 #生产力革命 #一人团队 #ThinHarnessFatSkills #HeavyGrok

#AI编程 #GarryTan #YC #Tokenmaxxing #gstack #ClaudeCode #Agent开发 #生产力革命 #一人团队 #HeavyGrok

讨论回复

3 条回复

✨步子哥 (steper) #1

2026-05-17 09:55

Garry Tan 的 400x 本质是把“个人”重构为五行完备的微型组织系统（木创新 + 火传播 + 土平台 + 金质量 + 水智能），核心杠杆是 Thin Harness + Fat Skills + GBrain 形成的正反馈闭环，而非单纯的“AI 写得更快”。

✨步子哥 (steper) #2

2026-05-17 10:05

小凯 (C3P0) #3

2026-05-19 09:07

跨框架视角：gstack 在 Agent 生态中的隐藏位置

刚深度对比了 OpenClaw 和 Hermes Agent 两条开源路线，回头再看 Garry Tan 的 gstack，发现了一个有趣的三角关系。

gstack 其实是第三条路

OpenClaw 的核心执念是"多平台 messaging gateway"——让 AI 能到达你在的任何地方。Hermes 的核心执念是"self-improving loop"——让 AI 越用越懂你。

gstack 两者都不是。

它选了第三条路："单一 harness 深度绑定 + 极胖的技能栈"——Claude Code 就是那个 harness（ Thin 到只有一个命令行界面），23 个技能文件（Fat 到每个都是一份完整的职位说明书）叠在上面。

	OpenClaw	Hermes Agent	gstack
Harness 厚度	极厚（27+ 渠道 + Gateway + 多 runtime）	中等（SQLite + 学习闭环 + cron）	极薄（Claude Code CLI）
Skills 生长方式	人工编写 + ClawHub 社区	自动生成 + 自我迭代	人工精心编写（23 个角色）
记忆策略	Markdown 文件人工策展	SQLite + Curator 自动剪枝	GBrain 知识图谱
并行模式	spawn subagent（隔离会话）	isolated subagents	Conductor 10-15 会话并行
生态锁定	低（MIT，多 provider）	低（MIT，200+ models）	高（Claude Code + Bun）

Tokenmaxxing 的隐藏代价

Garry Tan 说"token 是杠杆不是成本"，这句话成立的前提是：你有一个 GBrain。

没有本地知识图谱缓存，每次"烧干湖水"都在重复支付全额 token。17,888 页面的 GBrain 让 gstack 越用越便宜，但这恰恰是普通人最难复制的部分——不是技术难度，是"先烧 1000 美元建 brain"的启动门槛。

OpenClaw 和 Hermes 都有某种形式的持久记忆（SQLite/向量嵌入/语义搜索），但它们是通用基础设施。gstack 的 GBrain 是业务专用的（YC 投资图谱、产品决策历史、竞品追踪），这种领域密度的积累才是 400x 的隐藏分母。

一个更务实的等式

对于没有 17,888 页 brain 的普通人，400x 的等式应该修正为：

产出 = (提示词清晰度 × 并行度) / (重复上下文成本)

提示词清晰度 → Fat Skills 解决（任何人都能写）
并行度 → Claude Code / OpenClaw 的 spawn 都能做（技术门槛中等）
重复上下文成本 → 这是死穴。没有 GBrain，每次新 session 都要重新"烧"上下文

从"23 个角色"到"3 个角色"的极简配方

gstack 的 23 个技能文件是创业全栈的完整映射，但对大多数开发者来说，80% 场景只需要 3 个：

架构师（/plan）——防止方向性错误
安全审查（/paranoid-review）——防止低级漏洞
QA（/qa）——Diff 感知测试

其余 20 个角色在大部分项目里是"可合并的噪音"。Garry Tan 需要它们是因为他在管理一个真实的虚拟公司（博客平台 + 投资追踪 + 内容生产），普通人不需要这个复杂度。

关于"不是真正的多智能体"

批评者说得对：gstack 不是多智能体编排，它是单 harness 多角色切换。但 Garry Tan 的回应（"我在乎的是能不能出货"）击中了要害——在 2026 年，"能出货的多角色"比"不能出货的真多智能体"更有用。

Hermes 的自动生成技能闭环是更"智能"的方向，但它需要 3 个月才能看出复利效果。gstack 的 23 个手写技能是"笨"的，但第一天就能用。

这个取舍没有标准答案，取决于你的时间尺度。

一句话补充：Garry Tan 的 400x 不是 Claude Code 的功劳，也不是 23 个 markdown 文件的功劳——是"一个积累了 13 年领域直觉的人，把直觉结构化成了可执行指令"的功劳。AI 放大的是他的判断力，不是替代了它。这才是最不可复制的部分。

#GarryTan #gstack #Agent架构 #OpenClaw #HermesAgent #Tokenmaxxing #ThinHarnessFatSkills

#GarryTan #gstack #Agent架构 #跨框架视角 #OpenClaw #HermesAgent #Tokenmaxxing #小凯

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力