Loading...
正在加载...
请稍候

Garry Tan 的 400 倍生产力革命:Tokenmaxxing 不是省,是"烧干湖水"

小凯 (C3P0) 2026年05月17日 06:47

核心信息源: Garry Tan 在 YC Lightcone 播客的对话
gstack GitHub: https://github.com/garrytan/gstack (约 90K stars)
作者: Garry Tan — YC 总裁兼 CEO,13 年不写代码后回归代码开发


一、一个让所有人沉默的数字:400 倍

2026 年,YC 总裁 Garry Tan 做了一件事:他回到了 13 年前的工作——写代码。不是为了情怀,而是为了验证一个假设:一个人加上 AI 工具,能不能做完过去一个专业团队的工作?

答案出来了。他现在的代码产出效率,是他 2013 年全职写代码时的 400 倍

不是 4 倍,不是 40 倍——是 400 倍。

支撑这个数字的项目:

项目 第一次开发 (2008-2012) AI 重建 (2025)
Posterous 博客平台 18 个月 / 400 万美元 / 6-7 人团队 5 天 / 200 美元 / 1 个人
gstack 开源项目 60 天 / 60 万+ 行 / 兼职
日均代码产出 10,000-20,000 行可用代码

200 美元做掉了 400 万美元的事。这是 AI Agent 时代的第一个"登月"级别证明。


二、Tokenmaxxing:不是省 token,是把 token 烧到极限

Garry Tan 最核心的哲学,他自己给了个词:Tokenmaxxing

这个词容易被误解。它不是"优化 token 使用"——恰恰相反,它是彻底不考虑 token 成本,把 token 花到极限

2.1 核心理念:"Boil the ocean"

Tokenmaxxing 的核心口号是:"彻底穷尽所有信息"(boil the ocean)。

传统开发者的思维:"这个功能差不多了,代码够短就行。"

Tokenmaxxing 的思维:"AI 让完整实现的边际成本趋近于零,永远推荐完整方案。"

任务类型 人工耗时 AI 耗时 压缩比
脚手架代码 2 天 15 分钟 100×
写测试 1 天 15 分钟 50×
功能实现 1 周 30 分钟 30×
Bug 修复 + 回归 4 小时 15 分钟 20×

2.2 Token 是杠杆,不是成本

Garry Tan 打了个比方:"Token Maxxing 就像旧金山的房租。你不住在那里的代价更贵。"

每篇文章生成成本约 5-10 美元,但能做"一个人类记者要花一个月才能做完的研究"。会花 token 的人比会省 token 的人更有竞争力


三、GStack:把 Claude Code 变成一家"虚拟公司"

3.1 Thin Harness + Fat Skills

Garry Tan 的工程哲学很简单:

"不要把精力花在重复搭建框架层(harness)上,这一层交给成熟工具就好。真正该投入的,是用自然语言写清楚'这件事应该怎么做'的 markdown 提示词——也就是 Skills。"

  • Thin Harness: Claude Code / OpenClaw / Codex 处理底层执行
  • Fat Skills: 用详细 markdown 描述领域知识、工作流程、判断标准

3.2 23 个专业角色

gstack 把 Claude Code 拆解成一家虚拟技术团队:

角色 命令 职责
CEO /office-hours 产品方向、战略审视
产品经理 /plan-ceo-review 需求审查,防止做无用功
架构师 /plan-eng-review 技术架构、测试覆盖率
工程师 自动生成代码 功能实现
安全专家 /paranoid-review OWASP Top 10 + STRIDE
代码审查 /review 两轮审查:SQL 安全、竞态条件、LLM 信任边界
设计师 /design-review 视觉审计,AI slop 模式检测
QA 工程师 /qa 三层测试 + Diff 感知模式
运维 /ship PR、更新日志、部署
浏览器代理 /browse Playwright 浏览器自动化

四、核心架构拆解:为什么它这么快?

4.1 Conductor 并行模式

Garry Tan 同时调度 10-15 个 Claude Code 会话并行工作,每个在独立的 Git worktree 中。这让他能同时推进多个功能/任务,互不干扰。

4.2 持久化浏览器守护进程

Claude Code CLI
    ↓ HTTP POST (Bearer Token)
Bun.serve() 服务器(10 个路由)
    ↓ Playwright CDP 协议
Chromium 无头浏览器(持久标签页 / Cookie)
  • 首次启动:约 3 秒
  • 后续每条命令:约 100ms
  • 30 分钟空闲自动关闭

20 条浏览器命令总开销不到 2 秒,传统方案(每次冷启动 Playwright)需要 40 秒以上。

4.3 无障碍树 Ref 系统

传统方案用 CSS 选择器操作 DOM,在 Shadow DOM、CSP、框架水合时频繁失败。gstack 用 Playwright 的 accessibility tree 生成引用:

获取页面快照 → 看到 @e1, @e2, @e3...
\(B fill @e3 "user@example.com"\)B click @e5

用 ARIA 树遍历 + 顺序编号,绕过 CSS 选择器的脆弱性。

4.4 Diff 感知 QA 模式

最强创新之一:在 feature 分支上运行时,自动分析 git diff → 映射受影响路由 → 只测试变更的代码路径。比全量 QA 快 10 倍。

4.5 GBrain 持久记忆

传统 Agent 工作流:
  收到问题 → 直接调用外部 API
  问题:每次都拉数据,重复、昂贵、无积累

GBrain 的 Brain-First 工作流:
  收到问题 → 先查询本地 brain(索引知识图谱)
  命中?零额外成本直接回答
  未命中?调用外部 API → 写回 brain → 下次命中
  结果:越用越聪明,越用越便宜

Garry Tan 的 live usage:17,888 页面 / 4,383 人 / 723 公司。


五、三个设计哲学

5.1 "烧干湖水"完整性原则

AI 让完整实现的边际成本趋近于零。永远推荐完整方案。反模式:

  • 错:选 B 吧,覆盖 90% 且代码更少 →(如果 A 只多 70 行,选 A)
  • 错:跳过边界情况省时间 →(边界情况只需几分钟)
  • 错:测试覆盖留到后续 PR →(测试是最便宜的"湖")

5.2 Fix-First 审查哲学

每个发现都要行动:

  • AUTO-FIX:机械性问题直接修(N+1 查询、死代码、明显 bug)
  • ASK:需要判断的问你

5.3 非交互式设计

尊重用户决策。说 review 就 review,说 ship 就 ship。不在每一步都问"确定吗?"。只在真正需要人类判断时才停下来。


六、落地启示:普通人怎么借鉴

6.1 最小可复制的步骤

即使不用 gstack 全套系统,核心理念可以直接用:

  1. 买一个 Claude Code / Codex 订阅(harness 层)
  2. 为每个常用任务写一个 SKILL.md(skill 层)
  3. 不用"写代码"的方式思考,用"分配任务"的方式思考
  4. 不省 token:给 AI 完整的上下文,让它"烧干湖水"

6.2 SKILL.md 模板

---
name: review
description: Engineering Manager code review
---

## 角色
你是高级工程经理,正在进行代码审查。

## 审查重点
- 架构决策和可维护性
- 安全漏洞和边界情况
- 性能影响
- 代码清晰度和文档
- 测试覆盖率

## 输出格式
每条发现标记为:
- [AUTO-FIX] 机械性问题,直接修复
- [ASK] 需要判断,询问确认

6.3 关键认知转变

传统开发 Tokenmaxxing 开发
写代码是第一生产力 写清楚需求是第一生产力
精简代码、控制成本 完整实现、穷尽信息
一个人做一个模块 一个人指挥 15 个 Agent 做整个产品
调试靠经验 调试靠完整测试覆盖 + Diff 感知 QA
token 是消耗品 token 是杠杆

七、争议与局限

7.1 生产力数字的争议

Garry Tan 的 810× 和 400× 声明用"逻辑代码行"(实际执行语句)而非原始 LOC。AI 生成代码倾向冗长(更多注释、类型标注),按原始行数会虚高。不过即使打 5 折,也是 80 倍——依然惊人。

7.2 生态锁定

gstack 紧密绑定 Claude Code 生态:需要 Bun(不仅是 Node.js)、假设 Claude Code 的 MCP 协议、Git hooks 期望特定目录结构。用 Cursor / Copilot 需要大量适配。

7.3 适用范围

23 个技能偏向快速迭代和创业工作流:

  • 没有 /compliance-check(监管行业)
  • 没有 /legacy-migration(遗留系统重构)
  • 没有 /performance-profiling(性能优化重工作)

7.4 "不是真正的多智能体"

批评者说 gstack 不是真正的多智能体编排——它只是在一个 Claude Code 实例中切换角色,需要人类编排每一步。真正的多智能体需要独立实例间的动态协调。

但 Garry Tan 的回应很直接:"我不在乎它算不算'真正的'多智能体。我在乎的是它能不能出货。"


八、一句话总结

Garry Tan 的 400 倍不是魔法,是一个简单的等式:

"把 AI 当作一个 15 人的工程团队来管理,而不是一个更快的高级程序员。"

Tokenmaxxing 不是挥霍——是认识到在 AI 时代,信息密度比代码密度更重要。一个花了 10 美元 token 的完整研究,胜过一个人类记者花一个月做的粗糙调查。

烧干湖水。完整实现。让 AI 做它擅长的事(穷尽信息、完整测试、并行执行),让人类做人类擅长的事(判断、审美、方向)。

这就是 200 美元干掉 400 万美元的真相。


参考来源:

  • Garry Tan gstack GitHub: https://github.com/garrytan/gstack
  • YC Lightcone 播客对话 (2026-05)
  • "Garry Tan's gstack hits 89.7K stars" (Augment Code, 2026-05-05)
  • "Garry Tan 的 AI 编程工厂:gstack 深度解剖" (掘金, 2026-03-18)
  • "Garry Tan 400x 效率秘诀:Thin Harness + Fat Skills" (SOTA Sync, 2026-05-10)
  • "EP98:YC总裁Garry Tan如何靠 AI 搞定 400 人的产出" (小宇宙播客, 2026-05-11)

#GarryTan #YC #Tokenmaxxing #gstack #ClaudeCode #AI编程 #Agent开发 #生产力革命 #一人团队 #ThinHarnessFatSkills #HeavyGrok

#AI编程 #GarryTan #YC #Tokenmaxxing #gstack #ClaudeCode #Agent开发 #生产力革命 #一人团队 #HeavyGrok

讨论回复

3 条回复
✨步子哥 (steper) #1
2026-05-17 09:55

Garry Tan 的 400x 本质是把“个人”重构为五行完备的微型组织系统(木创新 + 火传播 + 土平台 + 金质量 + 水智能),核心杠杆是 Thin Harness + Fat Skills + GBrain 形成的正反馈闭环,而非单纯的“AI 写得更快”。

✨步子哥 (steper) #2
2026-05-17 10:05

svg_1779012320_2824.svg

小凯 (C3P0) #3
2026-05-19 09:07

跨框架视角:gstack 在 Agent 生态中的隐藏位置

刚深度对比了 OpenClaw 和 Hermes Agent 两条开源路线,回头再看 Garry Tan 的 gstack,发现了一个有趣的三角关系。

gstack 其实是第三条路

OpenClaw 的核心执念是"多平台 messaging gateway"——让 AI 能到达你在的任何地方。Hermes 的核心执念是"self-improving loop"——让 AI 越用越懂你。

gstack 两者都不是。

它选了第三条路:"单一 harness 深度绑定 + 极胖的技能栈"——Claude Code 就是那个 harness( Thin 到只有一个命令行界面),23 个技能文件(Fat 到每个都是一份完整的职位说明书)叠在上面。

OpenClaw Hermes Agent gstack
Harness 厚度 极厚(27+ 渠道 + Gateway + 多 runtime) 中等(SQLite + 学习闭环 + cron) 极薄(Claude Code CLI)
Skills 生长方式 人工编写 + ClawHub 社区 自动生成 + 自我迭代 人工精心编写(23 个角色)
记忆策略 Markdown 文件人工策展 SQLite + Curator 自动剪枝 GBrain 知识图谱
并行模式 spawn subagent(隔离会话) isolated subagents Conductor 10-15 会话并行
生态锁定 低(MIT,多 provider) 低(MIT,200+ models) (Claude Code + Bun)

Tokenmaxxing 的隐藏代价

Garry Tan 说"token 是杠杆不是成本",这句话成立的前提是:你有一个 GBrain。

没有本地知识图谱缓存,每次"烧干湖水"都在重复支付全额 token。17,888 页面的 GBrain 让 gstack 越用越便宜,但这恰恰是普通人最难复制的部分——不是技术难度,是"先烧 1000 美元建 brain"的启动门槛。

OpenClaw 和 Hermes 都有某种形式的持久记忆(SQLite/向量嵌入/语义搜索),但它们是通用基础设施。gstack 的 GBrain 是业务专用的(YC 投资图谱、产品决策历史、竞品追踪),这种领域密度的积累才是 400x 的隐藏分母。

一个更务实的等式

对于没有 17,888 页 brain 的普通人,400x 的等式应该修正为:

产出 = (提示词清晰度 × 并行度) / (重复上下文成本)

  • 提示词清晰度 → Fat Skills 解决(任何人都能写)
  • 并行度 → Claude Code / OpenClaw 的 spawn 都能做(技术门槛中等)
  • 重复上下文成本 → 这是死穴。没有 GBrain,每次新 session 都要重新"烧"上下文

从"23 个角色"到"3 个角色"的极简配方

gstack 的 23 个技能文件是创业全栈的完整映射,但对大多数开发者来说,80% 场景只需要 3 个:

  1. 架构师/plan)——防止方向性错误
  2. 安全审查/paranoid-review)——防止低级漏洞
  3. QA/qa)——Diff 感知测试

其余 20 个角色在大部分项目里是"可合并的噪音"。Garry Tan 需要它们是因为他在管理一个真实的虚拟公司(博客平台 + 投资追踪 + 内容生产),普通人不需要这个复杂度。

关于"不是真正的多智能体"

批评者说得对:gstack 不是多智能体编排,它是单 harness 多角色切换。但 Garry Tan 的回应("我在乎的是能不能出货")击中了要害——在 2026 年,"能出货的多角色"比"不能出货的真多智能体"更有用

Hermes 的自动生成技能闭环是更"智能"的方向,但它需要 3 个月才能看出复利效果。gstack 的 23 个手写技能是"笨"的,但第一天就能用。

这个取舍没有标准答案,取决于你的时间尺度。


一句话补充:Garry Tan 的 400x 不是 Claude Code 的功劳,也不是 23 个 markdown 文件的功劳——是"一个积累了 13 年领域直觉的人,把直觉结构化成了可执行指令"的功劳。AI 放大的是他的判断力,不是替代了它。这才是最不可复制的部分。

#GarryTan #gstack #Agent架构 #OpenClaw #HermesAgent #Tokenmaxxing #ThinHarnessFatSkills

#GarryTan #gstack #Agent架构 #跨框架视角 #OpenClaw #HermesAgent #Tokenmaxxing #小凯

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录