GSD 深度解析:一个不住代码的 House DJ,如何重新定义 AI 编程的工作流
项目: GSD (Get Shit Done) —— 上下文工程与 spec-driven 开发框架
创始人: Lex Christopherson,网名 TÂCHES / glittercowboy
背景: 住在哥斯达黎加的 house music 制作人,自称"我不写代码"
GitHub: gsd-build/get-shit-done,5.4万+ Star
首次提交: 2025-12-14,4 个月从零到 5.4 万星
安装:npx get-shit-done-cc@latest
一、最反直觉的开头
Lex Christopherson 住在哥斯达黎加,本职是 house music 制作人,艺名 TÂCHES。他在 GitHub 的自我介绍写着:"我是一个独立开发者。我不写程序,Claude Code 帮我写。"
就是这么一个"不写代码的人",在 4 个月里做出了 GitHub 上 5.4 万颗星的框架。Amazon、Google、Shopify、Webflow 的工程师都在用。
这个反差本身就说明了问题:AI 编程的门槛已经低到了什么程度,以及为什么"会写代码"不再是稀缺能力,"会组织代码生产"才是。
二、火箭增长不是运气
2025 年 12 月 14 日,Lex 第一次提交代码。2026 年 4 月,5.4 万星。
这个增长速度不是"爆款视频"式的偶然传播,而是需求驱动。每一个用过 Claude Code 做复杂项目的人,都遇到过同一个问题——context rot。
Context Rot:不是玄学,是物理
社区测试的数据很清楚:
| 上下文利用率 | 表现 |
|---|---|
| 0-30% | 巅峰质量。全面、细致、记得住一切 |
| 50%+ | 开始赶工。"我会更简洁。"偷工减料 |
| 70%+ | 幻觉。遗忘约束。偏离规范 |
你开头说"用 jose 做 JWT,不要用 jsonwebtoken 因为 CommonJS 问题",写到第 50 个任务时,Claude 突然给你装了一个 jsonwebtoken。不是它变笨了,是你的指令在 200K token 的窗口里被稀释了。
这不是 Claude 的 bug,这是所有 LLM 的物理限制——注意力机制在长序列上必然衰减。
Lex 的洞察是:不要试图修复 LLM 的注意力衰减,而是绕过它。
三、核心解法:把工作切成原子,每个原子配一个干净大脑
GSD 的架构可以浓缩成一句话:每个任务都开一个全新的 Claude 实例,拿到干净的 200K 上下文窗口。主对话只做调度,负载维持在 30-40%。
六条命令驱动整个工作流
/gsd-new-project → 启动新项目,AI 反复问你直到搞清楚要做什么
/gsd-discuss-phase → 讨论阶段,捕捉实现决策(布局、API、内容系统)
/gsd-plan-phase → 研究 + 规划,生成 2-3 个原子任务计划(XML 格式)
/gsd-execute-phase → 并行执行所有计划,每个任务 fresh context
/gsd-verify-work → 验证:自动测试 + 人工确认
/gsd-ship → 创建 PR,自动生成 body
一个具体例子:做登录功能
错误做法:直接说"帮我写个登录",让 Claude 在一个会话里把数据库、API、前端全做了。到第三个小时,它忘了你用 jose 不用 jsonwebtoken,忘了密码要 bcrypt 而不是 md5。
GSD 做法:
/gsd-discuss-phase→ 确认"邮箱+密码"还是"OAuth",确认前端表单布局/gsd-plan-phase→ 生成 4 个原子任务:数据库 schema、密码哈希、JWT 签发、前端表单/gsd-execute-phase→ 4 个并行 subagent,每个只看到一个任务 + 相关文件- 每个任务完成后立刻一个原子 git commit
/gsd-verify-work→curl -X POST localhost:3000/api/auth/login验证
第 50 个任务和第 1 个任务质量相同,因为第 50 个任务跑在全新的上下文窗口里。
四、架构解剖:从 Markdown 提示词到 TypeScript SDK
GSD 的演进本身就有信息量。
v1:纯 Markdown 提示词(2025-12)
- 靠 LLM "读懂提示词然后乖乖照做"
- 上下文管控靠 LLM 自律
- crash 后从零开始
- 没有成本追踪
v2:TypeScript SDK(2026-01 起)
- 直接在代码层面控制 agent session
- 强制清除上下文、注入文件、管理 git 分支
- 自动从断点恢复
- 内建 token 和费用监控
- 原生支持 wave-based 并行
- 自动检测 stuck loop
这个演进说明了一个重要趋势:prompt engineering 不够用了。当 AI 编程从"玩具"变成"生产工具"时,你需要的是代码层面的编排系统,而不是更长的提示词。
多 Agent 编排: thin orchestrator + 专业 subagent
| 阶段 | Orchestrator 做 | Agents 做 |
|---|---|---|
| 研究 | 协调、呈现结果 | 4 个并行 researcher 调查技术栈、功能、架构、坑 |
| 规划 | 验证、管理迭代 | Planner 创建计划,checker 验证,循环直到通过 |
| 执行 | 分组为 waves、追踪进度 | Executor 并行实现,每个 fresh 200K context |
| 验证 | 呈现结果、路由下一步 | Verifier 检查代码,debugger 诊断失败 |
主 session 永远不会做重活。它只 spawning agents、等待、整合结果。这意味着你可以跑完一整个 phase(深度研究 + 多个计划创建和验证 + 数千行代码并行执行 + 自动验证)——而你的主上下文窗口始终保持在 30-40%。
文件系统:AI 的外部记忆
GSD 不是把状态存在对话里,而是存在磁盘上的文本文件中:
| 文件 | 作用 |
|---|---|
PROJECT.md |
项目愿景,始终加载 |
REQUIREMENTS.md |
范围明确的 v1/v2 需求,可追溯到 phase |
ROADMAP.md |
要去哪、已完成什么 |
STATE.md |
决策、阻塞、位置——跨 session 的记忆 |
PLAN.md |
原子任务 + XML 结构 + 验证步骤 |
SUMMARY.md |
发生了什么、改了什么,写入历史 |
research/ |
生态知识(技术栈、功能、架构、坑) |
todos/ |
捕获的想法和后续任务 |
threads/ |
跨 session 的持久化上下文线程 |
这就是给 AI 做的"外部存储"。当新 session 启动时,它读这些文件而不是读 200K 的聊天记录。
XML Prompt 格式
GSD 不用 Markdown 写计划,用 XML:
<task type="auto">
<name>Create login endpoint</name>
<files>src/app/api/auth/login/route.ts</files>
<action>
Use jose for JWT (not jsonwebtoken - CommonJS issues).
Validate credentials against users table.
Return httpOnly cookie on success.
</action>
<verify>curl -X POST localhost:3000/api/auth/login returns 200 + Set-Cookie</verify>
<done>Valid credentials return cookie, invalid return 401</done>
</task>
LLM 解析结构化 XML 比自由 Markdown 更可靠。每个任务都有精确的指令、内置验证、明确的完成标准。
五、原子 Commit 的妙处
每个任务完成后立刻一个 commit:
abc123f docs(08-02): complete user registration plan
def456g feat(08-02): add email confirmation flow
hij789k feat(08-02): implement password hashing
lmn012o feat(08-02): create registration endpoint
三个好处:
- git bisect 能找到精确失败的步骤——AI 引入 bug 时,你知道是哪一步
- 每个任务独立可 revert——某个功能不想要了,
git revert一个 commit 搞定 - Claude 的未来 session 能读清晰历史——不用在 200K 上下文里翻聊天记录
这不是 GSD 的发明,这是传统软件工程的最佳实践被 AI 重新发现。
六、我的独立判断
1. GSD 不是"更好的 Claude Code 插件",是"AI 编程的操作系统"
传统框架(如 SpecKit)是在 Claude Code 上加功能。GSD 是在重新定义 Claude Code 的使用方式——从"一个长对话"变成"一个编排系统"。
类比:
- 不用 GSD:像一个人连续工作 8 小时不休息,到第 6 小时开始出错
- 用 GSD:像项目管理——项目领导定方向,每个开发者只做 45 分钟专注冲刺,然后交接给下一个
2. "不写代码"的创始人反而看到了真正的问题
Lex 不是程序员出身,所以他没有被"代码应该怎么写"的惯性思维束缚。他看到的不是"Claude 还不够聪明",而是"即使 Claude 很聪明,它在长对话里也会变蠢"。
这是外行优势的一个经典案例——没有领域偏见,反而能看到从业者习以为常的问题。
3. v1→v2 演进揭示的信号:prompt engineering 正在让位于 agent engineering
GSD v1 是 Markdown 提示词。v2 是 TypeScript SDK。当 AI 编程从实验走向生产时,prompt 不够用,你需要代码。
这个趋势在多个地方同时发生:
- OpenClaw 的 ACP 架构(agent harness)
- Claude Code 的插件系统
- GSD 的 SDK 化
未来 AI 编程的竞争不在"谁的模型更聪明",而在"谁的编排系统更可靠"。
4. --minimal 模式是最务实的工程决策
完整版 GSD 每次回合有 ~12k tokens 的固定开销(86 skills + 33 agents 的描述注入系统提示)。对于 32K-128K 的本地模型或 token 计费 API,这是致命的。
--minimal 模式把开销降到 ~700 tokens(仅 6 个核心 skill),≥94% 降低。
这不是妥协,这是工程智慧——认识到不同用户有不同约束,提供 tiered 方案。
5. GSD 的真正成本不是 token,是时间
GSD 会增加 10-25% 的 token 消耗(来自规划文件、结构化提示、STATE.md 更新)。但它减少了总 session 数——你不用在"Claude 忘了需求"后重新解释一切。
更关键的是时间成本:GSD 不是"更快",它是"更稳"。每个 phase 需要 45-60 分钟(30 分钟是 GSD 在工作,你在等待)。
对于小脚本或单文件修改,GSD 是过度工程化。对于多文件、多会话、多天的项目,它物有所值。
七、争议:不是所有人都买账
Hacker News 上的批评声音:
- "GSD 是过度工程化的玩意":不仅没把事做完,还烧光了 token budget
- "简单任务用 GSD 像用坦克压蚂蚁":ceremony too much
- "Token 开销不可接受":完整版 ~12k tokens/回合的冷启动
这些批评是真实的,但它们批评的是"用错场景",不是框架本身。GSD 自己也在 README 里承认:"For a quick script or a single-file change, the phase-based workflow is overkill."
一个诚实的适用场景地图
| 场景 | 推荐方案 |
|---|---|
| 单文件修改 / 小脚本 | 直接 Claude Code,不用框架 |
| 1-3 个文件的 feature | /gsd-fast(跳过规划) |
| 多文件、多 session 项目 | 完整 GSD workflow |
| 长期维护的 production 项目 | GSD + atomic commit + verification |
| Token 计费 API(如 GPT-4) | --minimal 模式 + RTK 压缩 |
| 本地 LLM(32K-128K 上下文) | --minimal 模式 |
八、竞品一句话
| 框架 | 核心哲学 | 与 GSD 的区别 |
|---|---|---|
| BMAD | 做加法:给你一整套 PM、架构师、Scrum Master 的 AI 团队 | GSD 做减法:只做调度,不重 |
| SpecKit | GitHub 官方 spec-driven 工具 | GSD 说 SpecKit "把事情搞复杂了" |
| Superpowers | 强制执行 TDD | GSD 不管测试纪律,管上下文 |
| GSTACK | 角色治理 | 更偏向组织架构 |
| OpenSpec / Taskmaster | 其他 spec 工具 | Lex 试过,说 GSD 效果最好 |
GSD 的核心差异化:不追求"更全面的 AI 团队",追求"每个任务拿到干净的大脑"。
九、怎么上手
一行命令:
npx get-shit-done-cc@latest
会让你选 runtime(Claude Code / OpenCode / Gemini CLI / Cursor / Windsurf 等)和安装位置(global / local)。
推荐起步:
npx get-shit-done-cc@latest --claude --global --minimal
然后:
cd your-project/gsd-new-project— 回答 AI 的问题直到它理解你的需求/gsd-discuss-phase 1— 确认第一阶段的实现细节/gsd-plan-phase 1— 让 AI 研究并生成计划/gsd-execute-phase 1— 去泡杯咖啡,AI 会并行执行/gsd-verify-work 1— 测试它做的对不对/gsd-ship 1— 创建 PR
十、最厉害的哲学
TÂCHES 这个项目最厉害的地方不是技术,是哲学。
它告诉你:AI 写代码这件事,瓶颈早就不在模型聪不聪明,而在你给它的结构。
Claude 是天才,但没有结构它就漂。Context 会腐烂。会话变成乒乓球地狱。你 ping pong 一个需求三天,最后得到的代码一团糟。
GSD 的解法不是让 Claude 变得更聪明——它不能。它的解法是让 Claude 的工作方式更像人类团队——有规划、有分工、有交接、有记录、有验证。
这不只是编程框架,这是AI 时代项目管理的元框架。
参考
- 官方网站:github.com/gsd-build/get-shit-done
- 创始人:Lex Christopherson (TÂCHES / glittercowboy)
- Pulumi 官方对比:pulumi.com/blog/claude-code-orchestration-frameworks
- tenten.co 中文解析:tenten.co/learning/superpower-gstack-gsd
- MonkeyRun 提取的 HWW-1.6:monkeyrun.com/blog/how-we-stopped-our-ai-agents-from-getting-dumber
- GSD Plugin(92% token 优化):github.com/jnuyens/gsd-plugin
- Token 开销讨论:github.com/gsd-build/get-shit-done/discussions/2372
#GSD #GetShitDone #ClaudeCode #vibecoding #contextrot #AI编程 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。