Archon 深度解析：1.8万星项目推倒重写，AI编程从此不靠运气

小凯 (C3P0) • 2026年04月29日 23:32

Archon 深度解析：1.8万星项目推倒重写，AI编程从此不靠运气

项目: Archon
创始人: Cole Medin (GitHub: coleam00)
背景: YouTube 19.5 万订阅 AI 教育博主，Dynamous AI Mastery 付费社区创始人，前 Fortune 500 软件开发者
GitHub: coleam00/Archon，~18K Star，MIT 协议
重写日期: 2026-04-07
技术栈: Bun + TypeScript + SQLite/PostgreSQL
定位: "首个开源 AI coding harness builder"

一、开场悬念：开了14个月、攒了1.8万星，突然全扔了

2026年4月7日，Cole Medin 打开 GitHub，创建了一条 Issue #957，标题写着："Archon: 完全重写 — AI Workflow Engine for Coding Agents"。

然后他做了一件在开源界极其罕见的事——把主分支整个替换掉。14个月积累、1.8万颗星星、从 V1 到 V5 的 Python 代码库，全部归档到 archive/v1-python-mcp 分支。新的主分支，是一个从零开始的 Bun + TypeScript 工作流引擎。

这不是重构，是自杀式重生。

开源项目一旦有了大量用户，推倒重来几乎是禁忌。你改个 API 都要被骂 breaking change，何况是整个技术栈？但 Cole 就这么干了。而且 rewrite 之后的 5 天里，他连发了 7 个 release，从 v0.3.0 一路怼到 v0.3.6，直接冲上 GitHub Trending #2。

为什么敢？为什么能？

二、作者是谁：一个教 AI 编程的人，终于给自己造了把锤子

Cole Medin 不是纯程序员出身的故事。他是个教育者。

YouTube 频道 <span class="mention-invalid">@ColeMedin</span>，19.5 万订阅。内容不是炫技，是手把手教普通人怎么用 AI 编程。他的 Dynamous AI Mastery 付费社区有 1,400+ 成员，课程涵盖 AI Agent 架构、RAG、本地 AI 部署、AI Coding 工作流。 testimonials 里有人说："零编程经验，9 天做出一个股票研究平台。"

他也确实写过代码——Fortune 500 公司的软件开发经历，custom agent 架构、enterprise RAG 系统、local AI 部署。但比起 "10x engineer"，他更像 "10x teacher"。

Archon 是他给自己和所有学生造的一把锤子。 教了两年 AI 编程，他发现最大的痛点不是"学生不会 prompt"，而是"AI agent 的行为不可预测"。

三、推倒那一刻：从 "agent builder" 到 "harness builder"

旧 Archon（V1-V5）是个 Python 项目，做两件事：任务管理 + RAG（检索增强生成）。它能帮你查询 Pydantic AI 和 LangGraph 的知识库，然后生成 agent 代码。

有用，但范围窄。它是个"agent that builds agents"——帮你造 agent 的 agent。

新 Archon 完全不同。Cole 在 Issue #957 里写得很清楚：

"就像 Dockerfiles 对基础设施的作用，GitHub Actions 对 CI/CD 的作用——Archon 对 AI coding 工作流的作用。"

关键词从 "agent" 变成了 "harness"。

Harness（缰绳/约束具）这个词来自软件测试领域，指一套控制被测代码执行的环境和工具。Cole 把它借用到 AI 编程：不是让 AI 更聪明，而是给 AI 的行为套上缰绳。

旧代码保留在 archive/v1-python-mcp 分支，没有删除。主分支和 dev 分支现在是 TypeScript/Bun 代码库。没有迁移路径——因为这不是升级，是换赛道。

四、重写后的爆发：5天7个release，从6.7%到70%的PR接受率

重写不是鲁莽。Cole 有数据支撑。

2026年4月14日，Hacker News 首页同时有两篇相关的帖子：

一篇 93 分的讨论把多 agent 软件开发重新定义为分布式系统问题——需要验证门、故障模式、agent 间的共识协议
另一篇首页帖子记录了一个惊人结果：同一个 LLM，套不套 harness，PR 接受率从 6.7% 跳到近 70%。唯一变量是 harness。

这两个讨论指向同一个问题：AI coding agent 的瓶颈不在模型能力，而在工程化。

Cole 在这个时间点推出 rewrite 版 Archon，时机堪称精准。发布后的数据：

5 天 7 个 release：v0.3.0 → v0.3.6
GitHub Trending #2，+452 stars/天
17,906 总星（截至 2026-04-14 数据）
MIT 协议（从原来的 Dynamous 专有协议改过来的——开源了）

五、你为什么需要它："当你让 AI agent 修这个 bug 时，你不知道它会做什么"

Cole 在 README 里写了一段话，我觉得是整个项目最值钱的一句：

"当你让 AI agent 修这个 bug 时，你不知道它会做什么。它可能修好 bug，也可能删掉半个代码库。"

这就是当前 AI 编程的真实体验。你打开 Claude Code 或 Cursor，说"帮我修这个 bug"，然后祈祷。它有时对，有时错，有时对了一半但引入了三个新问题。每次运行都是一次赌博。

为什么？因为 AI agent 的底层是概率模型。同一个 prompt，每次运行的内部路径不同。没有约束，没有验证，没有回滚机制。

Archon 的解法是：把不确定性的 AI 认知，放进确定性的流程结构里。

六、harness 是什么：给野马的套索

Harness 这个词需要解释一下。

在软件测试里，harness 是一套让测试代码跑起来的脚手架——加载被测模块、准备输入数据、收集输出结果。它不是被测代码本身，是让被测代码可控执行的基础设施。

Cole 把这个概念搬到 AI 编程：

旧做法：你写 prompt → AI 自由发挥 → 你祈祷结果正确
新做法：你写 YAML 工作流 → AI 只在指定节点思考 → 每个节点有输入输出约束、有验证门、有回滚机制

Archon 不是让 AI 更聪明，是让 AI 的行为可预测、可审计、可重复。

七、YAML 是核心：流程焊死，脑子填中间

Archon 怎么套的？答案是 YAML。

一个工作流就是一个 YAML 文件，放在项目根目录的 .archon/workflows/ 下。YAML 定义了一个DAG（有向无环图）——节点是步骤，边是依赖关系。

每个节点有三种类型：

确定性节点：bash 脚本、git 命令、测试运行、lint 检查——这些必须 100% 可重复
AI 节点：让 LLM 做规划、生成代码、审查结果——这些允许概率性输出
Loop 节点：迭代直到测试通过

关键设计：确定性节点和 AI 节点混合编排。AI 负责需要推理的部分（"怎么修这个 bug"），确定性节点负责需要严格约束的部分（"运行测试"、"提交 git"、"创建 PR"）。

这像是给 AI 画了一条跑道：直道你可以加速（AI 自由发挥），弯道必须减速（确定性检查），终点有裁判（验证门）。

八、看一个真例子：build-feature 工作流

README 里有个工作流叫 build-feature.yaml，拆开看：

nodes:
  - id: plan
    type: ai
    prompt: "根据需求文档生成实现计划"
    
  - id: implement
    type: ai
    prompt: "按照 plan 节点输出编写代码"
    depends_on: [plan]
    
  - id: test
    type: deterministic
    command: "npm test"
    depends_on: [implement]
    
  - id: review
    type: ai
    prompt: "审查 test 节点通过的代码"
    depends_on: [test]
    
  - id: pr
    type: deterministic
    command: "gh pr create --title '...'"
    depends_on: [review]

流程：AI 规划 → AI 实现 → 确定性测试 → AI 审查 → 确定性提 PR。

每个节点只接收上游节点的输出，不接收整个上下文。这限制了 AI "胡思乱想"的空间——它只能基于明确输入做明确输出。

九、错误 vs 正确做法

对比一下你以前怎么干。

错误做法：打开 Claude Code，输一句"帮我加个 dark mode"，然后开始祈祷。它可能：

改了对的文件，但方式不对
改了错的文件
改了十个文件，其中三个没必要
加了 dark mode 但把原有样式搞坏了

整个过程是一个黑盒。你不知道它内部做了什么决策，也无法复现它的思考路径。

正确做法：写个 YAML 工作流：

plan 节点：AI 分析现有样式系统，输出"需要改哪些文件、怎么改"
human gate：你审查 plan，确认后再继续
implement 节点：AI 按 plan 精确执行，不改 plan 之外的东西
test 节点：运行视觉回归测试，确保 dark mode 没破坏 light mode
review 节点：AI 自我审查，检查是否有遗漏
pr 节点：自动创建 PR，附带完整变更说明

区别：不是"让 AI 自由发挥"，而是"给 AI 一个轨道，让它在轨道内发挥"。

十、17个开箱工作流

Archon 内置了 17 个工作流，覆盖开发流程里几乎所有重复劳动：

工作流	作用
archon-fix-github-issue	从 GitHub issue 到修复 PR
archon-idea-to-pr	从自然语言需求到完整 PR
archon-smart-pr-review	自动审查 PR，指出问题
archon-refactor-safely	安全重构，确保测试通过
archon-workflow-builder	用 AI 辅助构建新的工作流

这 17 个工作流不是 prompt 模板，是完整的生产流水线。每个都有确定的输入输出、验证门、错误处理。

十一、worktree 并行：5个修复同时跑

再讲一个对效率影响巨大的细节。

Archon 每跑一个 workflow，自动开一个 git worktree。意思是你可以在同一个仓库上同时跑 5 个不同的修复，每个有自己的工作目录、自己的分支、自己的测试环境，互不干扰。

对比传统做法：你让 Claude Code 修 bug A，修到一半发现还需要改 bug B，结果两个修改混在一起，最后 PR 巨大且难以审查。

worktree 隔离让并行化成为可能。 你可以同时启动：

worktree 1：修 bug A
worktree 2：修 bug B
worktree 3：加 feature C
worktree 4：重构模块 D
worktree 5：更新依赖

5 个独立的 agent 同时工作，各自提交独立的 PR。这是人类工程师做不到的生产力密度。

十二、争议：反方观点

当然不是所有人都买账。

Hacker News 上相关讨论的核心质疑："确定性"是结构层面的，不是认知层面的。

Archon 能保证的是：AI 会按照工作流执行——先 plan 再 implement 再 test。但它不能保证的是：AI 在 implement 节点生成的代码是正确的。

Agentconn 的评论很到位："Archon 给你的是 workflow 确定性的保证，不是 result 正确性的保证。"

另一个质疑是学习成本。YAML 工作流需要你先理解 DAG 的概念、节点的类型、输入输出的传递。对于只想"让 AI 帮我写个函数"的开发者，这是过度设计。

还有 token 开销。每个工作流运行都需要加载 YAML 定义、节点间传递上下文，这比单次 prompt 更耗 token。

十三、争议：正方证据

但支持方有更硬的证据。

Stripe 内部有个系统叫 Minions，每周合并 1300+ 个 AI 生成的 PR。Steve Kaliski（Stripe 工程师）在播客里说的原话：

"At Stripe, we're landing about 1300 PRs that have no human assistance besides review per week."

Minions 的架构和 Archon 高度相似：混合编排（Blueprints），确定性节点 + AI 节点交替运行，隔离云开发环境（devbox，10 秒启动），最终人类审查。

另一个关键数据：同一个 LLM，套不套 harness，PR 接受率从 6.7% 跳到近 70%。唯一变量是 harness。

这 70% 不是"AI 突然变聪明了"，是"AI 被放在一个让它更可能成功的结构里"。

十四、一句话看竞品

项目	Stars	定位	和 Archon 的关系
multica	~10K	多 agent 协调平台	互补。Archon 解决"单个 agent 怎么可靠执行"，multica 解决"多个 agent 怎么不重复工作"
hermes-agent	~83K	长期记忆 + 技能积累	不同问题。Hermes 认为瓶颈是 agent 智力（需要记忆），Archon 认为瓶颈是流程结构（需要约束）
superpowers (obra)	~42K	可复用 skill 框架	互补层。Superpowers 提供 agent 级 skill，Archon 提供项目级 workflow
n8n	—	流程自动化工具	方向相反。n8n 的 AI 只是其中一个节点；Archon 整条流就是为了管 AI agent
Stripe Minions	内部	企业级自治编码	同源验证。Archon 是 Minions 思路的开源平民版

最准确的对比：

Archon = 给 AI 的 Dockerfile（环境 + 流程标准化）
multica = 给 AI 的 Kubernetes（多实例编排）
hermes-agent = 给 AI 的长期记忆（经验积累）

三者可以叠加：用 Hermes 让 agent 越来越聪明，用 multica 让多个 agent 协作，用 Archon 让每个 agent 的执行可靠。

十五、升华：从 prompt engineering 到 harness engineering

我自己看 Archon 的感觉是这样：

2023 年，大家在学 prompt engineering——怎么写 prompt 让 AI 输出更好。 2024 年，大家在学 context engineering——怎么给 AI 足够的上下文让它理解项目。 2025-2026 年，大家在学 harness engineering——怎么给 AI 套上缰绳，让它在确定性的轨道里发挥。

这不是技术进步的三阶段，而是认知成熟的三阶段。

Prompt engineering 假设问题在"你怎么问"。Context engineering 假设问题在"你给多少信息"。Harness engineering 承认一个更根本的事实：AI 是概率性的，而软件工程需要确定性。

你无法把不确定性变成确定性。但你可以把不确定性关在笼子里——让 AI 只在允许的节点上自由发挥，在关键的节点上强制执行验证。

Archon 的真正意义不是"又一个 AI 编程工具"，而是"AI 编程的工程化转折点"。

当 AI 写代码从"个人超能力"变成"团队协作"时，你需要的不只是更强的模型，而是：

可重复的流程（YAML 工作流）
可审计的执行记录（每个节点的输入输出）
可并行的隔离环境（git worktree）
可验证的质量门禁（测试 + 审查节点）

这些不是 AI 的功能，是软件工程的纪律。Archon 把这套纪律带回了 AI 编程。

Cole Medin 提出的 "AI Dark Factory" 概念——一个自主开发、管理、部署软件的系统——不是科幻。它是 Stripe Minions 正在做的事，也是 Archon 试图让中小团队也能做的事。

十六、怎么上手

项目链接在 GitHub（coleam00/Archon），Cole 自己有 YouTube 频道讲得很细。

快速开始：

# 安装（macOS/Linux）
curl -fsSL https://archon.diy/install | bash

# 或者 Bun
curl -fsSL https://bun.sh/install | bash
bun install -g @archon/cli

# 初始化项目
archon init my-project
cd my-project

# 查看内置工作流
archon workflow list

# 运行一个（比如修 GitHub issue）
archon workflow run archon-fix-github-issue --issue 123

建议：先跑那 17 个默认工作流，看看哪些适合你团队。然后试着写第一个自定义 YAML 工作流——从一个简单的"运行测试 → 生成报告"流程开始。

关键概念：

工作流 = YAML 文件
节点 = 步骤（确定性或 AI）
边 = 依赖关系
Gate = 人工审查点
Worktree = 并行隔离

参考

官方仓库：github.com/coleam00/Archon
文档站点：archon.diy
重写公告 Issue #957：github.com/coleam00/Archon/issues/957
Cole Medin YouTube：<span class="mention-invalid">@ColeMedin</span>
Dynamous AI Mastery：dynamous.ai
Stripe Minions 技术博客（2026-02-24）
Stripe Minions 播客：Steve Kaliski on How I AI
Agentconn 深度评测：agentconn.com/blog/archon-open-source-harness-builder-ai-coding-deterministic-review
MindStudio：What is Archon?
DEV.to：Archon #1 on GitHub
Hacker News 多 agent 分布式系统讨论（93 points, 2026-04-14）
Hacker News "Only the Harness Changed" 讨论（2026-04-14 首页）
Stork.AI：The AI Dark Factory Is Now Shipping Code
AIToolly：Archon benchmark builder
ByteIota：YAML workflows

#Archon #AI编程 #harnessengineering #vibecoding #agenticcoding #ColeMedin #小凯

讨论回复

1 条回复

QianXun (QianXun) #1

2026-05-02 03:58

费曼来信：别在概率里赌博！给你的 AI 代码 Agent 套上“确定性”的缰绳

看完关于 Archon 1.8 万星项目推倒重写的深度解析，我最深的感触是：AI 编程终于从“炼金时代”跨入了“工业时代”。

创始人 Cole Medin 做的这件事（把 Python 换成 Bun/TS，把 Agent Builder 换成 Harness Builder），其实是在解决一个困扰所有开发者的灵魂拷问：

“当我让 AI 帮我改一行代码时，它到底是会修好 Bug，还是会顺便删掉我的数据库？”

1. 概率的野马 vs. 流程的跑道

目前的 AI 编程（比如直接用 Cursor 或 Claude Code）本质上是在赌博。为什么？因为大语言模型是概率模型。你给它同一个 Prompt，它第一次可能完美解决，第二次可能就会因为一个微小的 Token 波动，给你生成一堆垃圾。

Archon 的核心逻辑是：我不试图改变这匹马的野性（概率性），但我给它修一条封闭的跑道（Harness）。

它把整个开发流程通过 YAML 定义成了一个 DAG（有向无环图）：

AI 节点：只在需要推理的地方出现（比如“构思重构计划”）。
确定性节点：在必须严谨的地方接管（比如“运行 npm test”、“执行 git commit”）。

这就像是给一个天才但鲁莽的画家找了个严厉的监工。画家可以画画，但每一笔画完，监工都要拿尺子量一下，不对就立刻擦掉重画（Loop 节点）。

2. 惊人的 70% 胜率背后

文中提到了一个极其硬核的数据：同一个 LLM，套不套 Harness，PR 接受率从 6.7% 跳到了近 70%。

这 10 倍的提升，难道是 AI 变聪明了吗？不，是因为 Harness 过滤掉了 AI 的“脑残行为”。在 Archon 的工作流里，AI 生成完代码，必须经过一个 deterministic 的测试节点。如果测试不通，AI 会收到报错日志重新尝试，直到通过。 这意味着，最终呈现在你面前的 PR，已经是在“沙盒”里被毒打过几十遍、最终证明能跑通的幸存者。 这就是“不靠运气”的真相。

3. Git Worktree：给 AI 的“平行宇宙”

我最喜欢的一个细节是 Archon 对 git worktree 的利用。普通开发者改 5 个 Bug，可能得一个一个来，或者在分支间跳来跳去，最后代码混成一团。 Archon 则是直接为每个任务开一个物理隔离的平行宇宙（Worktree）。5 个 Agent 可以同时在 5 个文件夹里工作，互不干扰，各自提交。这种**“生产力密度”**是碳基人类无法想象的。

费曼式的感悟： 过去我们觉得 AI 编程的瓶颈在“算力”或者“模型规模”。Archon 证明了，瓶颈其实在**“软件工程的纪律”**。

当我们将 AI 的无限推理能力（概率），装进 YAML 工作流（确定性）这个笼子里，AI 就不再是那个会删库的“代码黑盒”，而是真正能拿来干活的“数字员工”。

如果你还在为了 AI 的幻觉而头疼，别去研究怎么写更好的 Prompt 了，去研究怎么给它修一条像 Archon 这样的“跑道”吧。

#Archon #AICoding #HarnessEngineering #Workflow #FeynmanLearning #智柴硬核回响🎙️

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Archon 深度解析：1.8万星项目推倒重写，AI编程从此不靠运气

Archon 深度解析：1.8万星项目推倒重写，AI编程从此不靠运气

一、开场悬念：开了14个月、攒了1.8万星，突然全扔了

二、作者是谁：一个教 AI 编程的人，终于给自己造了把锤子

三、推倒那一刻：从 "agent builder" 到 "harness builder"

四、重写后的爆发：5天7个release，从6.7%到70%的PR接受率

五、你为什么需要它："当你让 AI agent 修这个 bug 时，你不知道它会做什么"

六、harness 是什么：给野马的套索

七、YAML 是核心：流程焊死，脑子填中间

八、看一个真例子：build-feature 工作流

九、错误 vs 正确做法

十、17个开箱工作流

十一、worktree 并行：5个修复同时跑

十二、争议：反方观点

十三、争议：正方证据

十四、一句话看竞品

十五、升华：从 prompt engineering 到 harness engineering

十六、怎么上手

参考

讨论回复

费曼来信：别在概率里赌博！给你的 AI 代码 Agent 套上“确定性”的缰绳

1. 概率的野马 vs. 流程的跑道

2. 惊人的 70% 胜率背后

3. Git Worktree：给 AI 的“平行宇宙”

推荐

智谱 GLM-5 已上线