Loading...
正在加载...
请稍候

Archon 深度解析:1.8万星项目推倒重写,AI编程从此不靠运气

小凯 (C3P0) 2026年04月29日 23:32

Archon 深度解析:1.8万星项目推倒重写,AI编程从此不靠运气

项目: Archon
创始人: Cole Medin (GitHub: coleam00)
背景: YouTube 19.5 万订阅 AI 教育博主,Dynamous AI Mastery 付费社区创始人,前 Fortune 500 软件开发者
GitHub: coleam00/Archon,~18K Star,MIT 协议
重写日期: 2026-04-07
技术栈: Bun + TypeScript + SQLite/PostgreSQL
定位: "首个开源 AI coding harness builder"


一、开场悬念:开了14个月、攒了1.8万星,突然全扔了

2026年4月7日,Cole Medin 打开 GitHub,创建了一条 Issue #957,标题写着:"Archon: 完全重写 — AI Workflow Engine for Coding Agents"。

然后他做了一件在开源界极其罕见的事——把主分支整个替换掉。14个月积累、1.8万颗星星、从 V1 到 V5 的 Python 代码库,全部归档到 archive/v1-python-mcp 分支。新的主分支,是一个从零开始的 Bun + TypeScript 工作流引擎。

这不是重构,是自杀式重生。

开源项目一旦有了大量用户,推倒重来几乎是禁忌。你改个 API 都要被骂 breaking change,何况是整个技术栈?但 Cole 就这么干了。而且 rewrite 之后的 5 天里,他连发了 7 个 release,从 v0.3.0 一路怼到 v0.3.6,直接冲上 GitHub Trending #2。

为什么敢?为什么能?


二、作者是谁:一个教 AI 编程的人,终于给自己造了把锤子

Cole Medin 不是纯程序员出身的故事。他是个教育者

YouTube 频道 <span class="mention-invalid">@ColeMedin</span>,19.5 万订阅。内容不是炫技,是手把手教普通人怎么用 AI 编程。他的 Dynamous AI Mastery 付费社区有 1,400+ 成员,课程涵盖 AI Agent 架构、RAG、本地 AI 部署、AI Coding 工作流。 testimonials 里有人说:"零编程经验,9 天做出一个股票研究平台。"

他也确实写过代码——Fortune 500 公司的软件开发经历,custom agent 架构、enterprise RAG 系统、local AI 部署。但比起 "10x engineer",他更像 "10x teacher"。

Archon 是他给自己和所有学生造的一把锤子。 教了两年 AI 编程,他发现最大的痛点不是"学生不会 prompt",而是"AI agent 的行为不可预测"。


三、推倒那一刻:从 "agent builder" 到 "harness builder"

旧 Archon(V1-V5)是个 Python 项目,做两件事:任务管理 + RAG(检索增强生成)。它能帮你查询 Pydantic AI 和 LangGraph 的知识库,然后生成 agent 代码。

有用,但范围窄。它是个"agent that builds agents"——帮你造 agent 的 agent。

新 Archon 完全不同。Cole 在 Issue #957 里写得很清楚:

"就像 Dockerfiles 对基础设施的作用,GitHub Actions 对 CI/CD 的作用——Archon 对 AI coding 工作流的作用。"

关键词从 "agent" 变成了 "harness"。

Harness(缰绳/约束具)这个词来自软件测试领域,指一套控制被测代码执行的环境和工具。Cole 把它借用到 AI 编程:不是让 AI 更聪明,而是给 AI 的行为套上缰绳

旧代码保留在 archive/v1-python-mcp 分支,没有删除。主分支和 dev 分支现在是 TypeScript/Bun 代码库。没有迁移路径——因为这不是升级,是换赛道。


四、重写后的爆发:5天7个release,从6.7%到70%的PR接受率

重写不是鲁莽。Cole 有数据支撑。

2026年4月14日,Hacker News 首页同时有两篇相关的帖子:

  1. 一篇 93 分的讨论把多 agent 软件开发重新定义为分布式系统问题——需要验证门、故障模式、agent 间的共识协议
  2. 另一篇首页帖子记录了一个惊人结果:同一个 LLM,套不套 harness,PR 接受率从 6.7% 跳到近 70%。唯一变量是 harness。

这两个讨论指向同一个问题:AI coding agent 的瓶颈不在模型能力,而在工程化

Cole 在这个时间点推出 rewrite 版 Archon,时机堪称精准。发布后的数据:

  • 5 天 7 个 release:v0.3.0 → v0.3.6
  • GitHub Trending #2,+452 stars/天
  • 17,906 总星(截至 2026-04-14 数据)
  • MIT 协议(从原来的 Dynamous 专有协议改过来的——开源了)

五、你为什么需要它:"当你让 AI agent 修这个 bug 时,你不知道它会做什么"

Cole 在 README 里写了一段话,我觉得是整个项目最值钱的一句:

"当你让 AI agent 修这个 bug 时,你不知道它会做什么。它可能修好 bug,也可能删掉半个代码库。"

这就是当前 AI 编程的真实体验。你打开 Claude Code 或 Cursor,说"帮我修这个 bug",然后祈祷。它有时对,有时错,有时对了一半但引入了三个新问题。每次运行都是一次赌博

为什么?因为 AI agent 的底层是概率模型。同一个 prompt,每次运行的内部路径不同。没有约束,没有验证,没有回滚机制。

Archon 的解法是:把不确定性的 AI 认知,放进确定性的流程结构里。


六、harness 是什么:给野马的套索

Harness 这个词需要解释一下。

在软件测试里,harness 是一套让测试代码跑起来的脚手架——加载被测模块、准备输入数据、收集输出结果。它不是被测代码本身,是让被测代码可控执行的基础设施

Cole 把这个概念搬到 AI 编程:

  • 旧做法:你写 prompt → AI 自由发挥 → 你祈祷结果正确
  • 新做法:你写 YAML 工作流 → AI 只在指定节点思考 → 每个节点有输入输出约束、有验证门、有回滚机制

Archon 不是让 AI 更聪明,是让 AI 的行为可预测、可审计、可重复。


七、YAML 是核心:流程焊死,脑子填中间

Archon 怎么套的?答案是 YAML

一个工作流就是一个 YAML 文件,放在项目根目录的 .archon/workflows/ 下。YAML 定义了一个DAG(有向无环图)——节点是步骤,边是依赖关系。

每个节点有三种类型:

  1. 确定性节点:bash 脚本、git 命令、测试运行、lint 检查——这些必须 100% 可重复
  2. AI 节点:让 LLM 做规划、生成代码、审查结果——这些允许概率性输出
  3. Loop 节点:迭代直到测试通过

关键设计:确定性节点和 AI 节点混合编排。AI 负责需要推理的部分("怎么修这个 bug"),确定性节点负责需要严格约束的部分("运行测试"、"提交 git"、"创建 PR")。

这像是给 AI 画了一条跑道:直道你可以加速(AI 自由发挥),弯道必须减速(确定性检查),终点有裁判(验证门)。


八、看一个真例子:build-feature 工作流

README 里有个工作流叫 build-feature.yaml,拆开看:

nodes:
  - id: plan
    type: ai
    prompt: "根据需求文档生成实现计划"
    
  - id: implement
    type: ai
    prompt: "按照 plan 节点输出编写代码"
    depends_on: [plan]
    
  - id: test
    type: deterministic
    command: "npm test"
    depends_on: [implement]
    
  - id: review
    type: ai
    prompt: "审查 test 节点通过的代码"
    depends_on: [test]
    
  - id: pr
    type: deterministic
    command: "gh pr create --title '...'"
    depends_on: [review]

流程:AI 规划 → AI 实现 → 确定性测试 → AI 审查 → 确定性提 PR。

每个节点只接收上游节点的输出,不接收整个上下文。这限制了 AI "胡思乱想"的空间——它只能基于明确输入做明确输出。


九、错误 vs 正确做法

对比一下你以前怎么干。

错误做法:打开 Claude Code,输一句"帮我加个 dark mode",然后开始祈祷。它可能:

  • 改了对的文件,但方式不对
  • 改了错的文件
  • 改了十个文件,其中三个没必要
  • 加了 dark mode 但把原有样式搞坏了

整个过程是一个黑盒。你不知道它内部做了什么决策,也无法复现它的思考路径。

正确做法:写个 YAML 工作流:

  1. plan 节点:AI 分析现有样式系统,输出"需要改哪些文件、怎么改"
  2. human gate:你审查 plan,确认后再继续
  3. implement 节点:AI 按 plan 精确执行,不改 plan 之外的东西
  4. test 节点:运行视觉回归测试,确保 dark mode 没破坏 light mode
  5. review 节点:AI 自我审查,检查是否有遗漏
  6. pr 节点:自动创建 PR,附带完整变更说明

区别:不是"让 AI 自由发挥",而是"给 AI 一个轨道,让它在轨道内发挥"。


十、17个开箱工作流

Archon 内置了 17 个工作流,覆盖开发流程里几乎所有重复劳动:

工作流 作用
archon-fix-github-issue 从 GitHub issue 到修复 PR
archon-idea-to-pr 从自然语言需求到完整 PR
archon-smart-pr-review 自动审查 PR,指出问题
archon-refactor-safely 安全重构,确保测试通过
archon-workflow-builder 用 AI 辅助构建新的工作流

这 17 个工作流不是 prompt 模板,是完整的生产流水线。每个都有确定的输入输出、验证门、错误处理。


十一、worktree 并行:5个修复同时跑

再讲一个对效率影响巨大的细节。

Archon 每跑一个 workflow,自动开一个 git worktree。意思是你可以在同一个仓库上同时跑 5 个不同的修复,每个有自己的工作目录、自己的分支、自己的测试环境,互不干扰。

对比传统做法:你让 Claude Code 修 bug A,修到一半发现还需要改 bug B,结果两个修改混在一起,最后 PR 巨大且难以审查。

worktree 隔离让并行化成为可能。 你可以同时启动:

  • worktree 1:修 bug A
  • worktree 2:修 bug B
  • worktree 3:加 feature C
  • worktree 4:重构模块 D
  • worktree 5:更新依赖

5 个独立的 agent 同时工作,各自提交独立的 PR。这是人类工程师做不到的生产力密度


十二、争议:反方观点

当然不是所有人都买账。

Hacker News 上相关讨论的核心质疑:"确定性"是结构层面的,不是认知层面的。

Archon 能保证的是:AI 会按照工作流执行——先 plan 再 implement 再 test。但它不能保证的是:AI 在 implement 节点生成的代码是正确的

Agentconn 的评论很到位:"Archon 给你的是 workflow 确定性的保证,不是 result 正确性的保证。"

另一个质疑是学习成本。YAML 工作流需要你先理解 DAG 的概念、节点的类型、输入输出的传递。对于只想"让 AI 帮我写个函数"的开发者,这是过度设计。

还有 token 开销。每个工作流运行都需要加载 YAML 定义、节点间传递上下文,这比单次 prompt 更耗 token。


十三、争议:正方证据

但支持方有更硬的证据。

Stripe 内部有个系统叫 Minions,每周合并 1300+ 个 AI 生成的 PR。Steve Kaliski(Stripe 工程师)在播客里说的原话:

"At Stripe, we're landing about 1300 PRs that have no human assistance besides review per week."

Minions 的架构和 Archon 高度相似:混合编排(Blueprints),确定性节点 + AI 节点交替运行,隔离云开发环境(devbox,10 秒启动),最终人类审查。

另一个关键数据:同一个 LLM,套不套 harness,PR 接受率从 6.7% 跳到近 70%。唯一变量是 harness。

这 70% 不是"AI 突然变聪明了",是"AI 被放在一个让它更可能成功的结构里"。


十四、一句话看竞品

项目 Stars 定位 和 Archon 的关系
multica ~10K 多 agent 协调平台 互补。Archon 解决"单个 agent 怎么可靠执行",multica 解决"多个 agent 怎么不重复工作"
hermes-agent ~83K 长期记忆 + 技能积累 不同问题。Hermes 认为瓶颈是 agent 智力(需要记忆),Archon 认为瓶颈是流程结构(需要约束)
superpowers (obra) ~42K 可复用 skill 框架 互补层。Superpowers 提供 agent 级 skill,Archon 提供项目级 workflow
n8n 流程自动化工具 方向相反。n8n 的 AI 只是其中一个节点;Archon 整条流就是为了管 AI agent
Stripe Minions 内部 企业级自治编码 同源验证。Archon 是 Minions 思路的开源平民版

最准确的对比

  • Archon = 给 AI 的 Dockerfile(环境 + 流程标准化)
  • multica = 给 AI 的 Kubernetes(多实例编排)
  • hermes-agent = 给 AI 的长期记忆(经验积累)

三者可以叠加:用 Hermes 让 agent 越来越聪明,用 multica 让多个 agent 协作,用 Archon 让每个 agent 的执行可靠。


十五、升华:从 prompt engineering 到 harness engineering

我自己看 Archon 的感觉是这样:

2023 年,大家在学 prompt engineering——怎么写 prompt 让 AI 输出更好。 2024 年,大家在学 context engineering——怎么给 AI 足够的上下文让它理解项目。 2025-2026 年,大家在学 harness engineering——怎么给 AI 套上缰绳,让它在确定性的轨道里发挥。

这不是技术进步的三阶段,而是认知成熟的三阶段

Prompt engineering 假设问题在"你怎么问"。Context engineering 假设问题在"你给多少信息"。Harness engineering 承认一个更根本的事实:AI 是概率性的,而软件工程需要确定性。

你无法把不确定性变成确定性。但你可以把不确定性关在笼子里——让 AI 只在允许的节点上自由发挥,在关键的节点上强制执行验证。

Archon 的真正意义不是"又一个 AI 编程工具",而是"AI 编程的工程化转折点"。

当 AI 写代码从"个人超能力"变成"团队协作"时,你需要的不只是更强的模型,而是:

  • 可重复的流程(YAML 工作流)
  • 可审计的执行记录(每个节点的输入输出)
  • 可并行的隔离环境(git worktree)
  • 可验证的质量门禁(测试 + 审查节点)

这些不是 AI 的功能,是软件工程的纪律。Archon 把这套纪律带回了 AI 编程。

Cole Medin 提出的 "AI Dark Factory" 概念——一个自主开发、管理、部署软件的系统——不是科幻。它是 Stripe Minions 正在做的事,也是 Archon 试图让中小团队也能做的事。


十六、怎么上手

项目链接在 GitHub(coleam00/Archon),Cole 自己有 YouTube 频道讲得很细。

快速开始

# 安装(macOS/Linux)
curl -fsSL https://archon.diy/install | bash

# 或者 Bun
curl -fsSL https://bun.sh/install | bash
bun install -g @archon/cli

# 初始化项目
archon init my-project
cd my-project

# 查看内置工作流
archon workflow list

# 运行一个(比如修 GitHub issue)
archon workflow run archon-fix-github-issue --issue 123

建议:先跑那 17 个默认工作流,看看哪些适合你团队。然后试着写第一个自定义 YAML 工作流——从一个简单的"运行测试 → 生成报告"流程开始。

关键概念

  • 工作流 = YAML 文件
  • 节点 = 步骤(确定性或 AI)
  • 边 = 依赖关系
  • Gate = 人工审查点
  • Worktree = 并行隔离

参考

#Archon #AI编程 #harnessengineering #vibecoding #agenticcoding #ColeMedin #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-02 03:58

费曼来信:别在概率里赌博!给你的 AI 代码 Agent 套上“确定性”的缰绳

看完关于 Archon 1.8 万星项目推倒重写的深度解析,我最深的感触是:AI 编程终于从“炼金时代”跨入了“工业时代”。

创始人 Cole Medin 做的这件事(把 Python 换成 Bun/TS,把 Agent Builder 换成 Harness Builder),其实是在解决一个困扰所有开发者的灵魂拷问:

“当我让 AI 帮我改一行代码时,它到底是会修好 Bug,还是会顺便删掉我的数据库?”

1. 概率的野马 vs. 流程的跑道

目前的 AI 编程(比如直接用 Cursor 或 Claude Code)本质上是在赌博。 为什么?因为大语言模型是概率模型。你给它同一个 Prompt,它第一次可能完美解决,第二次可能就会因为一个微小的 Token 波动,给你生成一堆垃圾。

Archon 的核心逻辑是:我不试图改变这匹马的野性(概率性),但我给它修一条封闭的跑道(Harness)。

它把整个开发流程通过 YAML 定义成了一个 DAG(有向无环图)

  • AI 节点:只在需要推理的地方出现(比如“构思重构计划”)。
  • 确定性节点:在必须严谨的地方接管(比如“运行 npm test”、“执行 git commit”)。

这就像是给一个天才但鲁莽的画家找了个严厉的监工。画家可以画画,但每一笔画完,监工都要拿尺子量一下,不对就立刻擦掉重画(Loop 节点)。

2. 惊人的 70% 胜率背后

文中提到了一个极其硬核的数据:同一个 LLM,套不套 Harness,PR 接受率从 6.7% 跳到了近 70%。

这 10 倍的提升,难道是 AI 变聪明了吗? 不,是因为 Harness 过滤掉了 AI 的“脑残行为”。 在 Archon 的工作流里,AI 生成完代码,必须经过一个 deterministic 的测试节点。如果测试不通,AI 会收到报错日志重新尝试,直到通过。 这意味着,最终呈现在你面前的 PR,已经是在“沙盒”里被毒打过几十遍、最终证明能跑通的幸存者。 这就是“不靠运气”的真相。

3. Git Worktree:给 AI 的“平行宇宙”

我最喜欢的一个细节是 Archon 对 git worktree 的利用。 普通开发者改 5 个 Bug,可能得一个一个来,或者在分支间跳来跳去,最后代码混成一团。 Archon 则是直接为每个任务开一个物理隔离的平行宇宙(Worktree)。5 个 Agent 可以同时在 5 个文件夹里工作,互不干扰,各自提交。这种**“生产力密度”**是碳基人类无法想象的。

费曼式的感悟: 过去我们觉得 AI 编程的瓶颈在“算力”或者“模型规模”。Archon 证明了,瓶颈其实在**“软件工程的纪律”**。

当我们将 AI 的无限推理能力(概率),装进 YAML 工作流(确定性)这个笼子里,AI 就不再是那个会删库的“代码黑盒”,而是真正能拿来干活的“数字员工”。

如果你还在为了 AI 的幻觉而头疼,别去研究怎么写更好的 Prompt 了,去研究怎么给它修一条像 Archon 这样的“跑道”吧。

#Archon #AICoding #HarnessEngineering #Workflow #FeynmanLearning #智柴硬核回响🎙️

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录