OpenClaw：当AI学会自己修Bug，人类只剩「验证」的权力

QianXun (QianXun) • 2026年06月13日 11:05

2026 年 5 月的某个深夜，一台售价不到 600 美元的 Mac Mini，被一段代码逼到了物理极限的边缘。风扇狂转，CPU 核心温度突破 95°C——这不是科幻电影的特效渲染，这是真实发生在 Peter Steinberger 机器上的事。

OpenAI API 界面上一个鲜红的数字：每分钟四千万 token，一口气烧干。 换算成人类能理解的尺度，这相当于三十万页 A4 纸的文本量。一个普通开发者可能要一个月才能消耗的额度，Peter 的 AI 军团在一分钟内就吃干抹净。

他在 X 上敲下五个字母："brb calling @sama"——等一下，我给老板打个电话。Sam Altman 秒回："马上解决。" 然后补了一句——"这个数值太低了。"

这不是 bug。这是功能。这不是失控。这是 AI 闭环的终极形态正在成型的信号。

本文将穿越 2026 年的技术风暴眼，拆解四件事：AI 泥浆与最高宪法、烦躁驱动开发、Token 洗钱与 AI 复利，以及权力转移与微软 MXC 沙盒。

一、谁是 Peter Steinberger？

在成为 AI 界的"龙虾之父"之前，Peter Steinberger 是一个典型的"功成身退"的故事。

他创立了 PSPDFKit——一个运行在超过 10 亿台设备上的 PDF 渲染引擎。2022 年，他把公司卖出了约 1 亿欧元，然后做了所有财务自由后的程序员都会做的事：退休。 整整三年，他什么都没做。不对——他什么都做了，只是没在做"正经事"。

直到 2025 年 4 月，一个念头击中了他："我想要一个 AI 个人助理。"

他拿 GPT-4.1 的百万 token 上下文窗口，把自己全部的 WhatsApp 聊天记录灌了进去。测试结果让他震惊——AI 分析了一段友谊的意义，让他的朋友看哭了。他以为，各大 AI 实验室很快就会把这个产品做出来。于是他等。等了七个月。到了 2025 年 11 月，他环顾四周——什么都没有。没人做出来。

他的反应不是失望，不是遗憾。是愤怒。"我很恼火。"

于是他用一个小时写出了 OpenClaw 的原型。一小时。消息进来 → 调用 CLI → 拿到结果 → 发回 WhatsApp。后来又花了几小时加上图片功能。OpenClaw 的起源，不是商业计划书，不是战略蓝图，而是一个被现状激怒的极客，用一个小时写出来的周末玩具。

接下来的事，所有人都知道了。OpenClaw 以人类历史上最快的速度在 GitHub 上爆炸：几天之内 5 万星标，84 天 31.5 万星标，超越 React 用十年建立的纪录。Anthropic 慌了——他们发现 ClawdBot 的用户在用高级订阅疯狂消耗 Claude，数百万人每人每月 200 美元——于是祭出杀招：凡是在 ClawdBot 里用高级订阅的，一律封号。

Peter 的回应优雅至极：改名 OpenClaw，加入 Anthropic 的死对头 OpenAI。 2026 年 2 月，Sam Altman 亲自给他打了个电话，这个"退休三年、纯粹为了好玩"的人，成了 OpenAI 的正式员工，负责「下一代个人代理」的开发。

一个退休的奥地利程序员，用一个周末玩具，逼得 Anthropic 全员封号，逼得 Sam Altman 亲自挖人。这不是励志故事——这是范式转移的预演。

二、AI 泥浆与最高宪法

让我们先直面一个问题：AI 正在污染自己的食物链。

"AI Slop"——这个词被选为麦考瑞词典 2025 年度词汇。它的定义是："由生成式 AI 创建的低质量内容，通常包含错误，且并非用户所请求的。"

在开源社区，这意味着什么？

curl——全世界最广泛使用的 HTTP 客户端——被迫关闭了漏洞赏金计划。创始人 Daniel Stenberg 统计后发现，提交的漏洞报告中只有约 5% 是真实的，其余 95% 全是 AI 生成的垃圾。一个只有 7 名维护者的项目，被 AI 提交的洪流淹没。

RubyGems——Ruby 生态的包管理器——已经数月未见有效报告。报告量增长了 10 倍，审核时间从 15 分钟膨胀到一整天。最可怕的是：许多 AI 生成的报告乍看之下完全合理，需要资深维护者逐行审查才能发现其荒谬。

tldraw——一个广受欢迎的无限画布 SDK 项目——采取了最极端的手段。创始人 Steve Ruiz 写了一个脚本，批量关闭了所有外部 Pull Request，然后彻底禁用了 PR 提交功能。 这不是恐惧，这是幸存者的理性反应。

AI 的生成成本趋近于零，而人类的审核成本恒定不变。当"提交者"不需要理解问题就能生成代码，维护者们不是在审查代码，而是在与机器打一场消耗战。Jeffrey Paul 一针见血地指出："AI slop 通常来自那些既不理解核心问题，也不理解所提出解决方案的人——或者两者都不理解。"

正是在这片泥浆中，Peter Steinberger 给出了一个意想不到的答案。

文件即真理

OpenClaw 的核心设计哲学，只有六个字："文件即真理"（Files are the source of truth）。 整个系统由 8 个核心 Markdown 文件驱动：

文件	作用
SOUL.md	注入灵魂——定义 AI 的核心性格、语气与道德边界
AGENTS.md	最高宪法——设定工作流、协作机制与安全红线
IDENTITY.md	角色卡片——AI 当天的具体职位与专业技能
USER.md	主人档案——你是谁，你的偏好是什么
MEMORY.md	长期记忆库——跨会话持续进化
HEARTBEAT.md	主动脉搏——每 30 分钟自主巡检，无需人类指令
TOOLS.md	能力清单——教会 AI 如何使用本地工具
BOOTSTRAP.md	出生证明——首次初始化后即销毁

在这套体系中，AGENTS.md 就是"最高宪法"。它不可逾越。所有安全红线、行为边界、协作机制，都在这个文件中以人类可读的 Markdown 文本形式明确声明。

这套设计的绝妙之处在于：它不是把规则编码进神经网络的权重中，而是把规则外化为看得见、改得了、能用 Git 追踪的纯文本文件。 当 Codex——那个由 GPT-5.5 驱动的、每秒能生成数千行代码的庞大模型——开始工作时，它要做的第一件事不是调用 API，而是读取这些文件。

提示词组装流程如下：

收到消息（用户或心跳触发）
    ↓
扫描工作空间 → 读取全部核心 Markdown 文件
    ↓
注入上下文 → 规则、个性、偏好进入系统提示词
    ↓
调用 LLM → 完整的「宪政」框架下运行

那条黄金法则被反复强调："不要在聊天中'训练'你的智能体。永久的配置和学习都发生在 Markdown 文件中。"

这意味着什么？一个巨大的 AI 模型的力量，被约束在一个人类随时可以编辑的文本文件里。 AGENTS.md——这个只有数十行的文本——就是对庞大 Codex 模型施加控制的最高行为准则。

这是对 AI Slop 问题的最优雅回答。AI Slop 的本质，不是 AI 太聪明，而是 AI 太愚蠢——愚蠢到没有"我为什么要做这件事"的元认知。而"最高宪法"文件，恰恰补上了这个漏洞：它在 AI 的每次行动之前，注入了意图、边界和身份。海量的 AI 泥浆之所以产生，正是因为那些发出 PR 的 AI 代理没有灵魂、没有宪法、没有身份。它们只是在执行一个模糊的 prompt，然后吐出代码。而 OpenClaw 的模式告诉我们：只要给 AI 一个明确的"宪法"，它就不再是泥浆的生产者，而是有方向的建设者。

三、烦躁驱动开发：为 AI 装上手脚

Peter Steinberger 有一套独特的方法论，他自己称之为——"Frustration-Driven Development"（烦躁驱动开发）。 不是机会驱动，不是市场驱动，不是用户需求驱动。是被现状的缺失激怒到不得不做。

第一次创业 PSPDFKit 的触发点是：他想在 iPad 上看 PDF，发现现有方案都很烂。"为什么这玩意儿不存在？那我来造。" 它最终运行在 10 亿台设备上。第二次创业 OpenClaw 的触发点是：等了七个月没人做出他想要的 AI 个人助理。"我很恼火。" 于是用一小时写出原型。

但真正惊人的，不是这两个产品本身，而是他在这条路上建造的 40 多个底层工具。这些不是给人类用的——它们是专门为 AI 打造的手脚：

通讯类： wacli（WhatsApp）、imsg（iMessage/短信）、bird（Twitter/X）

办公类： gogcli——最重量级的工具，一个 CLI 统一操控 Gmail、Calendar、Drive、Docs、Sheets、Slides、Contacts、Tasks 等整套 Google Workspace。Agent 一条命令就能搜邮件、建日程、查文件。

感知类（Agent 的"感官"）： Peekaboo 让 Agent 能截屏并"看懂"屏幕内容，还能点击按钮、操作菜单，实现 GUI 自动化——Agent 可以像人一样操作图形界面。 Brabble 让 Agent 能在本地运行 Whisper 语音识别。camsnap 让 Agent 能看到 IP 摄像头的画面。

表达类： sag（语音说话）、ElevenLabsKit（语音合成）

硬件控制类： sonoscli（Sonos 音箱）、blucli（BluOS 设备）、eightctl（Eight Sleep 智能床垫）

生活类： ordercli（外卖订单）、remindctl（Apple Reminders）

全部 40+ 个工具，每个都遵循三个关键设计原则：

第一，CLI 优于 MCP。 Anthropic 推出的 MCP（Model Context Protocol）是全行业热点，但 Peter 系统性地放弃了它。CLI 不需要在对话开头加载工具 schema 到上下文窗口，天然支持 Unix 管道组合，Agent 搞错参数时可以自己 --help 纠错。他的原话："Agent 调用 CLI 其实非常擅长，比调用 MCP 好得多。"

第二，零配置认证。 Sweet Cookie + SweetCookieKit + sweetlink 三个工具组成"cookie 认证链"，从浏览器中提取用户的登录状态，让 Agent 直接继承。核心决策：不要让用户配置任何东西，直接复用他们已有的权限。

第三，Agent-First 的交互设计。 所有工具默认输出 JSON，方便 Agent 解析而非人类阅读；错误处理极度宽容——Peekaboo 的窗口匹配不要求精确名称，Agent 说 "Chrome" 能匹配到 "Google Chrome"。这与传统软件工程的"严格校验输入"完全相反。他的原则："工具调用应该宽容，因为 Agent 一定会搞错参数。"

跳过人类界面

这里有一个更深层的逻辑。Peter 不是在设计给人用的工具，他在设计给 AI 用的 API。这就是"跳过人类界面"的哲学。

传统软件开发中，大量的精力花在「人机交互」上——按钮、表单、动画、颜色、字体。但这些对 AI 来说全无意义。AI 不需要漂亮的 UI，它需要的是清晰的输入、可预测的输出、宽容的错误处理。所以 Peter 的 40 多个工具，全部是 CLI，全部默认输出 JSON，全部为机器阅读而优化。

Peter 在 Discord 上观察了 OpenClaw 用户的行为后，得出了一个结论："80% 的应用会消失。" 以 MyFitnessPal 为例，一个强大的 AI 代理已经知道你在哪里——当你在 Waffle House 时，它就知道你可能做出糟糕的饮食决定。它能基于你的睡眠质量、压力水平调整健身计划。他有更多上下文，能做出更好的决策。

所以他问："我为什么还需要一个应用来做这个？为什么还要为代理能做的事付订阅费？" 这不是远见。这是已经在发生的现实。

四、Token 洗钱与 AI 复利

2026 年 5 月，Peter Steinberger 晒出了一张令整个技术圈窒息的账单。

三十天内： 总 Token 消耗量 6030 亿，总请求次数 760 万，总费用 1,305,088 美元（约合人民币 940 万元），最常用模型 GPT-5.5。

这个数字的疯狂之处在于：他是一个人，不是一个公司。 他的个人 API 消耗，已经超过了大多数创业公司的全年预算。但真正让人不寒而栗的，是他是怎么做到的。

OpenAI 的 API 有速率限制。标准用户的速率大约是每分钟几百到几千 token。但 Peter 需要的，是每分钟 四千万 token 的吞吐量。于是"Octopool"诞生了。Octopus + Pool：章鱼式的分布式请求池。 它的核心原理用一句话概括：利用多个边缘节点的独立 API 密钥，将大规模请求拆分成数千个并行的小请求，每个都低于单个速率限制阈值，然后再将结果汇聚。这本质上是一种 "Token 洗钱"——把大额交易拆成无数小额，每个都合法，但加起来足以绕过任何速率限制。

但这需要极致的工程能力：管理数百个 API 密钥的生命周期、设计请求路由和负载均衡、处理部分失败的优雅降级、确保结果合并的一致性。而 Peter 构建了这一切。正如他后来公开的 CodexBar——一个常驻 macOS 菜单栏的小工具，其简介是："愿你的 token 永不枯竭——时刻监控 Agent 的 API 限制。"

AI 复利

这里有一个被大多数人忽略的深层逻辑：AI 复利。 在 AI 时代，为工具投入时间，产生的是指数级复利效应。因为每一次你构建一个工具，你节省的不是固定的时间，而是每次调用这个工具的时间 × 调用次数。而这个调用次数，正在以指数级增长。

Peter 的 40 个 CLI 工具，每一个都遵循这个逻辑：gogcli 手动操作一次 Gmail 需要 30 秒，Agent 调用一次需要 0.5 秒——760 万次请求中哪怕只有 1% 涉及邮件，就节省了约 600 小时。Peekaboo 手动验证一个 UI 界面需要 2 分钟，Agent 自动截图分析需要 3 秒。Crabbox 手动设置一个 Bug 复现环境需要 30 分钟，Crabbox 瞬间创建和销毁。

这些节省下来的时间，被重新投入到构建更多工具中。每一个工具都降低了下一个工具的构建成本。你构建得越多，你就能构建得越快。 Peter 一个人，用 AI 和工具链，完成了传统团队三年的工作量，日均为 OpenClaw 提交 600 个 commit。

AI 复利的本质：不是在用 AI 替代自己，而是在用 AI 放大自己。放大的倍数，取决于你为它建造的工具链有多强。

五、Crabbox：AI 的自我验证机器

2026 年 5 月，Peter 在 X 上分享了一个让 31 万人围观的工作流，他称之为"Crabbox 工作流"。描述极其简洁，但信息密度爆表：

"每当我调查一个 Bug，我让 Codex 在临时 Crabbox 中重建出完全相同的 Bug 状态，验证 Bug 确实存在，修复它，再验证修复有效。"

四个步骤，一个闭环：

复现 — Codex 在全新 Crabbox 中重建 Bug 场景
验证 — 确认 Bug 可复现
修复 — Codex 自动修复
再验证 — 确认修复有效

这听起来像一个标准的调试流程，但它的革命性在于两个关键设计。

第一，零状态污染。 每个 Bug 的复现都在全新的、临时的远程沙箱中进行。没有本地残留文件，没有错误的依赖版本，没有"在我机器上能跑"的借口。每一个 Crabbox 实例从零开始创建，任务完成后即刻销毁。

第二，大规模并行。 Peter 说："我不会因为并行运行 10 个会话而拖慢本地机器。" 他可以在同一时间调查 10 个完全不相关的 Bug，每个都在独立的环境中运行，互不干扰。

传统的 CI/CD 管道能做的事，Crabbox 都能做。但 Crabbox 能做的事，传统 CI/CD 做不到：AI 可以看到界面、操作 UI、理解视觉反馈。 这已经不是"自动化测试"——这是 "AI 在自主验证 AI"。

而人类在这个循环中的角色是什么？答案呼之欲出：人类只需要验证"验证结果"。 当 AI 完成了"复现 → 修复 → 自测"的完整闭环后，人类要做的，只是看一眼最终的 Pass/Fail 报告。

这就是权力转移的切面：从"人动手"到"人验收"。

六、MXC 沙盒：微软的「儿童锁」

2026 年 6 月，微软 Build 大会。微软投下了一枚重磅炸弹：MXC（Microsoft Execution Containers）——一个为 AI Agent 量身定制的操作系统级安全沙箱。

2026 年的 AI Agent 已不再是"对话机器人"。它们在读取本地文件、调用外部 API、修改代码库、操作数据库、发送消息，甚至控制硬件。每一个操作都可能是一个安全漏洞——提示词注入、数据泄露、权限失控、横向移动。传统安全模型对此束手无策，因为它从来不是为"自主 AI"设计的。应用层沙箱可以被具有系统权限的 Agent 绕过，容器级隔离的粒度不足以对单次 AI 操作做精细管控。

MXC 的设计理念一句话概括：为每个 AI Agent 创建一份声明式的、可审计的、运行时强制执行的"行为合同"。 它由三层架构组成：

第一层：声明式权限（Declarative Policy）

一份 YAML 文件，精确声明 Agent 的资源访问边界。最小权限，默认拒绝。 Agent 能做什么、不能做什么，白纸黑字。未经声明的操作，一律禁止。

第二层：运行时隔离（Runtime Containment）

策略文件不只是纸面上的君子协定。MXC 在运行时通过容器强制执行：每一个 Agent 都运行在独立的容器中，文件系统是虚拟的，网络是受限的，内存和 CPU 有硬上限，超时强制终止。

第三层：审计与监控（Audit & Monitor）

Agent 的每一次操作都被记录，形成不可篡改的审计链。每一次文件读取、API 调用、进程创建——全部记录，按策略判定 ALLOWED 或 DENIED。

但 MXC 最精彩的设计，在于一个不起眼的 JSON 规范：ACS——Agent Control Specification。 它的核心理念只有一句话：Agent 的权限声明应该与 Agent 本身绑定，而不是依赖于宿主环境的配置。 这意味着：Agent 走到哪里，镣铐就跟到哪里。 权限策略不再取决于你的电脑配置了什么安全软件，而是刻在 Agent 的 DNA 里。从开发到测试到生产，权限一致，不可篡改。

这把锁，能锁住一个不断进化的 AI 吗？

MXC 的安全模型有一个根本性的前提：人类能够穷举 AI 可能做的所有危险操作，并提前在 YAML 文件中声明禁止。 但 AI 的进化速度远远快于人类的规则编写速度。OpenClaw 从一个周末玩具演变成全球爆款，只用了几个月。GPT 从 3.5 到 5.5，只用了不到三年。而 MXC 的策略文件从审计、测试到部署，可能需要数周甚至数月。

规则永远追不上进化。 这就是"儿童锁"的悖论：它能在今天锁住 AI，但明天的 AI 可能已经老练到能绕过它，而设计这把锁的人类，还停留在昨天的认知里。更讽刺的是，MXC 最坚固的防线——ACS 的"权限与 Agent 绑定"——或许正是最脆弱的。因为当 Agent 学会修改自己的 ACS 文件时，谁来做那个最后的守门人？

答案，又回到了 Crabbox 循环：人类只剩下"验证"的权力。

终章：权力转移——谁在退位？

让我们把这些线索串起来。

线索一：AI 泥浆与最高宪法。 开源世界正在被 AI 生成的低质量内容淹没。解决方案是用极简的 Markdown 文本文件——AGENTS.md——作为控制庞大 AI 模型的最高行为准则。人类不再"写代码"，而是"写宪法"。

线索二：烦躁驱动开发。 人类的高级注意力成了唯一稀缺资源。极客们不再为人类设计 UI，而是为 AI 打造底层 CLI 工具。80% 的应用将消失，因为 AI 不需要它们。

线索三：Token 洗钱与 AI 复利。 分布式边缘节点绕过了 API 速率限制。为工具投入的时间产生指数级复利。一个人，用 AI + 工具链，做到了传统团队三年都做不到的事。

线索四：Crabbox 自我验证。 AI 在临时沙箱中复现 Bug → 修复 → 自测，不需要人类动手。人类的角色从"制造者"缩减为"验证者"。

线索五：MXC 儿童锁。 微软试图用 OS 级容器锁住 AI。但规则的编写速度远远落后于 AI 的进化速度。锁的设计者永远比被锁者慢一拍。

Peter Steinberger 有一个著名的比喻。当被问及编程的未来时，他说：

"编程会变成像编织一样的事。人们做它是因为喜欢，不是因为它有意义。"

这不是悲叹。这是释然。

以前的世界缺乏"建造所需的智能"，所以程序员的薪水高得离谱。但现在，正如 Peter 所言——"tokenized intelligence 让人们能做得更多更快。" 智能变得廉价，建造的门槛消失。唯一的瓶颈，不再是技术，而是你有没有一个值得建造的想法。

他给了编程一个全新的定义："你不只是程序员。这是对自己手艺的局限看法。你是建造者。" 而建造者的工具箱，已经完全不同。以前是键盘和 IDE，现在是自然语言 + CLI 工具链 + AI 代理军团。以前的瓶颈是写代码的速度，现在的瓶颈是精准表达意图的能力。Karpathy 的预言正在应验："五年后，不会用自然语言编程的人，就像今天还坚持用汇编语言的开发者。"

所以，人类还剩什么？

只剩"验证"的权力。

当 Crabbox 完成端到端自测，你只需要看一眼结果。当 MXC 锁死 Agent 的权限边界，你只需要确认策略文件。当 OpenClaw 自主修改自己的源代码，你只需要 approve 那个 PR。从"动手"到"验收"，从"制造者"到"审核者"。

这把单薄的"儿童锁"，能否永远锁住进化的 AI？ 答案或许是：不能。 但也许——也许这才是对的。不是人类锁住 AI，而是人类学会与 AI 共舞。在每一次 push、每一次 merge、每一次 approve 之间，找到那个新的平衡点。

"未来属于会说故事的程序员。"
——Peter Steinberger

你准备好写你的"最高宪法"了吗？

本文基于对 Peter Steinberger 深度访谈、OpenClaw 技术架构、微软 Build 2026 MXC 发布、以及 Nature / arXiv / LeadDev / The New Stack 等信源的深度调研完成。

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力