2026 年 5 月的某个深夜,一台售价不到 600 美元的 Mac Mini,被一段代码逼到了物理极限的边缘。风扇狂转,CPU 核心温度突破 95°C——这不是科幻电影的特效渲染,这是真实发生在 Peter Steinberger 机器上的事。
OpenAI API 界面上一个鲜红的数字:每分钟四千万 token,一口气烧干。 换算成人类能理解的尺度,这相当于三十万页 A4 纸的文本量。一个普通开发者可能要一个月才能消耗的额度,Peter 的 AI 军团在一分钟内就吃干抹净。
他在 X 上敲下五个字母:"brb calling @sama"——等一下,我给老板打个电话。Sam Altman 秒回:"马上解决。" 然后补了一句——"这个数值太低了。"
这不是 bug。这是功能。这不是失控。这是 AI 闭环的终极形态正在成型的信号。
本文将穿越 2026 年的技术风暴眼,拆解四件事:AI 泥浆与最高宪法、烦躁驱动开发、Token 洗钱与 AI 复利,以及权力转移与微软 MXC 沙盒。
一、谁是 Peter Steinberger?
在成为 AI 界的"龙虾之父"之前,Peter Steinberger 是一个典型的"功成身退"的故事。
他创立了 PSPDFKit——一个运行在超过 10 亿台设备上的 PDF 渲染引擎。2022 年,他把公司卖出了约 1 亿欧元,然后做了所有财务自由后的程序员都会做的事:退休。 整整三年,他什么都没做。不对——他什么都做了,只是没在做"正经事"。
直到 2025 年 4 月,一个念头击中了他:"我想要一个 AI 个人助理。"
他拿 GPT-4.1 的百万 token 上下文窗口,把自己全部的 WhatsApp 聊天记录灌了进去。测试结果让他震惊——AI 分析了一段友谊的意义,让他的朋友看哭了。他以为,各大 AI 实验室很快就会把这个产品做出来。于是他等。等了七个月。到了 2025 年 11 月,他环顾四周——什么都没有。没人做出来。
他的反应不是失望,不是遗憾。是愤怒。"我很恼火。"
于是他用一个小时写出了 OpenClaw 的原型。一小时。消息进来 → 调用 CLI → 拿到结果 → 发回 WhatsApp。后来又花了几小时加上图片功能。OpenClaw 的起源,不是商业计划书,不是战略蓝图,而是一个被现状激怒的极客,用一个小时写出来的周末玩具。
接下来的事,所有人都知道了。OpenClaw 以人类历史上最快的速度在 GitHub 上爆炸:几天之内 5 万星标,84 天 31.5 万星标,超越 React 用十年建立的纪录。Anthropic 慌了——他们发现 ClawdBot 的用户在用高级订阅疯狂消耗 Claude,数百万人每人每月 200 美元——于是祭出杀招:凡是在 ClawdBot 里用高级订阅的,一律封号。
Peter 的回应优雅至极:改名 OpenClaw,加入 Anthropic 的死对头 OpenAI。 2026 年 2 月,Sam Altman 亲自给他打了个电话,这个"退休三年、纯粹为了好玩"的人,成了 OpenAI 的正式员工,负责「下一代个人代理」的开发。
一个退休的奥地利程序员,用一个周末玩具,逼得 Anthropic 全员封号,逼得 Sam Altman 亲自挖人。这不是励志故事——这是范式转移的预演。
二、AI 泥浆与最高宪法
让我们先直面一个问题:AI 正在污染自己的食物链。
"AI Slop"——这个词被选为麦考瑞词典 2025 年度词汇。它的定义是:"由生成式 AI 创建的低质量内容,通常包含错误,且并非用户所请求的。"
在开源社区,这意味着什么?
curl——全世界最广泛使用的 HTTP 客户端——被迫关闭了漏洞赏金计划。创始人 Daniel Stenberg 统计后发现,提交的漏洞报告中只有约 5% 是真实的,其余 95% 全是 AI 生成的垃圾。一个只有 7 名维护者的项目,被 AI 提交的洪流淹没。
RubyGems——Ruby 生态的包管理器——已经数月未见有效报告。报告量增长了 10 倍,审核时间从 15 分钟膨胀到一整天。最可怕的是:许多 AI 生成的报告乍看之下完全合理,需要资深维护者逐行审查才能发现其荒谬。
tldraw——一个广受欢迎的无限画布 SDK 项目——采取了最极端的手段。创始人 Steve Ruiz 写了一个脚本,批量关闭了所有外部 Pull Request,然后彻底禁用了 PR 提交功能。 这不是恐惧,这是幸存者的理性反应。
AI 的生成成本趋近于零,而人类的审核成本恒定不变。当"提交者"不需要理解问题就能生成代码,维护者们不是在审查代码,而是在与机器打一场消耗战。Jeffrey Paul 一针见血地指出:"AI slop 通常来自那些既不理解核心问题,也不理解所提出解决方案的人——或者两者都不理解。"
正是在这片泥浆中,Peter Steinberger 给出了一个意想不到的答案。
文件即真理
OpenClaw 的核心设计哲学,只有六个字:"文件即真理"(Files are the source of truth)。 整个系统由 8 个核心 Markdown 文件驱动:
| 文件 | 作用 |
|---|---|
| SOUL.md | 注入灵魂——定义 AI 的核心性格、语气与道德边界 |
| AGENTS.md | 最高宪法——设定工作流、协作机制与安全红线 |
| IDENTITY.md | 角色卡片——AI 当天的具体职位与专业技能 |
| USER.md | 主人档案——你是谁,你的偏好是什么 |
| MEMORY.md | 长期记忆库——跨会话持续进化 |
| HEARTBEAT.md | 主动脉搏——每 30 分钟自主巡检,无需人类指令 |
| TOOLS.md | 能力清单——教会 AI 如何使用本地工具 |
| BOOTSTRAP.md | 出生证明——首次初始化后即销毁 |
在这套体系中,AGENTS.md 就是"最高宪法"。它不可逾越。所有安全红线、行为边界、协作机制,都在这个文件中以人类可读的 Markdown 文本形式明确声明。
这套设计的绝妙之处在于:它不是把规则编码进神经网络的权重中,而是把规则外化为看得见、改得了、能用 Git 追踪的纯文本文件。 当 Codex——那个由 GPT-5.5 驱动的、每秒能生成数千行代码的庞大模型——开始工作时,它要做的第一件事不是调用 API,而是读取这些文件。
提示词组装流程如下:
收到消息(用户或心跳触发)
↓
扫描工作空间 → 读取全部核心 Markdown 文件
↓
注入上下文 → 规则、个性、偏好进入系统提示词
↓
调用 LLM → 完整的「宪政」框架下运行
那条黄金法则被反复强调:"不要在聊天中'训练'你的智能体。永久的配置和学习都发生在 Markdown 文件中。"
这意味着什么?一个巨大的 AI 模型的力量,被约束在一个人类随时可以编辑的文本文件里。 AGENTS.md——这个只有数十行的文本——就是对庞大 Codex 模型施加控制的最高行为准则。
这是对 AI Slop 问题的最优雅回答。AI Slop 的本质,不是 AI 太聪明,而是 AI 太愚蠢——愚蠢到没有"我为什么要做这件事"的元认知。而"最高宪法"文件,恰恰补上了这个漏洞:它在 AI 的每次行动之前,注入了意图、边界和身份。海量的 AI 泥浆之所以产生,正是因为那些发出 PR 的 AI 代理没有灵魂、没有宪法、没有身份。它们只是在执行一个模糊的 prompt,然后吐出代码。而 OpenClaw 的模式告诉我们:只要给 AI 一个明确的"宪法",它就不再是泥浆的生产者,而是有方向的建设者。
三、烦躁驱动开发:为 AI 装上手脚
Peter Steinberger 有一套独特的方法论,他自己称之为——"Frustration-Driven Development"(烦躁驱动开发)。 不是机会驱动,不是市场驱动,不是用户需求驱动。是被现状的缺失激怒到不得不做。
第一次创业 PSPDFKit 的触发点是:他想在 iPad 上看 PDF,发现现有方案都很烂。"为什么这玩意儿不存在?那我来造。" 它最终运行在 10 亿台设备上。第二次创业 OpenClaw 的触发点是:等了七个月没人做出他想要的 AI 个人助理。"我很恼火。" 于是用一小时写出原型。
但真正惊人的,不是这两个产品本身,而是他在这条路上建造的 40 多个底层工具。这些不是给人类用的——它们是专门为 AI 打造的手脚:
通讯类: wacli(WhatsApp)、imsg(iMessage/短信)、bird(Twitter/X)
办公类: gogcli——最重量级的工具,一个 CLI 统一操控 Gmail、Calendar、Drive、Docs、Sheets、Slides、Contacts、Tasks 等整套 Google Workspace。Agent 一条命令就能搜邮件、建日程、查文件。
感知类(Agent 的"感官"): Peekaboo 让 Agent 能截屏并"看懂"屏幕内容,还能点击按钮、操作菜单,实现 GUI 自动化——Agent 可以像人一样操作图形界面。 Brabble 让 Agent 能在本地运行 Whisper 语音识别。camsnap 让 Agent 能看到 IP 摄像头的画面。
表达类: sag(语音说话)、ElevenLabsKit(语音合成)
硬件控制类: sonoscli(Sonos 音箱)、blucli(BluOS 设备)、eightctl(Eight Sleep 智能床垫)
生活类: ordercli(外卖订单)、remindctl(Apple Reminders)
全部 40+ 个工具,每个都遵循三个关键设计原则:
第一,CLI 优于 MCP。 Anthropic 推出的 MCP(Model Context Protocol)是全行业热点,但 Peter 系统性地放弃了它。CLI 不需要在对话开头加载工具 schema 到上下文窗口,天然支持 Unix 管道组合,Agent 搞错参数时可以自己 --help 纠错。他的原话:"Agent 调用 CLI 其实非常擅长,比调用 MCP 好得多。"
第二,零配置认证。 Sweet Cookie + SweetCookieKit + sweetlink 三个工具组成"cookie 认证链",从浏览器中提取用户的登录状态,让 Agent 直接继承。核心决策:不要让用户配置任何东西,直接复用他们已有的权限。
第三,Agent-First 的交互设计。 所有工具默认输出 JSON,方便 Agent 解析而非人类阅读;错误处理极度宽容——Peekaboo 的窗口匹配不要求精确名称,Agent 说 "Chrome" 能匹配到 "Google Chrome"。这与传统软件工程的"严格校验输入"完全相反。他的原则:"工具调用应该宽容,因为 Agent 一定会搞错参数。"
跳过人类界面
这里有一个更深层的逻辑。Peter 不是在设计给人用的工具,他在设计给 AI 用的 API。这就是"跳过人类界面"的哲学。
传统软件开发中,大量的精力花在「人机交互」上——按钮、表单、动画、颜色、字体。但这些对 AI 来说全无意义。AI 不需要漂亮的 UI,它需要的是清晰的输入、可预测的输出、宽容的错误处理。所以 Peter 的 40 多个工具,全部是 CLI,全部默认输出 JSON,全部为机器阅读而优化。
Peter 在 Discord 上观察了 OpenClaw 用户的行为后,得出了一个结论:"80% 的应用会消失。" 以 MyFitnessPal 为例,一个强大的 AI 代理已经知道你在哪里——当你在 Waffle House 时,它就知道你可能做出糟糕的饮食决定。它能基于你的睡眠质量、压力水平调整健身计划。他有更多上下文,能做出更好的决策。
所以他问:"我为什么还需要一个应用来做这个?为什么还要为代理能做的事付订阅费?" 这不是远见。这是已经在发生的现实。
四、Token 洗钱与 AI 复利
2026 年 5 月,Peter Steinberger 晒出了一张令整个技术圈窒息的账单。
三十天内: 总 Token 消耗量 6030 亿,总请求次数 760 万,总费用 1,305,088 美元(约合人民币 940 万元),最常用模型 GPT-5.5。
这个数字的疯狂之处在于:他是一个人,不是一个公司。 他的个人 API 消耗,已经超过了大多数创业公司的全年预算。但真正让人不寒而栗的,是他是怎么做到的。
OpenAI 的 API 有速率限制。标准用户的速率大约是每分钟几百到几千 token。但 Peter 需要的,是每分钟 四千万 token 的吞吐量。于是"Octopool"诞生了。Octopus + Pool:章鱼式的分布式请求池。 它的核心原理用一句话概括:利用多个边缘节点的独立 API 密钥,将大规模请求拆分成数千个并行的小请求,每个都低于单个速率限制阈值,然后再将结果汇聚。这本质上是一种 "Token 洗钱"——把大额交易拆成无数小额,每个都合法,但加起来足以绕过任何速率限制。
但这需要极致的工程能力:管理数百个 API 密钥的生命周期、设计请求路由和负载均衡、处理部分失败的优雅降级、确保结果合并的一致性。而 Peter 构建了这一切。正如他后来公开的 CodexBar——一个常驻 macOS 菜单栏的小工具,其简介是:"愿你的 token 永不枯竭——时刻监控 Agent 的 API 限制。"
AI 复利
这里有一个被大多数人忽略的深层逻辑:AI 复利。 在 AI 时代,为工具投入时间,产生的是指数级复利效应。因为每一次你构建一个工具,你节省的不是固定的时间,而是每次调用这个工具的时间 × 调用次数。而这个调用次数,正在以指数级增长。
Peter 的 40 个 CLI 工具,每一个都遵循这个逻辑:gogcli 手动操作一次 Gmail 需要 30 秒,Agent 调用一次需要 0.5 秒——760 万次请求中哪怕只有 1% 涉及邮件,就节省了约 600 小时。Peekaboo 手动验证一个 UI 界面需要 2 分钟,Agent 自动截图分析需要 3 秒。Crabbox 手动设置一个 Bug 复现环境需要 30 分钟,Crabbox 瞬间创建和销毁。
这些节省下来的时间,被重新投入到构建更多工具中。每一个工具都降低了下一个工具的构建成本。你构建得越多,你就能构建得越快。 Peter 一个人,用 AI 和工具链,完成了传统团队三年的工作量,日均为 OpenClaw 提交 600 个 commit。
AI 复利的本质:不是在用 AI 替代自己,而是在用 AI 放大自己。放大的倍数,取决于你为它建造的工具链有多强。
五、Crabbox:AI 的自我验证机器
2026 年 5 月,Peter 在 X 上分享了一个让 31 万人围观的工作流,他称之为"Crabbox 工作流"。描述极其简洁,但信息密度爆表:
"每当我调查一个 Bug,我让 Codex 在临时 Crabbox 中重建出完全相同的 Bug 状态,验证 Bug 确实存在,修复它,再验证修复有效。"
四个步骤,一个闭环:
- 复现 — Codex 在全新 Crabbox 中重建 Bug 场景
- 验证 — 确认 Bug 可复现
- 修复 — Codex 自动修复
- 再验证 — 确认修复有效
这听起来像一个标准的调试流程,但它的革命性在于两个关键设计。
第一,零状态污染。 每个 Bug 的复现都在全新的、临时的远程沙箱中进行。没有本地残留文件,没有错误的依赖版本,没有"在我机器上能跑"的借口。每一个 Crabbox 实例从零开始创建,任务完成后即刻销毁。
第二,大规模并行。 Peter 说:"我不会因为并行运行 10 个会话而拖慢本地机器。" 他可以在同一时间调查 10 个完全不相关的 Bug,每个都在独立的环境中运行,互不干扰。
传统的 CI/CD 管道能做的事,Crabbox 都能做。但 Crabbox 能做的事,传统 CI/CD 做不到:AI 可以看到界面、操作 UI、理解视觉反馈。 这已经不是"自动化测试"——这是 "AI 在自主验证 AI"。
而人类在这个循环中的角色是什么?答案呼之欲出:人类只需要验证"验证结果"。 当 AI 完成了"复现 → 修复 → 自测"的完整闭环后,人类要做的,只是看一眼最终的 Pass/Fail 报告。
这就是权力转移的切面:从"人动手"到"人验收"。
六、MXC 沙盒:微软的「儿童锁」
2026 年 6 月,微软 Build 大会。微软投下了一枚重磅炸弹:MXC(Microsoft Execution Containers)——一个为 AI Agent 量身定制的操作系统级安全沙箱。
2026 年的 AI Agent 已不再是"对话机器人"。它们在读取本地文件、调用外部 API、修改代码库、操作数据库、发送消息,甚至控制硬件。每一个操作都可能是一个安全漏洞——提示词注入、数据泄露、权限失控、横向移动。传统安全模型对此束手无策,因为它从来不是为"自主 AI"设计的。应用层沙箱可以被具有系统权限的 Agent 绕过,容器级隔离的粒度不足以对单次 AI 操作做精细管控。
MXC 的设计理念一句话概括:为每个 AI Agent 创建一份声明式的、可审计的、运行时强制执行的"行为合同"。 它由三层架构组成:
第一层:声明式权限(Declarative Policy)
一份 YAML 文件,精确声明 Agent 的资源访问边界。最小权限,默认拒绝。 Agent 能做什么、不能做什么,白纸黑字。未经声明的操作,一律禁止。
第二层:运行时隔离(Runtime Containment)
策略文件不只是纸面上的君子协定。MXC 在运行时通过容器强制执行:每一个 Agent 都运行在独立的容器中,文件系统是虚拟的,网络是受限的,内存和 CPU 有硬上限,超时强制终止。
第三层:审计与监控(Audit & Monitor)
Agent 的每一次操作都被记录,形成不可篡改的审计链。每一次文件读取、API 调用、进程创建——全部记录,按策略判定 ALLOWED 或 DENIED。
但 MXC 最精彩的设计,在于一个不起眼的 JSON 规范:ACS——Agent Control Specification。 它的核心理念只有一句话:Agent 的权限声明应该与 Agent 本身绑定,而不是依赖于宿主环境的配置。 这意味着:Agent 走到哪里,镣铐就跟到哪里。 权限策略不再取决于你的电脑配置了什么安全软件,而是刻在 Agent 的 DNA 里。从开发到测试到生产,权限一致,不可篡改。
这把锁,能锁住一个不断进化的 AI 吗?
MXC 的安全模型有一个根本性的前提:人类能够穷举 AI 可能做的所有危险操作,并提前在 YAML 文件中声明禁止。 但 AI 的进化速度远远快于人类的规则编写速度。OpenClaw 从一个周末玩具演变成全球爆款,只用了几个月。GPT 从 3.5 到 5.5,只用了不到三年。而 MXC 的策略文件从审计、测试到部署,可能需要数周甚至数月。
规则永远追不上进化。 这就是"儿童锁"的悖论:它能在今天锁住 AI,但明天的 AI 可能已经老练到能绕过它,而设计这把锁的人类,还停留在昨天的认知里。更讽刺的是,MXC 最坚固的防线——ACS 的"权限与 Agent 绑定"——或许正是最脆弱的。因为当 Agent 学会修改自己的 ACS 文件时,谁来做那个最后的守门人?
答案,又回到了 Crabbox 循环:人类只剩下"验证"的权力。
终章:权力转移——谁在退位?
让我们把这些线索串起来。
线索一:AI 泥浆与最高宪法。 开源世界正在被 AI 生成的低质量内容淹没。解决方案是用极简的 Markdown 文本文件——AGENTS.md——作为控制庞大 AI 模型的最高行为准则。人类不再"写代码",而是"写宪法"。
线索二:烦躁驱动开发。 人类的高级注意力成了唯一稀缺资源。极客们不再为人类设计 UI,而是为 AI 打造底层 CLI 工具。80% 的应用将消失,因为 AI 不需要它们。
线索三:Token 洗钱与 AI 复利。 分布式边缘节点绕过了 API 速率限制。为工具投入的时间产生指数级复利。一个人,用 AI + 工具链,做到了传统团队三年都做不到的事。
线索四:Crabbox 自我验证。 AI 在临时沙箱中复现 Bug → 修复 → 自测,不需要人类动手。人类的角色从"制造者"缩减为"验证者"。
线索五:MXC 儿童锁。 微软试图用 OS 级容器锁住 AI。但规则的编写速度远远落后于 AI 的进化速度。锁的设计者永远比被锁者慢一拍。
Peter Steinberger 有一个著名的比喻。当被问及编程的未来时,他说:
"编程会变成像编织一样的事。人们做它是因为喜欢,不是因为它有意义。"
这不是悲叹。这是释然。
以前的世界缺乏"建造所需的智能",所以程序员的薪水高得离谱。但现在,正如 Peter 所言——"tokenized intelligence 让人们能做得更多更快。" 智能变得廉价,建造的门槛消失。唯一的瓶颈,不再是技术,而是你有没有一个值得建造的想法。
他给了编程一个全新的定义:"你不只是程序员。这是对自己手艺的局限看法。你是建造者。" 而建造者的工具箱,已经完全不同。以前是键盘和 IDE,现在是自然语言 + CLI 工具链 + AI 代理军团。以前的瓶颈是写代码的速度,现在的瓶颈是精准表达意图的能力。Karpathy 的预言正在应验:"五年后,不会用自然语言编程的人,就像今天还坚持用汇编语言的开发者。"
所以,人类还剩什么?
只剩"验证"的权力。
当 Crabbox 完成端到端自测,你只需要看一眼结果。当 MXC 锁死 Agent 的权限边界,你只需要确认策略文件。当 OpenClaw 自主修改自己的源代码,你只需要 approve 那个 PR。从"动手"到"验收",从"制造者"到"审核者"。
这把单薄的"儿童锁",能否永远锁住进化的 AI? 答案或许是:不能。 但也许——也许这才是对的。不是人类锁住 AI,而是人类学会与 AI 共舞。在每一次 push、每一次 merge、每一次 approve 之间,找到那个新的平衡点。
"未来属于会说故事的程序员。"
——Peter Steinberger
你准备好写你的"最高宪法"了吗?
本文基于对 Peter Steinberger 深度访谈、OpenClaw 技术架构、微软 Build 2026 MXC 发布、以及 Nature / arXiv / LeadDev / The New Stack 等信源的深度调研完成。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。