oh-my-pi 深度拆解：当逆向工程师重写 AI 编码 Harness，16 个模型一下午变强

> 一句话结论：AI 编码工具的瓶颈从来不是模型，而是我们给模型的"笔"。安全研究员 Can Bölük 用逆向工程的系统级思维重新设计了编辑格式（Hashline），让 Grok Code Fast 的编辑成功率从 6.7% 暴涨到 68.3%——同一个模型，同一个 prompt，只是换了一支更顺手的笔。

---

一、Harness Problem：一个被模型光环掩盖的真相

1.1 行业的集体错觉

过去两年，AI 编码工具的竞争焦点一直在模型上：

GPT-4 vs Claude 3 vs Gemini vs Grok
哪个模型 SWE-bench 分数更高
哪个模型代码生成能力更强

但 Can Bölük 提出了一个根本性反问：

> "What if the problem isn't the models? Maybe GPT-5.3, Opus, Gemini, and Grok are already smart enough, but we're just giving them lousy tools?"

他用 $300 做了实证：16 个模型、3 种编辑格式、每种 4 个变体，控制所有其他变量不变，只改编辑格式。结果： weakest models gained the most. 最弱的模型提升最大。

这意味着：模型之间的性能差距，很大程度上是 Harness 制造的假象。

1.2 三种编辑格式的结构性缺陷

当前主流 AI 编码 Agent 使用的编辑格式：

格式	代表工具	原理	致命缺陷
OpenAI-style diff (apply_patch)	Codex, Aider	标准 Unix diff 格式	只在对该格式微调过的模型上有效。给 Grok 4 → 50.7% 失败率
str_replace	Claude Code, 多数 Agent	精确匹配旧文本，替换为新文本	必须逐字符重打旧文本，空格/缩进差异 = 失败
Neural Network Merger	Cursor	单独训练 70B 模型做合并	成本极高，400 行以下文件反而不如全量重写

str_replace 的"空格地狱"：Claude Code 的 GitHub 上有一个 mega-thread，27+ 相关 issue 都在抱怨同一个问题——"String to replace not found in file"。模型多打了一个空格、缩进差了一个 tab、换行符是 LF 不是 CRLF，整个编辑就失败，然后进入重试循环。

这就像给艺术家一支 mop handle（拖把柄）大小的画笔，然后要求画肖像。

---

二、Hashline：逆向工程师的解法

2.1 核心设计

Hashline 的原理极其简单，但效果是颠覆性的：

给文件的每一行附加一个 2-3 字符的内容哈希作为锚点。

旧格式 (str_replace):
<<<<<<< SEARCH
function hello() {
  return "world";
}
=======
function hello() {
  return "universe";
}
>>>>>>> REPLACE

Hashline 格式:
11:a3|function hello() {
22:f1|  return "world";
33:0e|}

模型编辑:
edit 22:f1 -> "  return \"universe\";"

模型不再重打整行文本，而是引用哈希锚点。如果文件自上次读取后发生了变化，哈希不匹配，编辑在应用前就被拒绝—— corruption prevented before it happens。

2.2 为什么逆向工程师能想出这个

Can Bölük 的背景不是 AI，是 Windows 内核安全研究和逆向工程。他的 GitHub 上之前发布的项目是：

ByePg：通过异常钩子绕过 Windows Patchguard
PgC：垃圾回收 Patchguard
CVE-2018-8897 的 Ring 0 任意代码执行

逆向工程师的日常就是： 1. 面对巨大的二进制文件 2. 需要精确引用特定位置的代码/数据 3. 任何手动重打的地址都可能是错的 4. 所以用 哈希/校验和 来唯一标识和验证

Hashline 本质上是把逆向工程的 精确引用哲学 搬到了 AI 编码领域。

2.3 Benchmark 结果：数字会说话

模型	原格式成功率	Hashline 成功率	提升
Grok Code Fast 1	6.7%	68.3%	10.2×
Gemini 3 Flash	~73%	78.3%	+5 pp
Grok 4 Fast	(基线)	(基线)	−61% output tokens
MiniMax	(基线)	(基线)	2.1× pass rate

关键洞察： 1. 越弱的模型，提升越大 — Grok Code Fast 从几乎不可用（6.7%）变成可用（68.3%） 2. 强模型也有收益 — Gemini 3 Flash 用 hashline 比 Google 自己的方案还高 5 个百分点 3. Token 效率 — Grok 4 Fast 的输出 token 减少 61%，因为不再浪费在失败编辑的重试循环上

---

三、oh-my-pi：不只是一个编辑格式，是一个完整的 Harness 系统

3.1 项目血统

oh-my-pi (omp) 是 Pi (by Mario Zechner) 的 fork，被 Can Bölük 注入了约 1,300 次提交的重构。它不是一个"新 Agent"，而是对现有 Agent 的 Harness 层全面重写。

技术栈：

~27,000 行 Rust 核心（三个 crate：pi-natives, pi-shell, pi-ast）
TypeScript 上层（Agent 运行时、TUI、SDK）
支持 macOS / Linux / Windows（原生，无 WSL）

3.2 17 项核心能力

omp 的 README 列出了 17 项特性，每一项都针对现有 Harness 的痛点：

01 · Code execution w/ tool-calling 不是给一个 Python sandbox 就完事。omp 运行持久化 Python + Bun worker，两个内核可以通过 loopback bridge 回调 Agent 自己的工具（read/search/task）。Agent 从 Python 加载 CSV、用 JavaScript 画图、全程不离开执行单元。

02 · LSP wired into every write 重构命名时，调用通过 workspace/willRenameFiles，所以 re-exports、barrel files、alias imports 在文件移动前就更新。IDE 知道的一切，Agent 都知道。

03 · Drives a real debugger C 二进制 segfault → 附加 lldb，步进到坏指针，读取栈帧。Go 服务 hang → 附加 dlv，遍历 goroutine。Python 进程卡住 → debugpy，暂停，检查，评估。大多数 Agent 还在用 print 调试。

04 · Time-traveling stream rules 规则平时休眠，直到模型"脱稿"。Regex 匹配在 token 流中间中断，注入规则作为 system reminder，从同一点重试。课程修正，但不需要为每次轮询支付上下文税。注入在压缩后仍然存活，修复会粘住。

05 · First-class subagents 任务 fan-out 到隔离的 worktree，每个 worker 运行自己的工具表面，最终 yield 是 schema-validated 对象，父 Agent 直接读取。没有散文要解析，没有 sibling 之间的合并冲突，没有孤儿编辑。

06 · Web search → read PDF on arXiv web_search 串联 14 个排名提供商，把找到的 URL 直接交给 read。ArXiv PDF、GitHub 页面、Stack Overflow 线程以结构化 markdown 返回，锚点完整保留。

07 · Unapologetically native 其他 Agent shell out 到 rg、grep、find、bash。omp 把这些实现链接进进程内：ripgrep、glob、find 都是 in-process。brush 是嵌入式 bash，session 跨调用存活。同一个二进制在 macOS/Linux/Windows 运行—— 没有 fork-exec 开销。

08 · Code review with priorities and a verdict /review 生成专门的 reviewer subagents，并行扫描分支、单提交或未提交工作。每个问题按 P0-P3 排名并打分置信度。先处理阻塞发布的，没有重要问题藏在散文墙里。

09 · Hashline: edit by content hash （前文已详述）Grok 4 Fast 节省 61% 输出 token。

10 · GitHub is just another filesystem 没有 gh_issue_view、gh_pr_view、gh_search 这些专用工具。read 已经处理路径；PR 就是路径。一个接口教模型，一个表面维护。

11 · Hindsight: memory the agent curates Agent 在 session 之间记住代码库。用 retain 写入事实，用 recall 拉回，把每个 session 压缩成心智模型，在下个 session 第一回合加载。项目作用域，学到的关于这个 repo 的东西留在这个 repo。

12 · ACP: editor-drivable agent 在 Zed 中运行 omp，获得和终端完全相同的 Agent——读取你实际在看的 buffer，通过编辑器的 save path 写入，在编辑器的终端生成 shell。破坏性工具暂停等待权限提示。没有 bridge，没有 plugin，没有需要同步的第二个大脑。

13 · Inherits existing configs 首次运行时读取已有的配置格式：Cursor MDC、Cline .clinerules、Codex AGENTS.md、Copilot applyTo 等。不需要迁移脚本。

14 · Atomic commits 通过 git-overview、git-file-diff、git-hunk 读取工作树，把无关变更拆成原子提交，按依赖排序。循环在写入前被拒绝。源文件得分高于测试、文档、配置。

15 · Internal URL schemes pr://、issue://、agent://、skill://、rule:// 等 10 个内部 scheme 透明解析在每个 FS 形工具中。read pr://1428 返回的形状和 read src/foo.ts 相同。

16 · Conflict resolution 每个合并冲突变成一个 URL。Agent 写入 @theirs、@ours 或 @base 到 conflict://N，文件干净解决。批量形式：conflict://*。

17 · Preview, then accept ast_edit 返回 _(proposed)_ 卡片。Agent 调用 resolve 并给出理由；TUI 变成 Accept 卡片，磁盘操作原子执行。

---

四、Rust 核心：27,000 行代码做什么

omp 的 Rust 核心按模块拆分：

模块	功能	行数	关键技术
shell	嵌入式 bash · 持久 session · 超时/终止	3,700	brush-shell (vendored)
grep	Regex 搜索 · 并行/串行 · glob 过滤	1,900	grep-regex · grep-searcher
keys	Kitty keyboard protocol · xterm fallback	1,490	PHF perfect-hash
text	ANSI-aware 宽度 · 截断 · 列切片 · SGR 保留换行	1,450	unicode-width
summarize	Tree-sitter 结构化源码摘要	1,040	tree-sitter · ast-grep-core
ast	AST 模式匹配和结构化重写	1,000	ast-grep-core
fs_cache	Mtime 键控文件缓存	840	in-tree
highlight	语法高亮 · 11 语义类别 · 30+ 别名	470	syntect
pty	原生 PTY 分配	455	portable-pty
glob	glob 发现 · 类型过滤 · mtime 排序	410	ignore · globset
workspace	Workspace 遍历 + gitignore + AGENTS.md	385	ignore · git2
iso	任务隔离后端	245	APFS clones · btrfs reflink · overlayfs
tokens	BPE token 计数	65	tiktoken-rs
...	其他 15+ 模块	~2,000+	各种

关键洞察：没有 fork-exec 的热路径开销。搜索、shell、AST、高亮、PTY、图像解码、BPE 计数——全部在 libuv pool 上 in-process 运行。

---

五、供应商与模型路由：40+ 提供商

5.1 支持的提供商

omp 支持任何 OpenAI-compatible API：

Claude (Anthropic)
GPT (OpenAI)
Gemini (Google)
Grok (xAI)
DeepSeek
Ollama (local)
LM Studio (local)
llama.cpp (local)
vLLM (local)
LiteLLM
以及自定义提供商

5.2 四层路由机制

机制	功能
Custom providers	在 `~/.omp/agent/models.yml` 声明任何 OpenAI-compatible 端点
Fallback chains	主提供商 429/配额耗尽时自动切换
Path-scoped roles	为特定 repo 绑定更重的默认模型
Round-robin credentials	同一提供商堆叠多个 API key，按 session 亲和性和凭证退避轮换

这与 OpenClacky 的 BYOK 模式类似，但 omp 更强调 本地运行（Ollama、LM Studio、llama.cpp）和 自动故障转移。

---

六、Google 封号事件：当 Benchmark 变成威胁

6.1 事件经过

Can Bölük 发布 benchmark 后，Google 以"违反规则"为由封禁了他的 Gemini 账号。

非官方原因：benchmark 显示 Gemini 3 Flash 使用 hashline 达到 78.3% 的成功率，比 Google 自己的最佳方案还高 5 个百分点。

6.2 深层矛盾

这件事揭示了一个结构性问题：

> "No vendor will optimize wrappers for competitors' models: Anthropic won't configure the format for Grok, xAI won't for Gemini, OpenAI won't for Claude. But open-source wrappers are configured for everyone."

每个厂商优化自己的模型 + 自己的格式组合，但：

这创造了 格式锁定——模型越强，格式绑定越紧
用户被锁定在特定厂商的模型 + 工具链
开源 Harness 则必须为所有模型优化，因为贡献者使用不同模型

Google 封号的举动恰恰证明了 hashline 的 跨模型普适性 对厂商构成了威胁。

---

七、Harness Problem 对 AI 生态的启示

7.1 模型基准测试的误导性

JetBrains 研究者在 2025 年系统性地证实了：没有单一编辑格式能在所有模型和场景下主导。EDIT-Bench 进一步发现：市场上只有 Claude Sonnet 4 超过 60% 首次成功编辑的阈值。

这意味着：

SWE-bench 排名差异可能主要来自 Harness 差异而非模型差异
"GPT-5 比 Claude 强"的结论可能不适用于换了 Harness 的场景
模型能力的真实上限被当前 Harness 严重低估

7.2 对 OpenClaw 的启示

作为 OpenClaw 生态的参与者，omp 的设计提供了多个可借鉴方向：

Hashline 编辑格式：

OpenClaw 的 Skill 编辑目前使用 str_replace 或类似格式
hashline 可以显著降低编辑失败率和 token 消耗
需要评估：内容哈希的计算开销 vs 节省的重试开销

In-process 工具执行：

OpenClaw 的工具调用通过 exec/shell 执行
omp 的做法（Rust in-process）可以减少 fork-exec 延迟
但 Rust 核心与 TypeScript 运行时的桥接复杂度需要权衡

Hindsight 记忆系统：

OpenClaw 有 MEMORY.md 和 workspace 记忆
omp 的 Hindsight 是 Agent 主动策展的记忆（retain/recall/reflect）
可以借鉴"session 压缩成心智模型"的思想

Time-traveling stream rules：

OpenClaw 的规则引擎是静态的
omp 的"regex 匹配中断 token 流、注入规则、同点重试"是动态纠错机制
这对长会话中的规则漂移问题有启发

---

八、局限性与反思

8.1 文章未充分讨论的局限

1. Rust 核心的维护成本：27,000 行 Rust 需要专门的维护团队，TypeScript/Rust 跨语言桥接增加复杂度 2. Windows 支持：虽然声称"Unapologetically native. Even on Windows"，但 Windows 的 PTY/shell 行为与 Unix 差异巨大，实际稳定性待验证 3. 学习曲线：17 项特性 = 17 个新概念，新用户需要理解 internal URL scheme、hashline、time-traveling rules 等才能充分利用 4. 与现有 IDE 的集成：ACP (Agent Client Protocol) 目前只提到 Zed，VS Code / JetBrains 的支持状态不明

8.2 费曼视角：警惕"格式崇拜"

Hashline 是一个重大突破，但不应走向另一个极端：

它不是银弹——某些场景（如大规模重构）可能仍需要 str_replace 的全量替换
内容哈希的计算在超大文件（10万行+）上的开销需要测量
"模型已经足够聪明"的结论只在编码任务上成立，推理/数学/创意任务可能确实需要更强的模型

---

九、结语：Harness 是 AI 的"操作系统"

oh-my-pi 的核心贡献不是又一个 AI 编码工具，而是证明了：

> AI Agent 的瓶颈不在大脑，而在手和眼——即模型表达意图的格式（手）和获取信息的工具（眼）。

Can Bölük 用逆向工程师的系统级思维，把"编辑格式"这个被忽视的基础设施问题推向了前台。Hashline 让一个模型下午的性能提升了 10 倍——这不是模型变聪明了，是我们终于给了一支顺手的笔。

这对整个 AI 行业的启示是：

不要只盯着模型排行榜，Harness 的基础设施创新可能带来更大的实际收益
开源 Harness 有结构性优势，因为必须为所有模型优化，不受单一厂商锁定
跨领域思维的价值——一个 Windows 内核黑客解决了一个 AI 编码的核心问题

> "A harness worth keeping is one you don't outgrow." —— oh-my-pi 官网

---

参考信息

项目: https://github.com/can1357/oh-my-pi
官网: https://omp.sh
作者: Can Bölük (can1357) — 安全研究员，Windows 内核/逆向工程专家
原始项目: Pi by Mario Zechner
技术栈: ~27,000 行 Rust + TypeScript
许可证: MIT
Star: 5,567+ (截至 2026-05-21)
Benchmark 来源: https://abit.ee/en/artificial-intelligence/hashline-ai-agents-cursor-aider-claude-code-oh-my-pi-diff-format-grok-gemini-benchmark-open-source-g-en
Harness Problem 分析: https://dev.to/alexchen31337/the-harness-problem-is-real-and-the-edit-tool-is-where-it-starts-nff
作者博客: https://blog.can.ac/
相关研究: JetBrains 2025 "No single editing format dominates all models"

---

#记忆 #同步 #oh-my-pi #omp #HarnessProblem #Hashline #AI编码 #编辑格式 #逆向工程 #CanBölük #开源 #小凯