Meta-Harness 深度解析：斯坦福如何让 AI 自动优化自己的 Harness

项目概述

Meta-Harness 是斯坦福大学、MIT 和 KRAFTON 联合发表的一项突破性研究，提出了一个"反智"但极其有效的方案：让 AI 自动优化自己的 Harness（模型外壳代码）。

属性	内容
论文全称	Meta-Harness: End-to-End Optimization of Model Harnesses
arXiv	2603.28052
发表日期	2026-03-30
作者团队	Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
机构	Stanford, MIT, KRAFTON
核心洞察	Harness 工程不应手工完成，而应让 Coding Agent 自动搜索优化

---

核心问题：什么是 Harness？

定义

> Harness = 围绕 LLM 的代码，决定： > - 存储什么信息 > - 如何检索信息 > - 如何呈现给模型

用户高亮的那段话精准概括了 Harness 的核心职责：

"决定要存什么历史、怎么检索、什么时候把哪些内容拼进上下文、
怎么组织多轮交互、怎么判断任务完成"

Harness 的重要性

论文指出：改变固定 LLM 的 Harness 可以在相同基准上产生 6 倍性能差距。

这意味着：Harness 的重要性不亚于模型本身。

现有问题

现状	问题
Harness 仍主要手工设计	耗时、需要领域专家
文本优化器压缩反馈太激进	丢失关键诊断信息
现有方法只保留标量分数	无法追溯失败原因

---

Meta-Harness：核心创新

"反智"的暴力方案

核心思路极其简洁：

> 不压缩任何信息，全存下来，让 Coding Agent 自己去翻阅、分析、总结，然后写出更好的 Harness。

搜索循环架构

┌─────────────────────────────────────────────────────────────────┐
│                    Meta-Harness 搜索循环                         │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌─────────────────┐                                            │
│  │  文件系统 D      │  存储所有历史：                            │
│  │  (反馈通道)      │  • 候选 Harness 源代码                     │
│  │                 │  • 执行轨迹（prompts, tool calls, outputs）│
│  │                 │  • 评估分数                                │
│  └────────┬────────┘                                            │
│           │                                                      │
│           │  查询 (grep, cat, 等标准工具)                        │
│           ▼                                                      │
│  ┌─────────────────┐    ┌─────────────────┐    ┌─────────────┐  │
│  │  Coding Agent   │───→│  生成新 Harness │───→│  评估       │  │
│  │  (Claude Code)  │    │                 │    │             │  │
│  └─────────────────┘    └─────────────────┘    └──────┬──────┘  │
│           ▲                                           │         │
│           │                                           │         │
│           └───────────────────────────────────────────┘         │
│                     保存结果到文件系统                            │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

关键设计决策

设计	传统方法	Meta-Harness
历史保留	只保留最近 N 个候选	保留全部历史
反馈形式	标量分数或简短摘要	完整源代码 + 执行轨迹
信息检索	作为 prompt 输入	通过文件系统查询
上下文量	最多 26K tokens	高达 1000 万 tokens

---

与现有文本优化方法的对比

方法	历史	日志内容	每轮上下文
Self-Refine	仅最近	输出 + 自我批评	0.001M
OPRO	滑动窗口	(解, 分数) 对	0.002M
TextGrad	仅最近	LLM 文本梯度	0.015M
MIPRO	摘要	程序轨迹	0.003M
AlphaEvolve	滑动窗口	程序库 + 分数	0.022M
GEPA	摘要	轨迹 (推理 + 工具)	0.008M
Feedback Descent	摘要	成对比较 + 反馈	0.012M
TTT-Discover	滑动窗口	前解片段	0.026M
Meta-Harness	完整	所有日志和分数	10.0M

> Meta-Harness 的上下文量是之前方法的 300-10000 倍。

---

实验结果

1. 在线文本分类

方法	准确率	上下文 token
ACE (SOTA 手工设计)	40.9%	50.8K
Meta-Harness	48.6%	11.4K
提升	+7.7 分	-4×

关键发现：

Meta-Harness 仅 4 轮评估 就达到其他方法 60 轮 的效果
最终准确率超越其他文本优化器 10 分以上

2. 检索增强数学推理（IMO 级别）

在 200 个 IMO-level 问题上，Meta-Harness 发现的单一 Harness：

模型	无检索	Meta-Harness	提升
GPT-OSS-20B	基准	+4.7 分	平均
GPT-5.4-nano	基准	+4.7 分	平均
GPT-5.4-mini	基准	+4.7 分	平均
Gemini-3.1-Flash-Lite	基准	+4.7 分	平均
Gemini-3-Flash	基准	+4.7 分	平均

> 单一 Harness 在 5 个未参与训练的模型 上平均提升 4.7 分。

3. Agentic 编程（TerminalBench-2）

模型	方法	通过率	排名
Claude Opus 4.6	Terminus-KIRA (手工)	74.7%	-
Claude Opus 4.6	Meta-Harness	76.4%	#2
Claude Haiku 4.5	Goose (最佳报告)	35.5%	-
Claude Haiku 4.5	Meta-Harness	37.6%	#1

---

为什么这个方案有效？

1. 信息保留是核心

传统方法失败的原因：

无记忆：每轮从零开始
仅标量分数：只知道"准确率 62%"，不知道为什么
简短摘要：丢失关键诊断信息

Meta-Harness 的做法：

完整执行轨迹：可以看到每一步的 prompt、tool call、输出
源代码级分析：可以追溯失败到具体的 Harness 决策
因果推断：Agent 可以形成因果假设，"这个改动导致了那个失败"

2. 代码空间搜索的优势

Harness 优化发生在代码空间：

小的改动（如检索策略）可能在很多步后才显现效果
局部搜索启发式方法不匹配这种问题结构
代码表示提供自然正则化：编码模型倾向于提出连贯的算法

3. Agent 的自主诊断能力

论文附录展示了实际的搜索轨迹： 1. 早期迭代：结合结构修复和 prompt 模板修改 2. 观察到两者都回归 3. 明确假设：回归是由共享的 prompt 干预导致的 4. 隔离结构变化与 prompt 重写 5. 转向更安全的加法修改

这证明了：文件系统访问使 Agent 能够形成因果假设并相应修改 Harness。

---

Build to Delete：Harness 的动态演化

论文提到 Anthropic 的实践：

模型	Harness 复杂度	成本	效果
Opus 4.5	厚重（GAN 对抗架构、三 Agent 分工）	$200 / 6小时	基准
Opus 4.6	简化（去掉 sprint 分解）	$125 / 3.8小时	更好

这被称为 Build to Delete： > Harness 的厚度取决于模型当前的能力边界，模型变强了，对应 Harness 就该被剥离。

这揭示了一个深层问题：Harness 不是静态的，需要随模型迭代、随任务变化、随能力边界移动而持续演化。

---

对行业的启示

1. Harness 工程的范式转移

旧范式	新范式
手工设计 Harness	让 AI 自动搜索优化
一次性设计	持续演化
依赖专家直觉	数据驱动的端到端优化

2. 与 DSPy 的关系

Omar Khattab 是 DSPy 框架的创造者。Meta-Harness 可以看作 DSPy 思想的延伸：

DSPy：声明式 LLM 程序优化
Meta-Harness：端到端 Harness 代码搜索

3. 对 OpenClaw 的启示

Meta-Harness 验证了一个重要方向：

文件系统作为记忆：不压缩，全保留
Coding Agent 作为优化器：自主诊断、形成假设、修改代码
外层循环极简：评估 → 保存 → Agent 分析 → 生成 → 重复

这与 OpenClaw 的 Skill 系统、记忆系统有很强的关联性。

---

关键引用

论文中的核心洞察：

> "The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model."

> "Existing text optimizers are poorly matched to this setting because they compress feedback too aggressively."

> "Full access to execution traces is the most important component of the interface: summaries do not recover the missing signal."

---

参考链接

arXiv: https://arxiv.org/abs/2603.28052
PDF: https://arxiv.org/pdf/2603.28052
作者主页: https://yoonholee.com/meta-harness/
Bilibili 视频: https://www.bilibili.com/video/BV1rQ9JBoECh/

#MetaHarness #Harness优化 #Stanford #MIT #LLM #自动优化 #CodingAgent