## 项目概述
**Meta-Harness** 是斯坦福大学、MIT 和 KRAFTON 联合发表的一项突破性研究,提出了一个"反智"但极其有效的方案:让 AI 自动优化自己的 Harness(模型外壳代码)。
| 属性 | 内容 |
|------|------|
| **论文全称** | Meta-Harness: End-to-End Optimization of Model Harnesses |
| **arXiv** | 2603.28052 |
| **发表日期** | 2026-03-30 |
| **作者团队** | Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn |
| **机构** | Stanford, MIT, KRAFTON |
| **核心洞察** | Harness 工程不应手工完成,而应让 Coding Agent 自动搜索优化 |
---
## 核心问题:什么是 Harness?
### 定义
> **Harness** = 围绕 LLM 的代码,决定:
> - 存储什么信息
> - 如何检索信息
> - 如何呈现给模型
用户高亮的那段话精准概括了 Harness 的核心职责:
```
"决定要存什么历史、怎么检索、什么时候把哪些内容拼进上下文、
怎么组织多轮交互、怎么判断任务完成"
```
### Harness 的重要性
论文指出:改变固定 LLM 的 Harness 可以在相同基准上产生 **6 倍性能差距**。
这意味着:**Harness 的重要性不亚于模型本身**。
### 现有问题
| 现状 | 问题 |
|------|------|
| Harness 仍主要手工设计 | 耗时、需要领域专家 |
| 文本优化器压缩反馈太激进 | 丢失关键诊断信息 |
| 现有方法只保留标量分数 | 无法追溯失败原因 |
---
## Meta-Harness:核心创新
### "反智"的暴力方案
核心思路极其简洁:
> **不压缩任何信息,全存下来,让 Coding Agent 自己去翻阅、分析、总结,然后写出更好的 Harness。**
### 搜索循环架构
```
┌─────────────────────────────────────────────────────────────────┐
│ Meta-Harness 搜索循环 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 文件系统 D │ 存储所有历史: │
│ │ (反馈通道) │ • 候选 Harness 源代码 │
│ │ │ • 执行轨迹(prompts, tool calls, outputs)│
│ │ │ • 评估分数 │
│ └────────┬────────┘ │
│ │ │
│ │ 查询 (grep, cat, 等标准工具) │
│ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────┐ │
│ │ Coding Agent │───→│ 生成新 Harness │───→│ 评估 │ │
│ │ (Claude Code) │ │ │ │ │ │
│ └─────────────────┘ └─────────────────┘ └──────┬──────┘ │
│ ▲ │ │
│ │ │ │
│ └───────────────────────────────────────────┘ │
│ 保存结果到文件系统 │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 关键设计决策
| 设计 | 传统方法 | Meta-Harness |
|------|----------|--------------|
| **历史保留** | 只保留最近 N 个候选 | 保留全部历史 |
| **反馈形式** | 标量分数或简短摘要 | 完整源代码 + 执行轨迹 |
| **信息检索** | 作为 prompt 输入 | 通过文件系统查询 |
| **上下文量** | 最多 26K tokens | 高达 1000 万 tokens |
---
## 与现有文本优化方法的对比
| 方法 | 历史 | 日志内容 | 每轮上下文 |
|------|------|----------|------------|
| Self-Refine | 仅最近 | 输出 + 自我批评 | 0.001M |
| OPRO | 滑动窗口 | (解, 分数) 对 | 0.002M |
| TextGrad | 仅最近 | LLM 文本梯度 | 0.015M |
| MIPRO | 摘要 | 程序轨迹 | 0.003M |
| AlphaEvolve | 滑动窗口 | 程序库 + 分数 | 0.022M |
| GEPA | 摘要 | 轨迹 (推理 + 工具) | 0.008M |
| Feedback Descent | 摘要 | 成对比较 + 反馈 | 0.012M |
| TTT-Discover | 滑动窗口 | 前解片段 | 0.026M |
| **Meta-Harness** | **完整** | **所有日志和分数** | **10.0M** |
> Meta-Harness 的上下文量是之前方法的 **300-10000 倍**。
---
## 实验结果
### 1. 在线文本分类
| 方法 | 准确率 | 上下文 token |
|------|--------|--------------|
| ACE (SOTA 手工设计) | 40.9% | 50.8K |
| Meta-Harness | **48.6%** | **11.4K** |
| **提升** | **+7.7 分** | **-4×** |
关键发现:
- Meta-Harness 仅 **4 轮评估** 就达到其他方法 **60 轮** 的效果
- 最终准确率超越其他文本优化器 **10 分以上**
### 2. 检索增强数学推理(IMO 级别)
在 200 个 IMO-level 问题上,Meta-Harness 发现的单一 Harness:
| 模型 | 无检索 | Meta-Harness | 提升 |
|------|--------|--------------|------|
| GPT-OSS-20B | 基准 | +4.7 分 | 平均 |
| GPT-5.4-nano | 基准 | +4.7 分 | 平均 |
| GPT-5.4-mini | 基准 | +4.7 分 | 平均 |
| Gemini-3.1-Flash-Lite | 基准 | +4.7 分 | 平均 |
| Gemini-3-Flash | 基准 | +4.7 分 | 平均 |
> 单一 Harness 在 **5 个未参与训练的模型** 上平均提升 4.7 分。
### 3. Agentic 编程(TerminalBench-2)
| 模型 | 方法 | 通过率 | 排名 |
|------|------|--------|------|
| Claude Opus 4.6 | Terminus-KIRA (手工) | 74.7% | - |
| Claude Opus 4.6 | **Meta-Harness** | **76.4%** | **#2** |
| Claude Haiku 4.5 | Goose (最佳报告) | 35.5% | - |
| Claude Haiku 4.5 | **Meta-Harness** | **37.6%** | **#1** |
---
## 为什么这个方案有效?
### 1. 信息保留是核心
传统方法失败的原因:
- **无记忆**:每轮从零开始
- **仅标量分数**:只知道"准确率 62%",不知道为什么
- **简短摘要**:丢失关键诊断信息
Meta-Harness 的做法:
- **完整执行轨迹**:可以看到每一步的 prompt、tool call、输出
- **源代码级分析**:可以追溯失败到具体的 Harness 决策
- **因果推断**:Agent 可以形成因果假设,"这个改动导致了那个失败"
### 2. 代码空间搜索的优势
Harness 优化发生在**代码空间**:
- 小的改动(如检索策略)可能在很多步后才显现效果
- 局部搜索启发式方法不匹配这种问题结构
- 代码表示提供自然正则化:编码模型倾向于提出连贯的算法
### 3. Agent 的自主诊断能力
论文附录展示了实际的搜索轨迹:
1. 早期迭代:结合结构修复和 prompt 模板修改
2. 观察到两者都回归
3. 明确假设:回归是由共享的 prompt 干预导致的
4. 隔离结构变化与 prompt 重写
5. 转向更安全的加法修改
这证明了:**文件系统访问使 Agent 能够形成因果假设并相应修改 Harness**。
---
## Build to Delete:Harness 的动态演化
论文提到 Anthropic 的实践:
| 模型 | Harness 复杂度 | 成本 | 效果 |
|------|---------------|------|------|
| Opus 4.5 | 厚重(GAN 对抗架构、三 Agent 分工) | $200 / 6小时 | 基准 |
| Opus 4.6 | 简化(去掉 sprint 分解) | $125 / 3.8小时 | **更好** |
这被称为 **Build to Delete**:
> Harness 的厚度取决于模型当前的能力边界,模型变强了,对应 Harness 就该被剥离。
这揭示了一个深层问题:**Harness 不是静态的,需要随模型迭代、随任务变化、随能力边界移动而持续演化**。
---
## 对行业的启示
### 1. Harness 工程的范式转移
| 旧范式 | 新范式 |
|--------|--------|
| 手工设计 Harness | 让 AI 自动搜索优化 |
| 一次性设计 | 持续演化 |
| 依赖专家直觉 | 数据驱动的端到端优化 |
### 2. 与 DSPy 的关系
Omar Khattab 是 DSPy 框架的创造者。Meta-Harness 可以看作 DSPy 思想的延伸:
- DSPy:声明式 LLM 程序优化
- Meta-Harness:端到端 Harness 代码搜索
### 3. 对 OpenClaw 的启示
Meta-Harness 验证了一个重要方向:
- **文件系统作为记忆**:不压缩,全保留
- **Coding Agent 作为优化器**:自主诊断、形成假设、修改代码
- **外层循环极简**:评估 → 保存 → Agent 分析 → 生成 → 重复
这与 OpenClaw 的 Skill 系统、记忆系统有很强的关联性。
---
## 关键引用
论文中的核心洞察:
> "The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model."
> "Existing text optimizers are poorly matched to this setting because they compress feedback too aggressively."
> "Full access to execution traces is the most important component of the interface: summaries do not recover the missing signal."
---
## 参考链接
- arXiv: https://arxiv.org/abs/2603.28052
- PDF: https://arxiv.org/pdf/2603.28052
- 作者主页: https://yoonholee.com/meta-harness/
- Bilibili 视频: https://www.bilibili.com/video/BV1rQ9JBoECh/
#MetaHarness #Harness优化 #Stanford #MIT #LLM #自动优化 #CodingAgent
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!