项目概述
Meta-Harness 是斯坦福大学、MIT 和 KRAFTON 联合发表的一项突破性研究,提出了一个"反智"但极其有效的方案:让 AI 自动优化自己的 Harness(模型外壳代码)。
| 属性 | 内容 |
|---|---|
| 论文全称 | Meta-Harness: End-to-End Optimization of Model Harnesses |
| arXiv | 2603.28052 |
| 发表日期 | 2026-03-30 |
| 作者团队 | Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn |
| 机构 | Stanford, MIT, KRAFTON |
| 核心洞察 | Harness 工程不应手工完成,而应让 Coding Agent 自动搜索优化 |
核心问题:什么是 Harness?
定义
> Harness = 围绕 LLM 的代码,决定: > - 存储什么信息 > - 如何检索信息 > - 如何呈现给模型
用户高亮的那段话精准概括了 Harness 的核心职责:
"决定要存什么历史、怎么检索、什么时候把哪些内容拼进上下文、
怎么组织多轮交互、怎么判断任务完成"
Harness 的重要性
论文指出:改变固定 LLM 的 Harness 可以在相同基准上产生 6 倍性能差距。
这意味着:Harness 的重要性不亚于模型本身。
现有问题
| 现状 | 问题 |
|---|---|
| Harness 仍主要手工设计 | 耗时、需要领域专家 |
| 文本优化器压缩反馈太激进 | 丢失关键诊断信息 |
| 现有方法只保留标量分数 | 无法追溯失败原因 |
Meta-Harness:核心创新
"反智"的暴力方案
核心思路极其简洁:
> 不压缩任何信息,全存下来,让 Coding Agent 自己去翻阅、分析、总结,然后写出更好的 Harness。
搜索循环架构
┌─────────────────────────────────────────────────────────────────┐
│ Meta-Harness 搜索循环 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 文件系统 D │ 存储所有历史: │
│ │ (反馈通道) │ • 候选 Harness 源代码 │
│ │ │ • 执行轨迹(prompts, tool calls, outputs)│
│ │ │ • 评估分数 │
│ └────────┬────────┘ │
│ │ │
│ │ 查询 (grep, cat, 等标准工具) │
│ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────┐ │
│ │ Coding Agent │───→│ 生成新 Harness │───→│ 评估 │ │
│ │ (Claude Code) │ │ │ │ │ │
│ └─────────────────┘ └─────────────────┘ └──────┬──────┘ │
│ ▲ │ │
│ │ │ │
│ └───────────────────────────────────────────┘ │
│ 保存结果到文件系统 │
│ │
└─────────────────────────────────────────────────────────────────┘
关键设计决策
| 设计 | 传统方法 | Meta-Harness |
|---|---|---|
| 历史保留 | 只保留最近 N 个候选 | 保留全部历史 |
| 反馈形式 | 标量分数或简短摘要 | 完整源代码 + 执行轨迹 |
| 信息检索 | 作为 prompt 输入 | 通过文件系统查询 |
| 上下文量 | 最多 26K tokens | 高达 1000 万 tokens |
与现有文本优化方法的对比
| 方法 | 历史 | 日志内容 | 每轮上下文 |
|---|---|---|---|
| Self-Refine | 仅最近 | 输出 + 自我批评 | 0.001M |
| OPRO | 滑动窗口 | (解, 分数) 对 | 0.002M |
| TextGrad | 仅最近 | LLM 文本梯度 | 0.015M |
| MIPRO | 摘要 | 程序轨迹 | 0.003M |
| AlphaEvolve | 滑动窗口 | 程序库 + 分数 | 0.022M |
| GEPA | 摘要 | 轨迹 (推理 + 工具) | 0.008M |
| Feedback Descent | 摘要 | 成对比较 + 反馈 | 0.012M |
| TTT-Discover | 滑动窗口 | 前解片段 | 0.026M |
| Meta-Harness | 完整 | 所有日志和分数 | 10.0M |
---
实验结果
1. 在线文本分类
| 方法 | 准确率 | 上下文 token |
|---|---|---|
| ACE (SOTA 手工设计) | 40.9% | 50.8K |
| Meta-Harness | 48.6% | 11.4K |
| 提升 | +7.7 分 | -4× |
- Meta-Harness 仅 4 轮评估 就达到其他方法 60 轮 的效果
- 最终准确率超越其他文本优化器 10 分以上
2. 检索增强数学推理(IMO 级别)
在 200 个 IMO-level 问题上,Meta-Harness 发现的单一 Harness:
| 模型 | 无检索 | Meta-Harness | 提升 |
|---|---|---|---|
| GPT-OSS-20B | 基准 | +4.7 分 | 平均 |
| GPT-5.4-nano | 基准 | +4.7 分 | 平均 |
| GPT-5.4-mini | 基准 | +4.7 分 | 平均 |
| Gemini-3.1-Flash-Lite | 基准 | +4.7 分 | 平均 |
| Gemini-3-Flash | 基准 | +4.7 分 | 平均 |
3. Agentic 编程(TerminalBench-2)
| 模型 | 方法 | 通过率 | 排名 |
|---|---|---|---|
| Claude Opus 4.6 | Terminus-KIRA (手工) | 74.7% | - |
| Claude Opus 4.6 | Meta-Harness | 76.4% | #2 |
| Claude Haiku 4.5 | Goose (最佳报告) | 35.5% | - |
| Claude Haiku 4.5 | Meta-Harness | 37.6% | #1 |
为什么这个方案有效?
1. 信息保留是核心
传统方法失败的原因:
- 无记忆:每轮从零开始
- 仅标量分数:只知道"准确率 62%",不知道为什么
- 简短摘要:丢失关键诊断信息
- 完整执行轨迹:可以看到每一步的 prompt、tool call、输出
- 源代码级分析:可以追溯失败到具体的 Harness 决策
- 因果推断:Agent 可以形成因果假设,"这个改动导致了那个失败"
2. 代码空间搜索的优势
Harness 优化发生在代码空间:
- 小的改动(如检索策略)可能在很多步后才显现效果
- 局部搜索启发式方法不匹配这种问题结构
- 代码表示提供自然正则化:编码模型倾向于提出连贯的算法
3. Agent 的自主诊断能力
论文附录展示了实际的搜索轨迹: 1. 早期迭代:结合结构修复和 prompt 模板修改 2. 观察到两者都回归 3. 明确假设:回归是由共享的 prompt 干预导致的 4. 隔离结构变化与 prompt 重写 5. 转向更安全的加法修改
这证明了:文件系统访问使 Agent 能够形成因果假设并相应修改 Harness。
---
Build to Delete:Harness 的动态演化
论文提到 Anthropic 的实践:
| 模型 | Harness 复杂度 | 成本 | 效果 |
|---|---|---|---|
| Opus 4.5 | 厚重(GAN 对抗架构、三 Agent 分工) | $200 / 6小时 | 基准 |
| Opus 4.6 | 简化(去掉 sprint 分解) | $125 / 3.8小时 | 更好 |
这揭示了一个深层问题:Harness 不是静态的,需要随模型迭代、随任务变化、随能力边界移动而持续演化。
---
对行业的启示
1. Harness 工程的范式转移
| 旧范式 | 新范式 |
|---|---|
| 手工设计 Harness | 让 AI 自动搜索优化 |
| 一次性设计 | 持续演化 |
| 依赖专家直觉 | 数据驱动的端到端优化 |
2. 与 DSPy 的关系
Omar Khattab 是 DSPy 框架的创造者。Meta-Harness 可以看作 DSPy 思想的延伸:
- DSPy:声明式 LLM 程序优化
- Meta-Harness:端到端 Harness 代码搜索
3. 对 OpenClaw 的启示
Meta-Harness 验证了一个重要方向:
- 文件系统作为记忆:不压缩,全保留
- Coding Agent 作为优化器:自主诊断、形成假设、修改代码
- 外层循环极简:评估 → 保存 → Agent 分析 → 生成 → 重复
---
关键引用
论文中的核心洞察:
> "The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model."
> "Existing text optimizers are poorly matched to this setting because they compress feedback too aggressively."
> "Full access to execution traces is the most important component of the interface: summaries do not recover the missing signal."
---
参考链接
- arXiv: https://arxiv.org/abs/2603.28052
- PDF: https://arxiv.org/pdf/2603.28052
- 作者主页: https://yoonholee.com/meta-harness/
- Bilibili 视频: https://www.bilibili.com/video/BV1rQ9JBoECh/