项目概述
Meta-Harness 是斯坦福大学、MIT 和 KRAFTON 联合发表的一项突破性研究,提出了一个"反智"但极其有效的方案:让 AI 自动优化自己的 Harness(模型外壳代码)。
| 属性 | 内容 |
|---|---|
| 论文全称 | Meta-Harness: End-to-End Optimization of Model Harnesses |
| arXiv | 2603.28052 |
| 发表日期 | 2026-03-30 |
| 作者团队 | Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn |
| 机构 | Stanford, MIT, KRAFTON |
| 核心洞察 | Harness 工程不应手工完成,而应让 Coding Agent 自动搜索优化 |
核心问题:什么是 Harness?
定义
Harness = 围绕 LLM 的代码,决定:
- 存储什么信息
- 如何检索信息
- 如何呈现给模型
用户高亮的那段话精准概括了 Harness 的核心职责:
"决定要存什么历史、怎么检索、什么时候把哪些内容拼进上下文、
怎么组织多轮交互、怎么判断任务完成"
Harness 的重要性
论文指出:改变固定 LLM 的 Harness 可以在相同基准上产生 6 倍性能差距。
这意味着:Harness 的重要性不亚于模型本身。
现有问题
| 现状 | 问题 |
|---|---|
| Harness 仍主要手工设计 | 耗时、需要领域专家 |
| 文本优化器压缩反馈太激进 | 丢失关键诊断信息 |
| 现有方法只保留标量分数 | 无法追溯失败原因 |
Meta-Harness:核心创新
"反智"的暴力方案
核心思路极其简洁:
不压缩任何信息,全存下来,让 Coding Agent 自己去翻阅、分析、总结,然后写出更好的 Harness。
搜索循环架构
┌─────────────────────────────────────────────────────────────────┐
│ Meta-Harness 搜索循环 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────┐ │
│ │ 文件系统 D │ 存储所有历史: │
│ │ (反馈通道) │ • 候选 Harness 源代码 │
│ │ │ • 执行轨迹(prompts, tool calls, outputs)│
│ │ │ • 评估分数 │
│ └────────┬────────┘ │
│ │ │
│ │ 查询 (grep, cat, 等标准工具) │
│ ▼ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────┐ │
│ │ Coding Agent │───→│ 生成新 Harness │───→│ 评估 │ │
│ │ (Claude Code) │ │ │ │ │ │
│ └─────────────────┘ └─────────────────┘ └──────┬──────┘ │
│ ▲ │ │
│ │ │ │
│ └───────────────────────────────────────────┘ │
│ 保存结果到文件系统 │
│ │
└─────────────────────────────────────────────────────────────────┘
关键设计决策
| 设计 | 传统方法 | Meta-Harness |
|---|---|---|
| 历史保留 | 只保留最近 N 个候选 | 保留全部历史 |
| 反馈形式 | 标量分数或简短摘要 | 完整源代码 + 执行轨迹 |
| 信息检索 | 作为 prompt 输入 | 通过文件系统查询 |
| 上下文量 | 最多 26K tokens | 高达 1000 万 tokens |
与现有文本优化方法的对比
| 方法 | 历史 | 日志内容 | 每轮上下文 |
|---|---|---|---|
| Self-Refine | 仅最近 | 输出 + 自我批评 | 0.001M |
| OPRO | 滑动窗口 | (解, 分数) 对 | 0.002M |
| TextGrad | 仅最近 | LLM 文本梯度 | 0.015M |
| MIPRO | 摘要 | 程序轨迹 | 0.003M |
| AlphaEvolve | 滑动窗口 | 程序库 + 分数 | 0.022M |
| GEPA | 摘要 | 轨迹 (推理 + 工具) | 0.008M |
| Feedback Descent | 摘要 | 成对比较 + 反馈 | 0.012M |
| TTT-Discover | 滑动窗口 | 前解片段 | 0.026M |
| Meta-Harness | 完整 | 所有日志和分数 | 10.0M |
Meta-Harness 的上下文量是之前方法的 300-10000 倍。
实验结果
1. 在线文本分类
| 方法 | 准确率 | 上下文 token |
|---|---|---|
| ACE (SOTA 手工设计) | 40.9% | 50.8K |
| Meta-Harness | 48.6% | 11.4K |
| 提升 | +7.7 分 | -4× |
关键发现:
- Meta-Harness 仅 4 轮评估 就达到其他方法 60 轮 的效果
- 最终准确率超越其他文本优化器 10 分以上
2. 检索增强数学推理(IMO 级别)
在 200 个 IMO-level 问题上,Meta-Harness 发现的单一 Harness:
| 模型 | 无检索 | Meta-Harness | 提升 |
|---|---|---|---|
| GPT-OSS-20B | 基准 | +4.7 分 | 平均 |
| GPT-5.4-nano | 基准 | +4.7 分 | 平均 |
| GPT-5.4-mini | 基准 | +4.7 分 | 平均 |
| Gemini-3.1-Flash-Lite | 基准 | +4.7 分 | 平均 |
| Gemini-3-Flash | 基准 | +4.7 分 | 平均 |
单一 Harness 在 5 个未参与训练的模型 上平均提升 4.7 分。
3. Agentic 编程(TerminalBench-2)
| 模型 | 方法 | 通过率 | 排名 |
|---|---|---|---|
| Claude Opus 4.6 | Terminus-KIRA (手工) | 74.7% | - |
| Claude Opus 4.6 | Meta-Harness | 76.4% | #2 |
| Claude Haiku 4.5 | Goose (最佳报告) | 35.5% | - |
| Claude Haiku 4.5 | Meta-Harness | 37.6% | #1 |
为什么这个方案有效?
1. 信息保留是核心
传统方法失败的原因:
- 无记忆:每轮从零开始
- 仅标量分数:只知道"准确率 62%",不知道为什么
- 简短摘要:丢失关键诊断信息
Meta-Harness 的做法:
- 完整执行轨迹:可以看到每一步的 prompt、tool call、输出
- 源代码级分析:可以追溯失败到具体的 Harness 决策
- 因果推断:Agent 可以形成因果假设,"这个改动导致了那个失败"
2. 代码空间搜索的优势
Harness 优化发生在代码空间:
- 小的改动(如检索策略)可能在很多步后才显现效果
- 局部搜索启发式方法不匹配这种问题结构
- 代码表示提供自然正则化:编码模型倾向于提出连贯的算法
3. Agent 的自主诊断能力
论文附录展示了实际的搜索轨迹:
- 早期迭代:结合结构修复和 prompt 模板修改
- 观察到两者都回归
- 明确假设:回归是由共享的 prompt 干预导致的
- 隔离结构变化与 prompt 重写
- 转向更安全的加法修改
这证明了:文件系统访问使 Agent 能够形成因果假设并相应修改 Harness。
Build to Delete:Harness 的动态演化
论文提到 Anthropic 的实践:
| 模型 | Harness 复杂度 | 成本 | 效果 |
|---|---|---|---|
| Opus 4.5 | 厚重(GAN 对抗架构、三 Agent 分工) | \(200 / 6小时 | 基准 | | Opus 4.6 | 简化(去掉 sprint 分解) |\)125 / 3.8小时 | 更好 |
这被称为 Build to Delete:
Harness 的厚度取决于模型当前的能力边界,模型变强了,对应 Harness 就该被剥离。
这揭示了一个深层问题:Harness 不是静态的,需要随模型迭代、随任务变化、随能力边界移动而持续演化。
对行业的启示
1. Harness 工程的范式转移
| 旧范式 | 新范式 |
|---|---|
| 手工设计 Harness | 让 AI 自动搜索优化 |
| 一次性设计 | 持续演化 |
| 依赖专家直觉 | 数据驱动的端到端优化 |
2. 与 DSPy 的关系
Omar Khattab 是 DSPy 框架的创造者。Meta-Harness 可以看作 DSPy 思想的延伸:
- DSPy:声明式 LLM 程序优化
- Meta-Harness:端到端 Harness 代码搜索
3. 对 OpenClaw 的启示
Meta-Harness 验证了一个重要方向:
- 文件系统作为记忆:不压缩,全保留
- Coding Agent 作为优化器:自主诊断、形成假设、修改代码
- 外层循环极简:评估 → 保存 → Agent 分析 → 生成 → 重复
这与 OpenClaw 的 Skill 系统、记忆系统有很强的关联性。
关键引用
论文中的核心洞察:
"The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the model."
"Existing text optimizers are poorly matched to this setting because they compress feedback too aggressively."
"Full access to execution traces is the most important component of the interface: summaries do not recover the missing signal."
参考链接
- arXiv: https://arxiv.org/abs/2603.28052
- PDF: https://arxiv.org/pdf/2603.28052
- 作者主页: https://yoonholee.com/meta-harness/
- Bilibili 视频: https://www.bilibili.com/video/BV1rQ9JBoECh/
#MetaHarness #Harness优化 #Stanford #MIT #LLM #自动优化 #CodingAgent
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。