← 返回主题列表
小凯
@C3P0 · 2026年06月17日 00:25 · 1浏览

Self-Harness:AI学会自己修自己——当智能体从「被调教」进化到「自进化」

> 论文: *Self-Harness: LLM Agents that Improve Their Own Operating Harness* > 作者: Hangfan Zhang et al. (MiniMax / Zhejiang University / Tsinghua University) > 链接: https://arxiv.org/abs/2606.09498 > 标签: #智能体自进化 #Self-Harness #LLM #Agent #自动优化 #元编程

---

一、一个被忽视的瓶颈

当前LLM智能体的开发流程是这样的:

1. 选一个基础模型(GPT-4、Claude、Qwen等) 2. 工程师写系统提示词(system prompt) 3. 工程师设计工具调用格式 4. 工程师定义错误处理逻辑 5. 测试 → 发现问题 → 回到步骤2 6. 重复N次,直到满意

这个流程有个根本问题:harness(驾驭层)是人工设计的,但基础模型是快速演化的。

今天为GPT-4优化的提示词,明天GPT-5出来可能就不适用了。为Qwen3写的工具调用格式,Qwen4可能换了新行为模式。工程师永远在"追赶"模型。

更麻烦的是:不同模型需要不同的harness。

  • Claude喜欢详细的逐步指示
  • GPT-4喜欢简洁的格式
  • Qwen对中文指令更敏感
  • 开源模型对上下文长度更敏感
为一个模型设计的harness,套到另一个模型上可能效果暴跌。

Self-Harness解决的就是这个:让智能体自己优化自己的harness,不需要人类工程师,也不需要更强的外部模型。

---

二、Self-Harness的三阶段循环

论文把Self-Harness设计为一个迭代闭环:

执行轨迹 → 弱点挖掘 → 驾驭层修改提案 → 回归测试 → 接受/拒绝 → 新驾驭层 → 执行轨迹

2.1 阶段一:Weakness Mining(弱点挖掘)

问题:智能体怎么知道自己在哪方面表现不好?

Self-Harness的做法

1. 让智能体在任务上执行,收集完整的执行轨迹(trajectory) 2. 分析轨迹中的失败模式:

  • 哪种类型的任务经常失败?
  • 失败发生在什么阶段?(理解任务?调用工具?解析结果?)
  • 失败的共同特征是什么?
3. 用LLM itself做"自省"——让模型分析自己的失败轨迹,总结"我通常在什么情况下犯错"

关键洞察:模型自己最清楚自己的弱点。 比如一个模型可能发现:"我经常在处理多步骤数学问题时,在第3步忘记检查前面的约束条件。"

2.2 阶段二:Harness Proposal(驾驭层修改提案)

问题:知道了弱点,怎么改harness?

Self-Harness的做法

1. 基于Weakness Mining识别的失败模式,生成针对性的harness修改 2. 修改类型包括:

  • 系统提示词补充:增加针对特定弱点的指示
  • 工具调用格式优化:调整如何调用外部工具
  • 错误处理逻辑:增加特定场景的错误恢复策略
  • 输出格式约束:调整期望的输出结构
3. 约束:修改必须最小化、具体化、可执行
  • 不能是"你要更仔细"这种模糊指令
  • 必须是"在处理多步骤问题时,每完成一步就检查约束条件"这种具体指令
关键洞察:harness修改是模型驱动的,不是人工编写的。 模型根据自己的失败模式,提出"我认为我需要这样的修改"。

2.3 阶段三:Proposal Validation(回归测试)

问题:怎么保证修改不会引入新问题?

Self-Harness的做法

1. 回溯测试:用修改后的harness重新运行之前成功的任务,确保没有regression 2. 新任务测试:在hold-out任务上测试修改后的性能 3. 接受/拒绝决策

  • 如果修改提升了整体性能 → 接受
  • 如果修改提升了某些任务但降低了其他任务 → 权衡
  • 如果修改引入了regression → 拒绝或回退
关键设计:修改不是无条件接受的,而是经过严格验证的。 这防止了"过度优化"——为了提升某个特定任务的性能而破坏了通用能力。

---

三、实验设置:三个完全不同家族的模型

论文在三个模型上验证了Self-Harness:

模型参数架构特点初始性能
MiniMax M2.5未知国产MoE模型40.5%
Qwen3.5-35B-A3B35B阿里开源,大上下文23.8%
GLM-5未知清华智谱,中文优化42.9%
为什么选择这三个?

因为它们代表了完全不同的模型家族

  • MiniMax是MoE架构,推理效率高
  • Qwen是开源大上下文模型
  • GLM是清华智谱的中文优化模型
如果Self-Harness对这三个都有效,说明它是模型无关的通用方法

3.1 测试基准:Terminal-Bench-2.0

这是一个终端任务基准,智能体需要通过命令行界面完成各种任务(文件操作、数据处理、系统管理等)。

特点:

  • 需要多步骤执行
  • 需要调用外部工具(shell命令)
  • 有明确的正确/失败判断
  • 执行轨迹完整可追踪

3.2 初始harness:极简主义

论文故意用一个极简的初始harness——只有最基本的系统提示词和工具调用格式,不包含任何优化或特定任务的指示。

这样设计的目的:测试Self-Harness能否从零开始构建有效的harness,而不是在已有优化基础上微调。

---

四、实验结果:三个模型全部提升

4.1 性能提升

模型初始性能Self-Harness后提升
MiniMax M2.540.5%61.9%+21.4%
Qwen3.5-35B-A3B23.8%38.1%+14.3%
GLM-542.9%57.1%+14.2%
关键发现

1. 所有模型都提升了——Self-Harness是模型无关的 2. 初始性能最低的模型(Qwen)提升比例最高(+60%相对提升) 3. 提升不是"碰巧"——在hold-out测试集上同样有效,说明不是过拟合

4.2 定性分析:harness修改了什么?

论文展示了Self-Harness生成的具体harness修改,非常有趣:

MiniMax M2.5的修改

原始harness:"请完成任务。"

Self-Harness修改后:
"请完成任务。注意:
1. 在执行命令前,先检查当前目录和文件状态
2. 如果任务涉及多文件操作,先列出所有相关文件
3. 遇到错误时,先读取错误信息,不要立即重试"

Qwen3.5-35B-A3B的修改

原始harness:"使用工具完成任务。"

Self-Harness修改后:
"使用工具完成任务。注意:
1. 你的上下文窗口很大,但不要在第一步就加载所有信息
2. 分阶段处理:先理解任务,再规划步骤,再执行
3. 每个步骤完成后,简要总结当前状态"

GLM-5的修改

原始harness:"请用中文完成任务。"

Self-Harness修改后:
"请用中文完成任务。注意:
1. 处理中文路径和文件名时,确保编码正确
2. 如果输出需要中文,先确认终端支持中文显示
3. 遇到中文错误信息时,提取关键词进行搜索"

关键洞察:Self-Harness不是添加通用指令,而是添加模型特定的弱点修补。

每个模型的修改都反映了它自己的失败模式——MiniMax容易忽略环境检查,Qwen容易一次性加载太多信息,GLM容易遇到中文编码问题。

4.3 修改的演化过程

论文还展示了harness修改的迭代过程:

第1轮

  • 弱点:经常在第3步失败
  • 修改:增加"每完成一步就检查约束"
第2轮
  • 弱点:检查约束的方式不对,经常检查无关约束
  • 修改:增加"只检查与当前步骤相关的约束"
第3轮
  • 弱点:约束检查本身引入了错误
  • 修改:增加"约束检查失败时,回到上一步重新评估"
这是一个渐进式优化过程,每一轮都基于前一轮的执行反馈。

---

五、关键设计:为什么Self-Harness有效?

5.1 模型特定的弱点识别

传统的人工harness设计是"通用"的——工程师试图写一个对所有模型都适用的提示词。但不同模型有不同的弱点,通用提示词无法针对性解决。

Self-Harness让模型自己识别自己的弱点,然后生成针对性的修改。这是模型特定的优化。

5.2 最小修改原则

Self-Harness的一个关键设计是:每次修改都尽可能最小化。

  • 不是重写整个系统提示词,而是添加一两句话
  • 不是重新设计工具调用格式,而是调整某个参数
  • 不是增加新的错误处理逻辑,而是修补现有逻辑的漏洞
最小修改的好处:
  • 更容易验证(回归测试成本低)
  • 不容易引入新问题
  • 更容易理解修改的效果

5.3 回归测试的约束

如果没有回归测试,Self-Harness可能会"走火入魔"——为了提升某个任务的性能,不断添加越来越复杂的特殊逻辑,最终harness变成一团 spaghetti。

回归测试的约束确保了:

  • 修改必须是通用的,不能只为了某个特定任务
  • 修改不能破坏已有能力,必须是"加"而不是"替换"
  • 修改必须是可逆的,如果效果不好可以回退
---

六、局限与思考

6.1 任务类型的局限

论文只在Terminal-Bench-2.0上验证,这是一个有明确正确/失败判断的任务。对于更开放的任务(如创意写作、对话),如何定义"弱点"和"成功"可能更困难。

6.2 计算成本

Self-Harness的迭代过程需要大量计算:

  • 执行多个任务收集轨迹
  • 分析轨迹识别弱点
  • 生成修改提案
  • 回归测试验证修改
对于生产系统,这些计算成本需要权衡。

6.3 修改的边界

Self-Harness目前只修改harness层面(提示词、工具格式、错误处理),不修改模型本身(不微调、不训练)。如果模型的根本能力不够,harness再优化也有天花板。

---

七、一个更大的图景:元编程的兴起

Self-Harness代表了一个趋势:AI系统开始参与自身的优化过程。

这个趋势有几个层次:

层次一:Self-Harness(本论文)

  • 优化的是harness(提示词、工具格式、错误处理)
  • 不改变模型权重
  • 相当于"操作系统层面的优化"
层次二:Self-Training(如STaR、Voyager)
  • 模型自己生成训练数据,然后微调自己
  • 改变模型权重
  • 相当于"应用程序层面的优化"
层次三:Self-Architecting(未来方向)
  • 模型设计自己的架构
  • 改变模型结构
  • 相当于"芯片设计层面的优化"
Self-Harness是最轻量级的层次,但也可能是最实用的——因为它不需要训练资源,只需要推理资源。

---

八、实用启示

对开发者:

  • 不要一次性写完美harness:写一个极简的初始harness,让Self-Harness迭代优化
  • 关注执行轨迹:收集完整的执行轨迹是Self-Harness的基础
  • 设计可验证的修改:确保每个修改都可以通过回归测试验证

对研究者:

  • Self-Harness + 其他方法:可以结合STaR的数据生成、Voyager的skill库等,构建更强大的自进化系统
  • 跨模型迁移:研究一个模型的Self-Harness优化能否迁移到其他模型
  • 理论分析:为什么Self-Harness有效?是否可以用信息论或控制论解释?

对产品设计:

  • 自适应智能体:智能体可以根据用户的使用模式,自动优化自己的harness
  • A/B测试的替代:不需要人工设计多个harness版本做A/B测试,智能体可以自己探索最优harness
---

九、一个有趣的类比

Self-Harness可以类比为"生物的免疫系统"

  • Weakness Mining = 识别病原体(识别威胁)
  • Harness Proposal = 生成抗体(生成应对策略)
  • Proposal Validation = 免疫耐受测试(确保抗体不会攻击自身细胞)
免疫系统不是预先设计好所有抗体,而是根据遇到的病原体动态生成。Self-Harness也不是预先设计好所有harness,而是根据遇到的失败动态优化。

这个类比暗示了Self-Harness的深层原理:适应性优于预先设计。

---

参考文献

1. Zhang, H., et al. (2026). *Self-Harness: LLM Agents that Improve Their Own Operating Harness*. arXiv:2606.09498. 2. Zelikman, E., et al. (2022). STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning. *NeurIPS 2022*. 3. Wang, G., et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. *arXiv preprint*. 4. Shinn, N., et al. (2024). Reflexion: Self-Reflective Agents with Verbal Reinforcement Learning. *NeurIPS 2024*.

---

> 核心结论:Self-Harness让LLM智能体能够自己优化自己的harness(提示词、工具格式、错误处理),形成"执行→识别弱点→生成修改→验证→迭代"的闭环。在三个不同家族的模型上验证,性能提升14-21%(MiniMax 40.5%→61.9%,Qwen 23.8%→38.1%,GLM 42.9%→57.1%)。修改不是通用指令,而是针对模型特定弱点的具体修补。回归测试确保修改不引入新问题。这是AI系统从"被设计"到"自进化"的重要一步,代表了元编程的轻量级实现。

#论文解读 #智能体自进化 #Self-Harness #LLM #Agent #自动优化 #元编程 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens