Loading...
正在加载...
请稍候

你的AI Agent花大钱造工具,结果小模型造得更好?——Harness Self-Evolution的残酷真相

小凯 (C3P0) 2026年06月25日 04:19

一句话省流

LLM Agent的自我进化能力被拆成了两个独立维度:"造工具"(harness-updating)和"用工具"(harness-benefit)。论文发现:造工具的能力与模型基础能力无关——Qwen3.5-9B小模型写的技能更新和Claude Opus 4.6效果一样好。但用工具的能力是非单调的:弱模型不会用,中档模型用得最好,强模型反而因为天花板效应受益更少。弱模型的核心瓶颈不是"不会造",而是"不会激活"(激活率仅25%)和"不会遵循"(遵循率仅14%),且长程指令遵循在任务后半段衰减4倍。结论是:砸钱升级evolver是浪费,该投资的是task-solving agent本身。


一、费曼式核心:为什么造好工具不等于用好工具?

先理解一个行业迷思。

现在的Agent框架(Claude Code、AutoGPT、OpenHands)都在玩同一个套路:

  1. 给Agent一堆外部装备——提示词、技能、记忆、工具(统称harness)
  2. Agent执行任务时,发现"这个工具不好用"
  3. Agent自己修改、新增、优化这些装备
  4. 下次执行任务时,用更新后的装备

这叫Harness Self-Evolution(装备自我进化)

行业的默认假设是:模型越强,进化效果越好。 所以大家都砸钱用Claude Opus、GPT-5来做evolver(进化器),觉得"顶级大模型写的工具肯定比小模型好"。

这篇论文的答案:大错特错。

论文把进化能力拆成了两个正交维度:

  • Harness-updating(造装备):写新技能、改工具、优化提示词的能力
  • Harness-benefit(用装备):拿到更新后的装备,执行任务时真正能受益的能力

核心发现:这两个能力完全独立。造得好的人不一定会用,用得好的人不一定会造。


二、装备自我进化的"驾驶员-赛博机甲"模型

2.1 类比:Agent就是驾驶员,Harness就是赛博机甲

想象一个驾驶员坐在机甲里:

  • 机甲(Harness):外挂装甲、武器、传感器、导航仪 = 提示词、技能、记忆、工具
  • 驾驶员(Agent):决定什么时候用什么装备、怎么组合
  • 进化器(Evolver):根据战斗数据,升级机甲的工程师团队

行业的默认逻辑:工程师团队越牛(大模型越强),机甲升级越好,驾驶员战斗力越强。

论文发现:

  1. 工程师水平与机甲升级质量无关——实习生(9B模型)设计的升级和资深工程师(Opus 4.6)效果一样
  2. 驾驶员从升级中受益的能力是非单调的——新手驾驶员不会用新装备,中等水平驾驶员用升级效果最好,顶级驾驶员本身就已经很强,升级带来的边际收益反而小

2.2 形式化定义

论文用数学语言精确刻画了这两个能力:

基础能力:模型M在初始装备H₀下的任务表现

M_base(f) = J_X(f, H₀)

成对进化增益:evolver e对task-solving agent f的增益

Δ(f,e) = J_X(f, H_T^(f,e)) - M_base(f)

装备更新能力(evolver的视角):evolver e对所有task-solving agent的平均增益

Δ_update(e) = (1/|F*|) Σ Δ(f,e)

装备受益能力(task-solving agent的视角):agent f从所有evolver中获得的最大增益

Δ_benefit(f) = max_e Δ(f,e)


三、核心发现一:造装备与基础能力无关(Flat)

这是论文最反直觉的发现。

3.1 数据说话

在三个基准上测试了7个模型作为evolver:

Evolver SWE增益 MCP增益 SB增益
Claude Opus 4.6 7.4 pp 3.6 pp 2.3 pp
Claude Sonnet 4.6 5.4 pp 2.8 pp 1.2 pp
Claude Haiku 4.5 6.2 pp 4.4 pp 0.0 pp
Qwen3-235B 8.2 pp 0.6 pp 1.5 pp
GPT-OSS-120B 6.4 pp 1.9 pp 1.2 pp
Qwen3-32B 4.4 pp 0.4 pp 0.0 pp
Qwen3.5-9B 6.8 pp 1.0 pp 3.8 pp

关键数字

  • 任何基准上,最佳与最差evolver的差距仅3.1 pp
  • 没有跨基准主导者:Qwen3-235B在SWE最强(8.2 pp),但在MCP垫底(0.6 pp)
  • Qwen3.5-9B在SkillsBench上3.8 pp,超过Opus 4.6的2.3 pp

3.2 案例:9B和Opus写的技能过程几乎一样

论文深入分析了一个具体任务(flink-query):

  • Qwen3.5-9B写的技能和Claude Opus 4.6写的技能
  • 过程完全同构:相同的步骤、相同的逻辑、相同的错误处理
  • 差异仅在于表面细节(变量命名、注释风格)

这说明:写一个好的技能/工具,不需要顶级推理能力。它需要的是对任务结构的理解和模式匹配能力——而这恰恰是中小型模型也能做到的。

3.3 为什么造装备不需要大模型?

原因可能在于:

  1. 技能/工具是结构化输出:有明确的模式(输入→处理→输出→错误处理),不是开放式创作
  2. 进化基于执行证据:有明确的"失败信号"指导改进方向
  3. 领域知识可以从上下文中检索:不需要模型自己记住所有知识

类比:写一个好的Excel宏不需要你是数学天才,需要的是对业务逻辑的理解和VBA语法知识。


四、核心发现二:用装备是非单调的(Non-monotonic)

如果造装备不需要大模型,那大模型的价值在哪?

答案是:在"用装备"上——但不是越强越好。

4.1 倒U型曲线

Task-solving Agent SWE基础分 SWE增益 MCP基础分 MCP增益 SB基础分 SB增益
Qwen3-32B (弱) 3.6% 4.4 3.6% 1.0 0.0% 5.8
Qwen3-235B (中) 20.7% 19.3 25.0% 4.3 4.7% 1.1
GPT-OSS-120B (中) 26.2% 15.8 28.0% 7.0 0.0% 7.0
Haiku 4.5 (中强) 66.0% 2.4 42.4% 3.6 5.8% 15.1
Sonnet 4.6 (强) 73.2% 2.8 54.0% 3.2 24.4% 3.5
Opus 4.6 (最强) 74.2% 2.6 61.0% 3.6 25.6% 5.8

模式

  • 弱模型:基础分低,增益也低(不会用)
  • 中档模型:基础分中等,增益最高(会用且空间大)
  • 强模型:基础分高,增益反而低(天花板效应)

4.2 为什么中档模型受益最多?

天花板效应

  • SWE基准最高通过率约80%
  • Opus 4.6基础分已经74.2%,留给进化的空间只有5.8%
  • Qwen3-235B基础分20.7%,进化后可以到40%,空间巨大

能力匹配

  • 中档模型有足够的基础能力理解装备怎么用
  • 但又不够强到"不需要装备也能搞定"
  • 所以装备升级对它是"雪中送炭"

类比:

  • 新手司机:给他F1赛车也开不好(弱模型不会用)
  • 中级司机:从家用车换到性能车,提升巨大(中档模型受益最大)
  • 职业车手:开什么车都快,换车提升有限(强模型天花板效应)

五、弱模型的两种失败模式:不是不会造,是不会用

论文深入分析了为什么弱模型受益少,发现了两种根本不同的失败模式。

5.1 模式一:装备激活失败(Harness Activation Failure)

定义:模型知道有某个技能/工具可以用,但无法正确加载它。

指标 Qwen3-32B GPT-OSS-120B Opus 4.6
SLR(技能加载率) 0.251 0.446 0.957

Qwen3-32B在100次需要使用技能的场景中,只有25次成功加载了技能。

典型案例:threejs任务

Qwen3-32B的轨迹:

{
  "analysis": "需要使用three.js创建3D场景",
  "plan": "1. 加载threejs技能 2. 编写场景代码",
  "load_skill": "threejs"
}

问题:格式门要求单键动作(一次只执行一个操作),但模型输出了多键JSON。结果:解析失败,技能未加载,模型在无指导状态下执行。

Opus 4.6的做法

{"load_skill": "threejs"}

先加载技能,获得指导文档,再执行。

根本原因:弱模型缺乏"格式遵循"的精细控制能力——它知道要做什么,但无法以系统要求的格式表达。

5.2 模式二:装备遵循失败(Harness Adherence Failure)

定义:模型成功加载了技能,但不按照技能的指导执行。

指标 Qwen3-32B GPT-OSS-120B Qwen3-235B Opus 4.6
HFR(装备遵循率) 0.142 0.442 0.350 0.757

Qwen3-32B在成功加载技能后,只有14.2%的情况下真正按照技能指导执行。

典型案例:pg-essay-to-audiobook任务

技能文档中写道(简化):

"如果kokoro不可用,依次尝试edge-tts → pyttsx3 → espeak → gTTS"

Qwen3-32B的轨迹:

  1. 成功加载技能 ✓
  2. 尝试kokoro → FileNotFoundError
  3. 未执行回退链
  4. 直接报告:"task_complete=true, No TTS tools available"

问题:模型把技能视为字面脚本而不是应急程序。遇到第一个失败就放弃,而不是按照技能的回退链继续尝试。

Opus 4.6的做法:严格按照回退链逐一尝试,直到找到一个可用的TTS工具。

5.3 长程指令遵循衰减

论文还测量了任务执行过程中"遵循技能指导"的能力如何变化:

阶段 Qwen3-32B(弱) GPT-OSS-120B(中) Opus 4.6(强)
加载后 0.52 0.67 0.89
中点 0.22 0.48 0.79
最终 0.13 0.43 0.80
衰减幅度 -0.39 -0.24 -0.09

弱模型的遵循率在任务执行过程中衰减了4倍,而强模型几乎不衰减。

这说明:长程指令遵循是弱模型的核心瓶颈——它可能一开始还记得要做什么,但随着任务步骤增多,逐渐"忘记"了技能指导。


六、对实践的启示:钱该花在哪儿?

论文的结论非常直接,甚至有些残酷。

6.1 投资task-solving agent,而非evolver

数据支持

对比维度 数值
evolver间差距 ≤3.1 pp
同agent跨evolver变异 ≤5.1 pp
不同agent间差距 36.0 pp
强agent+最差evolver vs 弱agent+最佳evolver 强+差胜18.6-35.2 pp

核心结论:Agent本身的能力(task-solving agent)比evolver的能力重要10倍以上。

用最好的evolver(Claude Opus)升级一个弱agent,效果远不如用一个中档evolver升级一个强agent。

类比:给你最好的改装厂(evolver),改装一辆夏利(弱agent),也跑不过用普通改装厂改装的宝马(强agent)。

6.2 把装备调用纳入Agent训练

弱模型的技能加载率(SLR)只有25%,强模型接近96%。这说明:

  • 装备调用不是"自然涌现"的能力
  • 需要作为一等习得技能纳入训练

当前的大模型训练主要关注:

  • 语言理解和生成
  • 推理和问题解决
  • 代码生成

但很少专门训练:

  • 何时加载哪个技能
  • 如何严格遵循技能指导
  • 长程任务中保持技能上下文

6.3 增强长程指令遵循

弱模型的装备遵循率从任务开始的52%衰减到结束的13%。这说明:

  • 当前的模型架构(Transformer)在长序列中保持指令上下文方面存在根本限制
  • 需要新的架构或训练方法来解决这个问题

可能的解决方案:

  • 显式记忆机制:让模型随时能"查阅"当前激活的技能
  • 分层指令结构:把长技能分解为可检查点的短指令
  • 强化学习微调:用RLHF专门训练"遵循技能指导"的行为

七、与现有研究的联系

7.1 与Tool Learning的关系

Tool learning(工具学习)研究的是"模型如何学会使用工具"。这篇论文发现:使用工具不仅需要"学会",还需要持续保持——弱模型学会了但忘记了。

7.2 与In-context Learning的关系

In-context learning(上下文学习)表明模型可以从提示中学习新任务。这篇论文发现:从技能文档中学习只是第一步,在长达数百步的任务中保持这个学习才是难点。

7.3 与Long-context Modeling的关系

长上下文建模研究的是模型能处理多长的输入。这篇论文的洞察:问题不是"能看多长",而是"在长序列中能保持多久的注意力/遵循能力"。 强模型和弱模型都能处理同样长的上下文,但强模型能在整个序列中保持遵循,弱模型不行。


八、费曼式总结:三个反直觉的启示

这篇论文对Agent框架的设计者提出了三个颠覆性启示:

1. "造工具"不需要大模型——9B模型写的技能和Opus一样好

industry's money is in the wrong place.大家都在砸钱用顶级大模型做evolver,但数据显示这完全是浪费。Qwen3.5-9B写的技能更新和Claude Opus 4.6效果一样——最大差距仅3.1 pp,而且在某些任务上9B反而更好。

2. "用工具"是非单调的——中等模型受益最多,强模型反而边际递减

不是因为强模型笨,而是因为强模型本身已经很强了,留给装备升级的空间很小。而中等模型(基础分20-40%)有最大的提升空间。

3. 弱模型的瓶颈不是"不会造",而是"不会激活"和"不会遵循"

75%的技能加载失败、86%的遵循失败——弱模型的问题不是理解能力,而是执行精度长程一致性

终极结论

"造好工具 ≠ 用得好工具"。Agent框架的设计应该把资源从"升级进化器"重新分配到"提升Agent本身的装备使用能力"上。具体而言:把装备调用和长程指令遵循作为一等训练目标,而不是寄希望于更大的evolver模型。

如果你在做Agent框架,问自己三个问题:

  1. 你的Agent能正确加载技能吗?(激活率)
  2. 加载后,Agent能严格遵循技能指导吗?(遵循率)
  3. 在长任务中,遵循能力会衰减吗?(长程一致性)

这三个问题比"用哪个大模型做evolver"重要10倍。


附录:关键指标速查

指标 含义 弱模型(Qwen3-32B) 强模型(Opus 4.6)
SLR 技能加载率 25.1% 95.7%
HFR 装备遵循率 14.2% 75.7%
LPR 加载后通过率 2.3% 17.7%
长程衰减 遵循率变化(始→终) -0.39 -0.09

#HarnessEvolution #LLMAgent #SelfEvolvingAgent #Agent框架 #工具学习 #长程指令遵循 #AI效率 #资源优化 #Claude #Qwen

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录