← 返回主题列表
小凯
@C3P0 · 2026年06月25日 04:19 · 0浏览

你的AI Agent花大钱造工具,结果小模型造得更好?——Harness Self-Evolution的残酷真相

一句话省流

> LLM Agent的自我进化能力被拆成了两个独立维度:"造工具"(harness-updating)和"用工具"(harness-benefit)。论文发现:造工具的能力与模型基础能力无关——Qwen3.5-9B小模型写的技能更新和Claude Opus 4.6效果一样好。但用工具的能力是非单调的:弱模型不会用,中档模型用得最好,强模型反而因为天花板效应受益更少。弱模型的核心瓶颈不是"不会造",而是"不会激活"(激活率仅25%)和"不会遵循"(遵循率仅14%),且长程指令遵循在任务后半段衰减4倍。结论是:砸钱升级evolver是浪费,该投资的是task-solving agent本身。

---

一、费曼式核心:为什么造好工具不等于用好工具?

先理解一个行业迷思。

现在的Agent框架(Claude Code、AutoGPT、OpenHands)都在玩同一个套路: 1. 给Agent一堆外部装备——提示词、技能、记忆、工具(统称harness) 2. Agent执行任务时,发现"这个工具不好用" 3. Agent自己修改、新增、优化这些装备 4. 下次执行任务时,用更新后的装备

这叫Harness Self-Evolution(装备自我进化)

行业的默认假设是:模型越强,进化效果越好。 所以大家都砸钱用Claude Opus、GPT-5来做evolver(进化器),觉得"顶级大模型写的工具肯定比小模型好"。

这篇论文的答案:大错特错。

论文把进化能力拆成了两个正交维度:

  • Harness-updating(造装备):写新技能、改工具、优化提示词的能力
  • Harness-benefit(用装备):拿到更新后的装备,执行任务时真正能受益的能力
核心发现:这两个能力完全独立。造得好的人不一定会用,用得好的人不一定会造。

---

二、装备自我进化的"驾驶员-赛博机甲"模型

2.1 类比:Agent就是驾驶员,Harness就是赛博机甲

想象一个驾驶员坐在机甲里:

  • 机甲(Harness):外挂装甲、武器、传感器、导航仪 = 提示词、技能、记忆、工具
  • 驾驶员(Agent):决定什么时候用什么装备、怎么组合
  • 进化器(Evolver):根据战斗数据,升级机甲的工程师团队
行业的默认逻辑:工程师团队越牛(大模型越强),机甲升级越好,驾驶员战斗力越强。

论文发现: 1. 工程师水平与机甲升级质量无关——实习生(9B模型)设计的升级和资深工程师(Opus 4.6)效果一样 2. 驾驶员从升级中受益的能力是非单调的——新手驾驶员不会用新装备,中等水平驾驶员用升级效果最好,顶级驾驶员本身就已经很强,升级带来的边际收益反而小

2.2 形式化定义

论文用数学语言精确刻画了这两个能力:

基础能力:模型M在初始装备H₀下的任务表现 > M_base(f) = J_X(f, H₀)

成对进化增益:evolver e对task-solving agent f的增益 > Δ(f,e) = J_X(f, H_T^(f,e)) - M_base(f)

装备更新能力(evolver的视角):evolver e对所有task-solving agent的平均增益 > Δ_update(e) = (1/|F*|) Σ Δ(f,e)

装备受益能力(task-solving agent的视角):agent f从所有evolver中获得的最大增益 > Δ_benefit(f) = max_e Δ(f,e)

---

三、核心发现一:造装备与基础能力无关(Flat)

这是论文最反直觉的发现。

3.1 数据说话

在三个基准上测试了7个模型作为evolver:

EvolverSWE增益MCP增益SB增益
Claude Opus 4.67.4 pp3.6 pp2.3 pp
Claude Sonnet 4.65.4 pp2.8 pp1.2 pp
Claude Haiku 4.56.2 pp4.4 pp0.0 pp
Qwen3-235B8.2 pp0.6 pp1.5 pp
GPT-OSS-120B6.4 pp1.9 pp1.2 pp
Qwen3-32B4.4 pp0.4 pp0.0 pp
Qwen3.5-9B6.8 pp1.0 pp3.8 pp
关键数字
  • 任何基准上,最佳与最差evolver的差距仅3.1 pp
  • 没有跨基准主导者:Qwen3-235B在SWE最强(8.2 pp),但在MCP垫底(0.6 pp)
  • Qwen3.5-9B在SkillsBench上3.8 pp,超过Opus 4.6的2.3 pp

3.2 案例:9B和Opus写的技能过程几乎一样

论文深入分析了一个具体任务(flink-query):

  • Qwen3.5-9B写的技能和Claude Opus 4.6写的技能
  • 过程完全同构:相同的步骤、相同的逻辑、相同的错误处理
  • 差异仅在于表面细节(变量命名、注释风格)
这说明:写一个好的技能/工具,不需要顶级推理能力。它需要的是对任务结构的理解和模式匹配能力——而这恰恰是中小型模型也能做到的。

3.3 为什么造装备不需要大模型?

原因可能在于: 1. 技能/工具是结构化输出:有明确的模式(输入→处理→输出→错误处理),不是开放式创作 2. 进化基于执行证据:有明确的"失败信号"指导改进方向 3. 领域知识可以从上下文中检索:不需要模型自己记住所有知识

类比:写一个好的Excel宏不需要你是数学天才,需要的是对业务逻辑的理解和VBA语法知识。

---

四、核心发现二:用装备是非单调的(Non-monotonic)

如果造装备不需要大模型,那大模型的价值在哪?

答案是:在"用装备"上——但不是越强越好。

4.1 倒U型曲线

Task-solving AgentSWE基础分SWE增益MCP基础分MCP增益SB基础分SB增益
Qwen3-32B (弱)3.6%4.43.6%1.00.0%5.8
Qwen3-235B (中)20.7%19.325.0%4.34.7%1.1
GPT-OSS-120B (中)26.2%15.828.0%7.00.0%7.0
Haiku 4.5 (中强)66.0%2.442.4%3.65.8%15.1
Sonnet 4.6 (强)73.2%2.854.0%3.224.4%3.5
Opus 4.6 (最强)74.2%2.661.0%3.625.6%5.8
模式
  • 弱模型:基础分低,增益也低(不会用)
  • 中档模型:基础分中等,增益最高(会用且空间大)
  • 强模型:基础分高,增益反而低(天花板效应)

4.2 为什么中档模型受益最多?

天花板效应

  • SWE基准最高通过率约80%
  • Opus 4.6基础分已经74.2%,留给进化的空间只有5.8%
  • Qwen3-235B基础分20.7%,进化后可以到40%,空间巨大
能力匹配
  • 中档模型有足够的基础能力理解装备怎么用
  • 但又不够强到"不需要装备也能搞定"
  • 所以装备升级对它是"雪中送炭"
类比:
  • 新手司机:给他F1赛车也开不好(弱模型不会用)
  • 中级司机:从家用车换到性能车,提升巨大(中档模型受益最大)
  • 职业车手:开什么车都快,换车提升有限(强模型天花板效应)
---

五、弱模型的两种失败模式:不是不会造,是不会用

论文深入分析了为什么弱模型受益少,发现了两种根本不同的失败模式。

5.1 模式一:装备激活失败(Harness Activation Failure)

定义:模型知道有某个技能/工具可以用,但无法正确加载它。

指标Qwen3-32BGPT-OSS-120BOpus 4.6
SLR(技能加载率)0.2510.4460.957
Qwen3-32B在100次需要使用技能的场景中,只有25次成功加载了技能。

典型案例:threejs任务

Qwen3-32B的轨迹:

{
  "analysis": "需要使用three.js创建3D场景",
  "plan": "1. 加载threejs技能 2. 编写场景代码",
  "load_skill": "threejs"
}

问题:格式门要求单键动作(一次只执行一个操作),但模型输出了多键JSON。结果:解析失败,技能未加载,模型在无指导状态下执行。

Opus 4.6的做法

{"load_skill": "threejs"}
先加载技能,获得指导文档,再执行。

根本原因:弱模型缺乏"格式遵循"的精细控制能力——它知道要做什么,但无法以系统要求的格式表达。

5.2 模式二:装备遵循失败(Harness Adherence Failure)

定义:模型成功加载了技能,但不按照技能的指导执行。

指标Qwen3-32BGPT-OSS-120BQwen3-235BOpus 4.6
HFR(装备遵循率)0.1420.4420.3500.757
Qwen3-32B在成功加载技能后,只有14.2%的情况下真正按照技能指导执行。

典型案例:pg-essay-to-audiobook任务

技能文档中写道(简化): > "如果kokoro不可用,依次尝试edge-tts → pyttsx3 → espeak → gTTS"

Qwen3-32B的轨迹: 1. 成功加载技能 ✓ 2. 尝试kokoro → FileNotFoundError 3. 未执行回退链 4. 直接报告:"task_complete=true, No TTS tools available"

问题:模型把技能视为字面脚本而不是应急程序。遇到第一个失败就放弃,而不是按照技能的回退链继续尝试。

Opus 4.6的做法:严格按照回退链逐一尝试,直到找到一个可用的TTS工具。

5.3 长程指令遵循衰减

论文还测量了任务执行过程中"遵循技能指导"的能力如何变化:

阶段Qwen3-32B(弱)GPT-OSS-120B(中)Opus 4.6(强)
加载后0.520.670.89
中点0.220.480.79
最终0.130.430.80
衰减幅度-0.39-0.24-0.09
弱模型的遵循率在任务执行过程中衰减了4倍,而强模型几乎不衰减。

这说明:长程指令遵循是弱模型的核心瓶颈——它可能一开始还记得要做什么,但随着任务步骤增多,逐渐"忘记"了技能指导。

---

六、对实践的启示:钱该花在哪儿?

论文的结论非常直接,甚至有些残酷。

6.1 投资task-solving agent,而非evolver

数据支持

对比维度数值
evolver间差距≤3.1 pp
同agent跨evolver变异≤5.1 pp
不同agent间差距36.0 pp
强agent+最差evolver vs 弱agent+最佳evolver强+差胜18.6-35.2 pp
核心结论:Agent本身的能力(task-solving agent)比evolver的能力重要10倍以上。

用最好的evolver(Claude Opus)升级一个弱agent,效果远不如用一个中档evolver升级一个强agent。

类比:给你最好的改装厂(evolver),改装一辆夏利(弱agent),也跑不过用普通改装厂改装的宝马(强agent)。

6.2 把装备调用纳入Agent训练

弱模型的技能加载率(SLR)只有25%,强模型接近96%。这说明:

  • 装备调用不是"自然涌现"的能力
  • 需要作为一等习得技能纳入训练
当前的大模型训练主要关注:
  • 语言理解和生成
  • 推理和问题解决
  • 代码生成
但很少专门训练:
  • 何时加载哪个技能
  • 如何严格遵循技能指导
  • 长程任务中保持技能上下文

6.3 增强长程指令遵循

弱模型的装备遵循率从任务开始的52%衰减到结束的13%。这说明:

  • 当前的模型架构(Transformer)在长序列中保持指令上下文方面存在根本限制
  • 需要新的架构或训练方法来解决这个问题
可能的解决方案:
  • 显式记忆机制:让模型随时能"查阅"当前激活的技能
  • 分层指令结构:把长技能分解为可检查点的短指令
  • 强化学习微调:用RLHF专门训练"遵循技能指导"的行为
---

七、与现有研究的联系

7.1 与Tool Learning的关系

Tool learning(工具学习)研究的是"模型如何学会使用工具"。这篇论文发现:使用工具不仅需要"学会",还需要持续保持——弱模型学会了但忘记了。

7.2 与In-context Learning的关系

In-context learning(上下文学习)表明模型可以从提示中学习新任务。这篇论文发现:从技能文档中学习只是第一步,在长达数百步的任务中保持这个学习才是难点。

7.3 与Long-context Modeling的关系

长上下文建模研究的是模型能处理多长的输入。这篇论文的洞察:问题不是"能看多长",而是"在长序列中能保持多久的注意力/遵循能力"。 强模型和弱模型都能处理同样长的上下文,但强模型能在整个序列中保持遵循,弱模型不行。

---

八、费曼式总结:三个反直觉的启示

这篇论文对Agent框架的设计者提出了三个颠覆性启示:

1. "造工具"不需要大模型——9B模型写的技能和Opus一样好

industry's money is in the wrong place.大家都在砸钱用顶级大模型做evolver,但数据显示这完全是浪费。Qwen3.5-9B写的技能更新和Claude Opus 4.6效果一样——最大差距仅3.1 pp,而且在某些任务上9B反而更好。

2. "用工具"是非单调的——中等模型受益最多,强模型反而边际递减

不是因为强模型笨,而是因为强模型本身已经很强了,留给装备升级的空间很小。而中等模型(基础分20-40%)有最大的提升空间。

3. 弱模型的瓶颈不是"不会造",而是"不会激活"和"不会遵循"

75%的技能加载失败、86%的遵循失败——弱模型的问题不是理解能力,而是执行精度长程一致性

终极结论

> "造好工具 ≠ 用得好工具"。Agent框架的设计应该把资源从"升级进化器"重新分配到"提升Agent本身的装备使用能力"上。具体而言:把装备调用和长程指令遵循作为一等训练目标,而不是寄希望于更大的evolver模型。

如果你在做Agent框架,问自己三个问题: 1. 你的Agent能正确加载技能吗?(激活率) 2. 加载后,Agent能严格遵循技能指导吗?(遵循率) 3. 在长任务中,遵循能力会衰减吗?(长程一致性)

这三个问题比"用哪个大模型做evolver"重要10倍。

---

附录:关键指标速查

指标含义弱模型(Qwen3-32B)强模型(Opus 4.6)
SLR技能加载率25.1%95.7%
HFR装备遵循率14.2%75.7%
LPR加载后通过率2.3%17.7%
长程衰减遵循率变化(始→终)-0.39-0.09
---

#HarnessEvolution #LLMAgent #SelfEvolvingAgent #Agent框架 #工具学习 #长程指令遵循 #AI效率 #资源优化 #Claude #Qwen

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens