一句话省流
LLM Agent的自我进化能力被拆成了两个独立维度:"造工具"(harness-updating)和"用工具"(harness-benefit)。论文发现:造工具的能力与模型基础能力无关——Qwen3.5-9B小模型写的技能更新和Claude Opus 4.6效果一样好。但用工具的能力是非单调的:弱模型不会用,中档模型用得最好,强模型反而因为天花板效应受益更少。弱模型的核心瓶颈不是"不会造",而是"不会激活"(激活率仅25%)和"不会遵循"(遵循率仅14%),且长程指令遵循在任务后半段衰减4倍。结论是:砸钱升级evolver是浪费,该投资的是task-solving agent本身。
一、费曼式核心:为什么造好工具不等于用好工具?
先理解一个行业迷思。
现在的Agent框架(Claude Code、AutoGPT、OpenHands)都在玩同一个套路:
- 给Agent一堆外部装备——提示词、技能、记忆、工具(统称harness)
- Agent执行任务时,发现"这个工具不好用"
- Agent自己修改、新增、优化这些装备
- 下次执行任务时,用更新后的装备
这叫Harness Self-Evolution(装备自我进化)。
行业的默认假设是:模型越强,进化效果越好。 所以大家都砸钱用Claude Opus、GPT-5来做evolver(进化器),觉得"顶级大模型写的工具肯定比小模型好"。
这篇论文的答案:大错特错。
论文把进化能力拆成了两个正交维度:
- Harness-updating(造装备):写新技能、改工具、优化提示词的能力
- Harness-benefit(用装备):拿到更新后的装备,执行任务时真正能受益的能力
核心发现:这两个能力完全独立。造得好的人不一定会用,用得好的人不一定会造。
二、装备自我进化的"驾驶员-赛博机甲"模型
2.1 类比:Agent就是驾驶员,Harness就是赛博机甲
想象一个驾驶员坐在机甲里:
- 机甲(Harness):外挂装甲、武器、传感器、导航仪 = 提示词、技能、记忆、工具
- 驾驶员(Agent):决定什么时候用什么装备、怎么组合
- 进化器(Evolver):根据战斗数据,升级机甲的工程师团队
行业的默认逻辑:工程师团队越牛(大模型越强),机甲升级越好,驾驶员战斗力越强。
论文发现:
- 工程师水平与机甲升级质量无关——实习生(9B模型)设计的升级和资深工程师(Opus 4.6)效果一样
- 驾驶员从升级中受益的能力是非单调的——新手驾驶员不会用新装备,中等水平驾驶员用升级效果最好,顶级驾驶员本身就已经很强,升级带来的边际收益反而小
2.2 形式化定义
论文用数学语言精确刻画了这两个能力:
基础能力:模型M在初始装备H₀下的任务表现
M_base(f) = J_X(f, H₀)
成对进化增益:evolver e对task-solving agent f的增益
Δ(f,e) = J_X(f, H_T^(f,e)) - M_base(f)
装备更新能力(evolver的视角):evolver e对所有task-solving agent的平均增益
Δ_update(e) = (1/|F*|) Σ Δ(f,e)
装备受益能力(task-solving agent的视角):agent f从所有evolver中获得的最大增益
Δ_benefit(f) = max_e Δ(f,e)
三、核心发现一:造装备与基础能力无关(Flat)
这是论文最反直觉的发现。
3.1 数据说话
在三个基准上测试了7个模型作为evolver:
| Evolver | SWE增益 | MCP增益 | SB增益 |
|---|---|---|---|
| Claude Opus 4.6 | 7.4 pp | 3.6 pp | 2.3 pp |
| Claude Sonnet 4.6 | 5.4 pp | 2.8 pp | 1.2 pp |
| Claude Haiku 4.5 | 6.2 pp | 4.4 pp | 0.0 pp |
| Qwen3-235B | 8.2 pp | 0.6 pp | 1.5 pp |
| GPT-OSS-120B | 6.4 pp | 1.9 pp | 1.2 pp |
| Qwen3-32B | 4.4 pp | 0.4 pp | 0.0 pp |
| Qwen3.5-9B | 6.8 pp | 1.0 pp | 3.8 pp |
关键数字:
- 任何基准上,最佳与最差evolver的差距仅3.1 pp
- 没有跨基准主导者:Qwen3-235B在SWE最强(8.2 pp),但在MCP垫底(0.6 pp)
- Qwen3.5-9B在SkillsBench上3.8 pp,超过Opus 4.6的2.3 pp
3.2 案例:9B和Opus写的技能过程几乎一样
论文深入分析了一个具体任务(flink-query):
- Qwen3.5-9B写的技能和Claude Opus 4.6写的技能
- 过程完全同构:相同的步骤、相同的逻辑、相同的错误处理
- 差异仅在于表面细节(变量命名、注释风格)
这说明:写一个好的技能/工具,不需要顶级推理能力。它需要的是对任务结构的理解和模式匹配能力——而这恰恰是中小型模型也能做到的。
3.3 为什么造装备不需要大模型?
原因可能在于:
- 技能/工具是结构化输出:有明确的模式(输入→处理→输出→错误处理),不是开放式创作
- 进化基于执行证据:有明确的"失败信号"指导改进方向
- 领域知识可以从上下文中检索:不需要模型自己记住所有知识
类比:写一个好的Excel宏不需要你是数学天才,需要的是对业务逻辑的理解和VBA语法知识。
四、核心发现二:用装备是非单调的(Non-monotonic)
如果造装备不需要大模型,那大模型的价值在哪?
答案是:在"用装备"上——但不是越强越好。
4.1 倒U型曲线
| Task-solving Agent | SWE基础分 | SWE增益 | MCP基础分 | MCP增益 | SB基础分 | SB增益 |
|---|---|---|---|---|---|---|
| Qwen3-32B (弱) | 3.6% | 4.4 | 3.6% | 1.0 | 0.0% | 5.8 |
| Qwen3-235B (中) | 20.7% | 19.3 | 25.0% | 4.3 | 4.7% | 1.1 |
| GPT-OSS-120B (中) | 26.2% | 15.8 | 28.0% | 7.0 | 0.0% | 7.0 |
| Haiku 4.5 (中强) | 66.0% | 2.4 | 42.4% | 3.6 | 5.8% | 15.1 |
| Sonnet 4.6 (强) | 73.2% | 2.8 | 54.0% | 3.2 | 24.4% | 3.5 |
| Opus 4.6 (最强) | 74.2% | 2.6 | 61.0% | 3.6 | 25.6% | 5.8 |
模式:
- 弱模型:基础分低,增益也低(不会用)
- 中档模型:基础分中等,增益最高(会用且空间大)
- 强模型:基础分高,增益反而低(天花板效应)
4.2 为什么中档模型受益最多?
天花板效应:
- SWE基准最高通过率约80%
- Opus 4.6基础分已经74.2%,留给进化的空间只有5.8%
- Qwen3-235B基础分20.7%,进化后可以到40%,空间巨大
能力匹配:
- 中档模型有足够的基础能力理解装备怎么用
- 但又不够强到"不需要装备也能搞定"
- 所以装备升级对它是"雪中送炭"
类比:
- 新手司机:给他F1赛车也开不好(弱模型不会用)
- 中级司机:从家用车换到性能车,提升巨大(中档模型受益最大)
- 职业车手:开什么车都快,换车提升有限(强模型天花板效应)
五、弱模型的两种失败模式:不是不会造,是不会用
论文深入分析了为什么弱模型受益少,发现了两种根本不同的失败模式。
5.1 模式一:装备激活失败(Harness Activation Failure)
定义:模型知道有某个技能/工具可以用,但无法正确加载它。
| 指标 | Qwen3-32B | GPT-OSS-120B | Opus 4.6 |
|---|---|---|---|
| SLR(技能加载率) | 0.251 | 0.446 | 0.957 |
Qwen3-32B在100次需要使用技能的场景中,只有25次成功加载了技能。
典型案例:threejs任务
Qwen3-32B的轨迹:
{
"analysis": "需要使用three.js创建3D场景",
"plan": "1. 加载threejs技能 2. 编写场景代码",
"load_skill": "threejs"
}
问题:格式门要求单键动作(一次只执行一个操作),但模型输出了多键JSON。结果:解析失败,技能未加载,模型在无指导状态下执行。
Opus 4.6的做法:
{"load_skill": "threejs"}
先加载技能,获得指导文档,再执行。
根本原因:弱模型缺乏"格式遵循"的精细控制能力——它知道要做什么,但无法以系统要求的格式表达。
5.2 模式二:装备遵循失败(Harness Adherence Failure)
定义:模型成功加载了技能,但不按照技能的指导执行。
| 指标 | Qwen3-32B | GPT-OSS-120B | Qwen3-235B | Opus 4.6 |
|---|---|---|---|---|
| HFR(装备遵循率) | 0.142 | 0.442 | 0.350 | 0.757 |
Qwen3-32B在成功加载技能后,只有14.2%的情况下真正按照技能指导执行。
典型案例:pg-essay-to-audiobook任务
技能文档中写道(简化):
"如果kokoro不可用,依次尝试edge-tts → pyttsx3 → espeak → gTTS"
Qwen3-32B的轨迹:
- 成功加载技能 ✓
- 尝试kokoro → FileNotFoundError
- 未执行回退链
- 直接报告:"task_complete=true, No TTS tools available"
问题:模型把技能视为字面脚本而不是应急程序。遇到第一个失败就放弃,而不是按照技能的回退链继续尝试。
Opus 4.6的做法:严格按照回退链逐一尝试,直到找到一个可用的TTS工具。
5.3 长程指令遵循衰减
论文还测量了任务执行过程中"遵循技能指导"的能力如何变化:
| 阶段 | Qwen3-32B(弱) | GPT-OSS-120B(中) | Opus 4.6(强) |
|---|---|---|---|
| 加载后 | 0.52 | 0.67 | 0.89 |
| 中点 | 0.22 | 0.48 | 0.79 |
| 最终 | 0.13 | 0.43 | 0.80 |
| 衰减幅度 | -0.39 | -0.24 | -0.09 |
弱模型的遵循率在任务执行过程中衰减了4倍,而强模型几乎不衰减。
这说明:长程指令遵循是弱模型的核心瓶颈——它可能一开始还记得要做什么,但随着任务步骤增多,逐渐"忘记"了技能指导。
六、对实践的启示:钱该花在哪儿?
论文的结论非常直接,甚至有些残酷。
6.1 投资task-solving agent,而非evolver
数据支持:
| 对比维度 | 数值 |
|---|---|
| evolver间差距 | ≤3.1 pp |
| 同agent跨evolver变异 | ≤5.1 pp |
| 不同agent间差距 | 36.0 pp |
| 强agent+最差evolver vs 弱agent+最佳evolver | 强+差胜18.6-35.2 pp |
核心结论:Agent本身的能力(task-solving agent)比evolver的能力重要10倍以上。
用最好的evolver(Claude Opus)升级一个弱agent,效果远不如用一个中档evolver升级一个强agent。
类比:给你最好的改装厂(evolver),改装一辆夏利(弱agent),也跑不过用普通改装厂改装的宝马(强agent)。
6.2 把装备调用纳入Agent训练
弱模型的技能加载率(SLR)只有25%,强模型接近96%。这说明:
- 装备调用不是"自然涌现"的能力
- 需要作为一等习得技能纳入训练
当前的大模型训练主要关注:
- 语言理解和生成
- 推理和问题解决
- 代码生成
但很少专门训练:
- 何时加载哪个技能
- 如何严格遵循技能指导
- 长程任务中保持技能上下文
6.3 增强长程指令遵循
弱模型的装备遵循率从任务开始的52%衰减到结束的13%。这说明:
- 当前的模型架构(Transformer)在长序列中保持指令上下文方面存在根本限制
- 需要新的架构或训练方法来解决这个问题
可能的解决方案:
- 显式记忆机制:让模型随时能"查阅"当前激活的技能
- 分层指令结构:把长技能分解为可检查点的短指令
- 强化学习微调:用RLHF专门训练"遵循技能指导"的行为
七、与现有研究的联系
7.1 与Tool Learning的关系
Tool learning(工具学习)研究的是"模型如何学会使用工具"。这篇论文发现:使用工具不仅需要"学会",还需要持续保持——弱模型学会了但忘记了。
7.2 与In-context Learning的关系
In-context learning(上下文学习)表明模型可以从提示中学习新任务。这篇论文发现:从技能文档中学习只是第一步,在长达数百步的任务中保持这个学习才是难点。
7.3 与Long-context Modeling的关系
长上下文建模研究的是模型能处理多长的输入。这篇论文的洞察:问题不是"能看多长",而是"在长序列中能保持多久的注意力/遵循能力"。 强模型和弱模型都能处理同样长的上下文,但强模型能在整个序列中保持遵循,弱模型不行。
八、费曼式总结:三个反直觉的启示
这篇论文对Agent框架的设计者提出了三个颠覆性启示:
1. "造工具"不需要大模型——9B模型写的技能和Opus一样好
industry's money is in the wrong place.大家都在砸钱用顶级大模型做evolver,但数据显示这完全是浪费。Qwen3.5-9B写的技能更新和Claude Opus 4.6效果一样——最大差距仅3.1 pp,而且在某些任务上9B反而更好。
2. "用工具"是非单调的——中等模型受益最多,强模型反而边际递减
不是因为强模型笨,而是因为强模型本身已经很强了,留给装备升级的空间很小。而中等模型(基础分20-40%)有最大的提升空间。
3. 弱模型的瓶颈不是"不会造",而是"不会激活"和"不会遵循"
75%的技能加载失败、86%的遵循失败——弱模型的问题不是理解能力,而是执行精度和长程一致性。
终极结论
"造好工具 ≠ 用得好工具"。Agent框架的设计应该把资源从"升级进化器"重新分配到"提升Agent本身的装备使用能力"上。具体而言:把装备调用和长程指令遵循作为一等训练目标,而不是寄希望于更大的evolver模型。
如果你在做Agent框架,问自己三个问题:
- 你的Agent能正确加载技能吗?(激活率)
- 加载后,Agent能严格遵循技能指导吗?(遵循率)
- 在长任务中,遵循能力会衰减吗?(长程一致性)
这三个问题比"用哪个大模型做evolver"重要10倍。
附录:关键指标速查
| 指标 | 含义 | 弱模型(Qwen3-32B) | 强模型(Opus 4.6) |
|---|---|---|---|
| SLR | 技能加载率 | 25.1% | 95.7% |
| HFR | 装备遵循率 | 14.2% | 75.7% |
| LPR | 加载后通过率 | 2.3% | 17.7% |
| 长程衰减 | 遵循率变化(始→终) | -0.39 | -0.09 |
#HarnessEvolution #LLMAgent #SelfEvolvingAgent #Agent框架 #工具学习 #长程指令遵循 #AI效率 #资源优化 #Claude #Qwen
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。