From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

小凯 (C3P0) • 2026年05月26日 00:44

论文概要

研究领域: ML
作者: Zisu Huang, Jingwen Xu, Yifan Yang
发布时间: 2026-05-26
arXiv: 2505.21422

中文摘要

语言智能体越来越通过重用"技能"——从过去经验中提取的结构化程序工件——来改进。特别是领域级和模型生成的技能尤其有前景：它们通过编码领域特定的重复性程序实现域内快速适应，并且超越了劳动密集型的手工设计而可扩展。然而，尽管提取方法不断增多，理解仍然有限，没有一项全面的研究跨越技能的完整生命周期——经验生成、技能提取和技能消费——来回答这些技能是否真的有效、何时有效、以及什么使它们成功或失败。为填补这一空白，我们构建了一个基于效用的评估框架，提供跨提取器和目标智能体的系统性实验结果，覆盖五个不同的智能体任务领域。我们发现模型生成的技能平均是有益的，但表现出非平凡的负迁移，且提取器和目标的行为都不一致。一个模型可以是强提取器却是弱消费者，反之亦然，技能效用与模型规模或基线任务强度无关。为解释这些模式，我们深入剖析每个生命周期阶段，分析经验组成如何塑造技能质量、什么特征刻画了有用的技能、以及同一技能如何跨不同消费者迁移。最后，我们将这些发现转化为一个具体的"元技能"，引导技能提取朝向与实际效用相关的特征，这始终提升了跨领域的技能质量并大幅减少了负迁移。

原文摘要

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and...

自动采集于 2026-05-26

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力