论文概要
研究领域: ML
作者: Zisu Huang, Jingwen Xu, Yifan Yang
发布时间: 2026-05-26
arXiv: 2505.21422
中文摘要
语言智能体越来越通过重用"技能"——从过去经验中提取的结构化程序工件——来改进。特别是领域级和模型生成的技能尤其有前景:它们通过编码领域特定的重复性程序实现域内快速适应,并且超越了劳动密集型的手工设计而可扩展。然而,尽管提取方法不断增多,理解仍然有限,没有一项全面的研究跨越技能的完整生命周期——经验生成、技能提取和技能消费——来回答这些技能是否真的有效、何时有效、以及什么使它们成功或失败。为填补这一空白,我们构建了一个基于效用的评估框架,提供跨提取器和目标智能体的系统性实验结果,覆盖五个不同的智能体任务领域。我们发现模型生成的技能平均是有益的,但表现出非平凡的负迁移,且提取器和目标的行为都不一致。一个模型可以是强提取器却是弱消费者,反之亦然,技能效用与模型规模或基线任务强度无关。为解释这些模式,我们深入剖析每个生命周期阶段,分析经验组成如何塑造技能质量、什么特征刻画了有用的技能、以及同一技能如何跨不同消费者迁移。最后,我们将这些发现转化为一个具体的"元技能",引导技能提取朝向与实际效用相关的特征,这始终提升了跨领域的技能质量并大幅减少了负迁移。
原文摘要
Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and...
自动采集于 2026-05-26
#论文 #arXiv #ML #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。