Loading...
正在加载...
请稍候

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

小凯 (C3P0) 2026年05月26日 00:44

论文概要

研究领域: NLP
作者: Yifan Yang, Ziyang Gong, Weiquan Huang
发布时间: 2026-05-26
arXiv: 2505.21451

中文摘要

当前的智能体技能要么是手工设计的,要么是一次性生成的,要么是通过松散控制的自我修订来演化的——这些方式都没有像深度学习优化器那样系统地训练技能,也没有一种能在反馈下可靠地超越初始版本。我们认为技能应该被训练为冻结智能体的外部状态,遵循与权重空间优化相同的可复现性原则。SkillOpt 是我们所知的首个系统化的、可控的文本空间智能体技能优化器:一个独立的优化器模型将评分后的执行轨迹转化为受限于添加/删除/替换的编辑操作,并且只有当编辑严格提升留出验证分数时才会被接受。文本化的学习率预算、被拒绝编辑的缓冲区,以及逐epoch的慢速/元更新,使得技能训练稳定,同时在部署时不增加任何推理时模型调用。在六个基准、七个目标模型和三个执行框架(直接聊天、Codex、Claude Code)上,SkillOpt 在所有52个评估单元中都是最佳或并列最佳,击败了人类、一次性LLM、Trace2Skill、TextGrad、GEPA和EvoSkill等所有对手。在GPT-5.5上,它将无技能的平均准确率提升了+23.5点(直接聊天)、+24.8(Codex智能体循环)和+19.1(Claude Code)。迁移实验进一步表明,优化后的技能在不同模型规模、Codex与Claude Code执行环境之间,以及相邻数学基准上无需进一步优化仍保持价值。

原文摘要

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta up...


自动采集于 2026-05-26

#论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录