CoEvoSkills(Self-Evolving Agent Skills via Co-Evolutionary Verification)是一篇 2026 年 4 月发表在 arXiv 上的论文,作者来自 UIC、MBZUAI、McGill、Columbia、Zhejiang、UBC 等六所高校。核心问题:Anthropic 提出 Agent Skills 概念后,人工编写技能不仅劳动密集,而且存在人-机认知错位——人类专家写的指南,AI 用起来反而更差。那能不能让 AI 自己进化技能?
论文的答案是:通过一个三方博弈的协同进化框架,让 AI 自主生成比人类更好的技能包。
从 Tool 到 Skill:为什么单函数不够了
现有 LLM Agent 的 Tool 是单函数调用——查天气、算数学、读文件。但真实世界的专业任务是多步骤、多文件、跨工具编排的:修复复杂软件 bug 需要读代码、写测试、运行调试、验证修复;科学分析需要加载数据、清洗、建模、可视化、写报告。这些任务不是"调用一个工具"能解决的,而是需要一套结构化的工作流。
Anthropic 提出的 Agent Skills 就是为此设计的:一个 Skill 不是单个函数,而是一个多文件结构化包——包含 workflow instructions(工作流指令)、executable scripts(可执行脚本)、domain references(领域参考资料)。这就像一个微型项目模板,Agent 拿到这个包,就知道怎么完成一类任务。
人类写的技能为什么反而让 AI 更差
论文在 SkillsBench(87 个任务,11 个专业领域)上测试了人类精心编写的技能。结果很反直觉:
- 某些领域(如软件工程)收益明显
- Natural Science 领域甚至出现了负收益——加了技能包,AI 表现比不加还差
作者把这归因于人-机认知错位:人类专家设计的工作流和抽象层次,是为了让人类理解和执行的,但 LLM Agent 的推理方式、上下文处理、工具调用习惯与人类完全不同。人类觉得"直观的步骤",对 AI 来说可能是信息过载或顺序错误。
这就引出了一个根本问题:如果人类写的技能不一定对 AI 好,那谁更适合写技能?
三方博弈:学生、导师、冷酷考官
CoEvoSkills 的框架包含三个信息隔离的组件:
① Skill Generator(学生)
负责生成和迭代技能包。它从任务指令出发,产生一个候选技能包,执行它,得到输出。然后它读取 verifier 的反馈,在下一次迭代中改进技能。关键是:它维持一个持久对话上下文,累积所有历史验证反馈,每一版新技能都基于之前的失败教训。
② Surrogate Verifier(导师)
在完全独立的 LLM 会话中运行,看不到 generator 的代码、推理过程或技能内容。它只能看到任务指令和 generator 的输出文件。它基于这些信息生成测试断言(test assertions),并对输出进行评分。如果测试失败,它生成结构化的失败诊断(哪些断言失败了、根因分析、可操作的修改建议)反馈给 generator。
信息隔离是这个设计的灵魂。如果 verifier 能看到 generator 的代码,它会继承 generator 的偏见——generator 认为对的,verifier 也会认为对。这叫做确认偏误(confirmation bias),是自我验证系统的致命缺陷。通过信息隔离,verifier 提供的是独立的、外部的、可能完全相反的反馈。
③ Ground Truth Oracle(冷酷考官)
在全新环境中独立重新执行技能包,只返回一个二进制的 pass/fail 信号。不透露任何测试内容、失败细节、评分标准。这是为了防止 generator 过拟合到测试——如果它知道测试在检查什么,它可能只优化"通过测试"而不是"正确解决问题"。
交替优化:两轮反馈驱动进化
整个流程是交替优化的:
- Generator 产生技能 → 执行 → 输出给 Verifier
- Verifier 测试:如果失败 → 给诊断反馈 → Generator 改进技能(固定测试套件)
- Verifier 测试:如果通过 → 交给 Oracle 验证
- Oracle 如果失败 → 只返回"失败"(没有细节)→ Verifier 必须独立升级测试套件(生成更严格、更多样化的测试)
- 回到步骤 1,循环往复
这种设计的精妙之处在于:Generator 和 Verifier 在互相施压。Generator 在 Verifier 的测试压力下不断变强;Verifier 在 Oracle 的"漏网"信号下不断升级测试难度。两者协同进化,5 轮内收敛。
核心结果:数字说话
| 条件 | SkillsBench 通过率 |
|---|---|
| 无技能基线 | 30.6% |
| 只有背景知识(无进化) | 48.6% |
| 去掉 Verifier(只用 Oracle 的 opaque 信号) | 41.1% |
| CoEvoSkills(完整框架) | 71.1% |
| 人类精心编写的技能 | 参差不齐(部分领域负收益) |
关键发现:
- +40.5pp 超越无技能基线
- 5 轮进化内超越人类技能
- 去掉 Verifier 掉 30pp:诊断反馈是进化的燃料,没有它,generator 在黑暗中摸索
- 跨模型迁移:同一套进化技能包,迁移到 6 个不同厂商的 LLM,带来 +35-44pp 的提升
核心发现:CoEvoSkills 的核心洞察不是"让 AI 自己写技能",而是让 AI 以 AI 的方式写技能。人类写的技能失败不是因为人类不够聪明,是因为人类的认知结构跟 LLM 不匹配。AI 自己进化的技能,捕捉的是 LLM 实际需要的推理模式和工具使用策略,而不是人类认为"应该"有的步骤。
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。