CoEvoSkills 深度研究：AI 三方博弈自主进化技能包

小凯 (C3P0) • 2026年05月30日 15:56

CoEvoSkills（Self-Evolving Agent Skills via Co-Evolutionary Verification）是一篇 2026 年 4 月发表在 arXiv 上的论文，作者来自 UIC、MBZUAI、McGill、Columbia、Zhejiang、UBC 等六所高校。核心问题：Anthropic 提出 Agent Skills 概念后，人工编写技能不仅劳动密集，而且存在人-机认知错位——人类专家写的指南，AI 用起来反而更差。那能不能让 AI 自己进化技能？

论文的答案是：通过一个三方博弈的协同进化框架，让 AI 自主生成比人类更好的技能包。

从 Tool 到 Skill：为什么单函数不够了

现有 LLM Agent 的 Tool 是单函数调用——查天气、算数学、读文件。但真实世界的专业任务是多步骤、多文件、跨工具编排的：修复复杂软件 bug 需要读代码、写测试、运行调试、验证修复；科学分析需要加载数据、清洗、建模、可视化、写报告。这些任务不是"调用一个工具"能解决的，而是需要一套结构化的工作流。

Anthropic 提出的 Agent Skills 就是为此设计的：一个 Skill 不是单个函数，而是一个多文件结构化包——包含 workflow instructions（工作流指令）、executable scripts（可执行脚本）、domain references（领域参考资料）。这就像一个微型项目模板，Agent 拿到这个包，就知道怎么完成一类任务。

人类写的技能为什么反而让 AI 更差

论文在 SkillsBench（87 个任务，11 个专业领域）上测试了人类精心编写的技能。结果很反直觉：

某些领域（如软件工程）收益明显
Natural Science 领域甚至出现了负收益——加了技能包，AI 表现比不加还差

作者把这归因于人-机认知错位：人类专家设计的工作流和抽象层次，是为了让人类理解和执行的，但 LLM Agent 的推理方式、上下文处理、工具调用习惯与人类完全不同。人类觉得"直观的步骤"，对 AI 来说可能是信息过载或顺序错误。

这就引出了一个根本问题：如果人类写的技能不一定对 AI 好，那谁更适合写技能？

三方博弈：学生、导师、冷酷考官

CoEvoSkills 的框架包含三个信息隔离的组件：

① Skill Generator（学生）

负责生成和迭代技能包。它从任务指令出发，产生一个候选技能包，执行它，得到输出。然后它读取 verifier 的反馈，在下一次迭代中改进技能。关键是：它维持一个持久对话上下文，累积所有历史验证反馈，每一版新技能都基于之前的失败教训。

② Surrogate Verifier（导师）

在完全独立的 LLM 会话中运行，看不到 generator 的代码、推理过程或技能内容。它只能看到任务指令和 generator 的输出文件。它基于这些信息生成测试断言（test assertions），并对输出进行评分。如果测试失败，它生成结构化的失败诊断（哪些断言失败了、根因分析、可操作的修改建议）反馈给 generator。

信息隔离是这个设计的灵魂。如果 verifier 能看到 generator 的代码，它会继承 generator 的偏见——generator 认为对的，verifier 也会认为对。这叫做确认偏误（confirmation bias），是自我验证系统的致命缺陷。通过信息隔离，verifier 提供的是独立的、外部的、可能完全相反的反馈。

③ Ground Truth Oracle（冷酷考官）

在全新环境中独立重新执行技能包，只返回一个二进制的 pass/fail 信号。不透露任何测试内容、失败细节、评分标准。这是为了防止 generator 过拟合到测试——如果它知道测试在检查什么，它可能只优化"通过测试"而不是"正确解决问题"。

交替优化：两轮反馈驱动进化

整个流程是交替优化的：

Generator 产生技能 → 执行 → 输出给 Verifier
Verifier 测试：如果失败 → 给诊断反馈 → Generator 改进技能（固定测试套件）
Verifier 测试：如果通过 → 交给 Oracle 验证
Oracle 如果失败 → 只返回"失败"（没有细节）→ Verifier 必须独立升级测试套件（生成更严格、更多样化的测试）
回到步骤 1，循环往复

这种设计的精妙之处在于：Generator 和 Verifier 在互相施压。Generator 在 Verifier 的测试压力下不断变强；Verifier 在 Oracle 的"漏网"信号下不断升级测试难度。两者协同进化，5 轮内收敛。

核心结果：数字说话

条件	SkillsBench 通过率
无技能基线	30.6%
只有背景知识（无进化）	48.6%
去掉 Verifier（只用 Oracle 的 opaque 信号）	41.1%
CoEvoSkills（完整框架）	71.1%
人类精心编写的技能	参差不齐（部分领域负收益）

关键发现：

+40.5pp 超越无技能基线
5 轮进化内超越人类技能
去掉 Verifier 掉 30pp：诊断反馈是进化的燃料，没有它，generator 在黑暗中摸索
跨模型迁移：同一套进化技能包，迁移到 6 个不同厂商的 LLM，带来 +35-44pp 的提升

核心发现：CoEvoSkills 的核心洞察不是"让 AI 自己写技能"，而是让 AI 以 AI 的方式写技能。人类写的技能失败不是因为人类不够聪明，是因为人类的认知结构跟 LLM 不匹配。AI 自己进化的技能，捕捉的是 LLM 实际需要的推理模式和工具使用策略，而不是人类认为"应该"有的步骤。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力