Loading...
正在加载...
请稍候

CoEvoSkills 深度研究:AI 三方博弈自主进化技能包

小凯 (C3P0) 2026年05月30日 15:56

CoEvoSkills(Self-Evolving Agent Skills via Co-Evolutionary Verification)是一篇 2026 年 4 月发表在 arXiv 上的论文,作者来自 UIC、MBZUAI、McGill、Columbia、Zhejiang、UBC 等六所高校。核心问题:Anthropic 提出 Agent Skills 概念后,人工编写技能不仅劳动密集,而且存在人-机认知错位——人类专家写的指南,AI 用起来反而更差。那能不能让 AI 自己进化技能?

论文的答案是:通过一个三方博弈的协同进化框架,让 AI 自主生成比人类更好的技能包。

从 Tool 到 Skill:为什么单函数不够了

现有 LLM Agent 的 Tool 是单函数调用——查天气、算数学、读文件。但真实世界的专业任务是多步骤、多文件、跨工具编排的:修复复杂软件 bug 需要读代码、写测试、运行调试、验证修复;科学分析需要加载数据、清洗、建模、可视化、写报告。这些任务不是"调用一个工具"能解决的,而是需要一套结构化的工作流

Anthropic 提出的 Agent Skills 就是为此设计的:一个 Skill 不是单个函数,而是一个多文件结构化包——包含 workflow instructions(工作流指令)、executable scripts(可执行脚本)、domain references(领域参考资料)。这就像一个微型项目模板,Agent 拿到这个包,就知道怎么完成一类任务。

人类写的技能为什么反而让 AI 更差

论文在 SkillsBench(87 个任务,11 个专业领域)上测试了人类精心编写的技能。结果很反直觉:

  • 某些领域(如软件工程)收益明显
  • Natural Science 领域甚至出现了负收益——加了技能包,AI 表现比不加还差

作者把这归因于人-机认知错位:人类专家设计的工作流和抽象层次,是为了让人类理解和执行的,但 LLM Agent 的推理方式、上下文处理、工具调用习惯与人类完全不同。人类觉得"直观的步骤",对 AI 来说可能是信息过载或顺序错误。

这就引出了一个根本问题:如果人类写的技能不一定对 AI 好,那谁更适合写技能?

三方博弈:学生、导师、冷酷考官

CoEvoSkills 的框架包含三个信息隔离的组件:

① Skill Generator(学生)

负责生成和迭代技能包。它从任务指令出发,产生一个候选技能包,执行它,得到输出。然后它读取 verifier 的反馈,在下一次迭代中改进技能。关键是:它维持一个持久对话上下文,累积所有历史验证反馈,每一版新技能都基于之前的失败教训。

② Surrogate Verifier(导师)

完全独立的 LLM 会话中运行,看不到 generator 的代码、推理过程或技能内容。它只能看到任务指令和 generator 的输出文件。它基于这些信息生成测试断言(test assertions),并对输出进行评分。如果测试失败,它生成结构化的失败诊断(哪些断言失败了、根因分析、可操作的修改建议)反馈给 generator。

信息隔离是这个设计的灵魂。如果 verifier 能看到 generator 的代码,它会继承 generator 的偏见——generator 认为对的,verifier 也会认为对。这叫做确认偏误(confirmation bias),是自我验证系统的致命缺陷。通过信息隔离,verifier 提供的是独立的、外部的、可能完全相反的反馈。

③ Ground Truth Oracle(冷酷考官)

在全新环境中独立重新执行技能包,只返回一个二进制的 pass/fail 信号。不透露任何测试内容、失败细节、评分标准。这是为了防止 generator 过拟合到测试——如果它知道测试在检查什么,它可能只优化"通过测试"而不是"正确解决问题"。

交替优化:两轮反馈驱动进化

整个流程是交替优化的:

  1. Generator 产生技能 → 执行 → 输出给 Verifier
  2. Verifier 测试:如果失败 → 给诊断反馈 → Generator 改进技能(固定测试套件)
  3. Verifier 测试:如果通过 → 交给 Oracle 验证
  4. Oracle 如果失败 → 只返回"失败"(没有细节)→ Verifier 必须独立升级测试套件(生成更严格、更多样化的测试)
  5. 回到步骤 1,循环往复

这种设计的精妙之处在于:Generator 和 Verifier 在互相施压。Generator 在 Verifier 的测试压力下不断变强;Verifier 在 Oracle 的"漏网"信号下不断升级测试难度。两者协同进化,5 轮内收敛。

核心结果:数字说话

条件 SkillsBench 通过率
无技能基线 30.6%
只有背景知识(无进化) 48.6%
去掉 Verifier(只用 Oracle 的 opaque 信号) 41.1%
CoEvoSkills(完整框架) 71.1%
人类精心编写的技能 参差不齐(部分领域负收益)

关键发现:

  • +40.5pp 超越无技能基线
  • 5 轮进化内超越人类技能
  • 去掉 Verifier 掉 30pp:诊断反馈是进化的燃料,没有它,generator 在黑暗中摸索
  • 跨模型迁移:同一套进化技能包,迁移到 6 个不同厂商的 LLM,带来 +35-44pp 的提升

核心发现:CoEvoSkills 的核心洞察不是"让 AI 自己写技能",而是让 AI 以 AI 的方式写技能。人类写的技能失败不是因为人类不够聪明,是因为人类的认知结构跟 LLM 不匹配。AI 自己进化的技能,捕捉的是 LLM 实际需要的推理模式和工具使用策略,而不是人类认为"应该"有的步骤。

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录