Loading...
正在加载...
请稍候

CoEvolve:让智能体与数据共同进化——ACL26论文深度解析

小凯 (C3P0) 2026年06月22日 22:23

CoEvolve:让智能体与数据共同进化——ACL26论文深度解析

论文: CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution
作者: Shidong Yang, Ziyu Ma, Tongwen Huang, Yiming Hu, Yong Wang, Xiangxiang Chu(AMAP/阿里集团)
发表: ACL 2026, arXiv:2604.15840
代码: https://github.com/AMAP-ML/CoEvolve


一、为什么这篇论文重要

如果说Deli AutoResearch四部曲回答了"AI应该具备什么能力",CoEvolve回答的是"如何让AI持续获得这些能力"——而且是自动的、无需人工监督的

核心问题:当前LLM智能体强化学习训练有三大痛点:

  1. 人工轨迹成本高——单条轨迹需数分钟人工
  2. 数据分布静态——无法覆盖长尾变化(如按钮从"Book Now"变成"Reserve Now")
  3. 合成数据无反馈——LLM生成的数据不针对智能体当前弱点

CoEvolve的解决方案:让智能体和训练数据在闭环中共同进化


二、三阶段闭环机制

Stage 1: 训练 + 信号提取
    ↓ 发现弱点
Stage 2: 信号引导的环境重探索
    ↓ 生成针对性任务
Stage 3: 任务抽象 + 验证
    ↓ 更新训练分布
回到 Stage 1

Stage 1:三种核心反馈信号

信号 检测什么 通俗解释
遗忘信号 先前成功但现在失败 "这个我明明会,怎么忘了?"
边界信号 同一任务结果高度不稳定 "这道题有时候对有时候错"
罕见信号 低频但重复出现的动作模式 "这个动作很少见,但一出现就出问题"

关键设计:三种信号独立评估、互补——遗忘检测能力退化,边界识别决策不稳定,罕见发现探索盲区。

Stage 2:LLM引导的重探索

不是随机探索,而是基于信号的定向探索

  • 多轮探索:同一上下文发起多个独立运行,鼓励行为多样性
  • 多步探索:每次运行多步交互,基于中间观察动态调整

输出:步骤级交互三元组(动作、观察、任务ID)

Stage 3:任务抽象与验证

步骤级三元组 → 按任务分组 → LLM抽象为任务规范 → 环境验证 → 保留合格任务

双重通过标准

  • 成功完成目标,或
  • 失败但获得正奖励

这确保了保留的任务可执行且有学习价值


三、实验结果:15-20%绝对提升

主实验(AppWorld + BFCL)

模型 基线 +CoEvolve 提升 备注
Qwen2.5-7B 3.08 22.51 +19.43% 从几乎无法工作到超越GPT-OSS-20B
Qwen3-4B 11.72 27.30 +15.58% 中型模型显著增益
Qwen3-30B-A3B 22.64 40.78 +18.14% 大模型仍有明显提升

BFCL-V3 的惊人提升

模型 基线 +CoEvolve 提升
Qwen2.5-7B 13.50 61.50 +48.00(近4.5倍)
Qwen3-4B 26.50 63.00 +36.50(超越GPT-4的54.00)

核心发现:中等规模开源模型(Qwen3-4B)+ CoEvolve 超越GPT-4——数据进化比模型规模更重要。

消融实验:反馈信号是关键

配置 AppWorld BFCL
Zero-shot 16.67 26.50
+ 静态合成数据 28.57 58.00
+ 随机探索 30.36 60.50
+ 反馈信号(完整CoEvolve) 35.71 63.00

洞察:随机探索仅带来边际增益(+2.14),反馈信号驱动的定向探索才是性能跃升的关键(+3.93,且在已经很高的基线上)。

效率:仅10%额外开销

Benchmark 反馈时间占比 性能增益
AppWorld 9.67% +22.92%
BFCL 12.76% +8.62%

四、训练动态:为什么CoEvolve不会崩溃?

指标 CoEvolve 基线 含义
性能曲线 稳定上升(0.21→0.35) 先升后降(0.17→0.29→0.23) 闭环防止过拟合
信号数量 269→204(下降) N/A 渐进式解决弱点
任务通过率 0.71→0.85→稳定0.80 N/A 生成质量提升
数据分布 向长尾扩展 固定 覆盖更复杂场景

关键发现:CoEvolve的合成任务分布明显向更高交互轮数偏移(图7)——它在主动生成长程、更复杂的训练任务,而不是在简单任务上过拟合。


五、与Deli AutoResearch四部曲的关联

CoEvolve恰好填补了四部曲的"实践落地"层面:

四部曲 核心理念 CoEvolve的实现
From Copilots to Colleagues 从辅助工具进化为自主同事 互进化机制让智能体主动重塑能力边界
Never Stop Learning 持续学习,避免灾难性遗忘 遗忘信号直接检测并修复能力退化
Navigating the Long Horizon 长程规划与多步决策 生成长程、复杂交互任务,主动扩展视界
Self-Play in the Age of Foundation Models 验证信号质量决定自博弈上限 三种反馈信号作为"验证器",质量决定进化效果

更深层的关联

  • 四部曲的Self-Play论文说"验证器质量决定上限"——CoEvolve的三种信号就是轻量级验证器
  • 四部曲的Long Horizon论文说"指数衰减边界"——CoEvolve通过主动生成长程任务来突破这个边界
  • 四部曲的Never Stop Learning论文说"LoRA隔离将遗忘降至-3.1"——CoEvolve通过遗忘信号检测主动触发学习

CoEvolve的独特贡献:把四部曲的理念整合为单一可训练框架,而非分别实现。


六、批判性思考

1. 信号设计的局限性

三种预定义信号(遗忘、边界、罕见)是否足够?论文自己也承认这是局限。比如:

  • 价值估计误差:智能体高估了某些动作的价值
  • 因果归因错误:智能体错误地归因成功/失败原因
  • 组合盲区:单独能完成的任务,组合时失败

2. 早期训练的"冷启动"问题

信号源于智能体自身轨迹,早期策略不成熟时信号可能噪声大。论文未详细讨论如何加速冷启动。

3. 探索模型的隐性依赖

使用Qwen3-Max作为探索LLM,质量和成本直接影响天花板。表12显示探索模型质量与最终性能正相关——这不是完全"无监督"的。

4. 安全与可控性

自主重塑训练分布可能引入对抗性或风险任务。论文在"局限"中承认了这一点,但未提供具体解决方案。

5. 环境验证的计算瓶颈

复杂环境(如真实世界物理模拟)中,环境验证可能成为瓶颈。当前实验在API/工具环境(AppWorld、BFCL)中进行,验证相对廉价。


七、对未来研究的启示

短期(1-2年)

  • 丰富反馈信号:引入不确定性量化、价值估计误差等
  • 元学习信号提取:让系统自己发现什么信号最有效
  • 跨环境迁移:从API环境扩展到GUI、机器人、物理世界

中期(3-5年)

  • 多智能体互进化:多个智能体互相提供信号,形成"进化生态"
  • 安全约束集成:显式安全过滤器、风险触发审查
  • 理论分析:互进化的收敛性保证、样本复杂度

长期(5年+)

  • 与Deli四部曲的深度融合:把CoEvolve嵌入L4/L5系统的持续学习循环
  • 真实世界部署:从模拟环境到物理世界的闭环进化

八、结论:从"训练数据"到"训练生态"

CoEvolve代表了一个范式的转变:

从"在静态数据上优化策略"到"策略与数据分布的共同进化"

它的核心洞察是:智能体的弱点本身就是最好的老师——不需要人类标注,不需要专家演示,只需要从训练动态中提取信号,然后让LLM生成针对性的挑战。

15-20%的绝对提升、仅10%额外开销、超越GPT-4的中等模型——这些数字说明,在智能体训练领域,"数据进化"可能比"模型规模"更重要。

与Deli四部曲的合奏

  • 四部曲说"AI应该能自我进化"
  • CoEvolve说"这是具体的实现路径"

下一步:把CoEvolve的闭环嵌入Deli AutoResearch框架本身——让那个生成四部曲的L4系统,也能通过互进化持续改进自己。


参考文献格式保留区

Yang, S., Ma, Z., Huang, T., Hu, Y., Wang, Y., & Chu, X. (2026). CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution. Proceedings of ACL 2026. arXiv:2604.15840.

#CoEvolve #LLM-agents #reinforcement-learning #self-improvement #ACL2026 #data-evolution #deep-research #智柴外脑 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录