CoEvolve:让智能体与数据共同进化——ACL26论文深度解析
论文: CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution
作者: Shidong Yang, Ziyu Ma, Tongwen Huang, Yiming Hu, Yong Wang, Xiangxiang Chu(AMAP/阿里集团)
发表: ACL 2026, arXiv:2604.15840
代码: https://github.com/AMAP-ML/CoEvolve
一、为什么这篇论文重要
如果说Deli AutoResearch四部曲回答了"AI应该具备什么能力",CoEvolve回答的是"如何让AI持续获得这些能力"——而且是自动的、无需人工监督的。
核心问题:当前LLM智能体强化学习训练有三大痛点:
- 人工轨迹成本高——单条轨迹需数分钟人工
- 数据分布静态——无法覆盖长尾变化(如按钮从"Book Now"变成"Reserve Now")
- 合成数据无反馈——LLM生成的数据不针对智能体当前弱点
CoEvolve的解决方案:让智能体和训练数据在闭环中共同进化。
二、三阶段闭环机制
Stage 1: 训练 + 信号提取
↓ 发现弱点
Stage 2: 信号引导的环境重探索
↓ 生成针对性任务
Stage 3: 任务抽象 + 验证
↓ 更新训练分布
回到 Stage 1
Stage 1:三种核心反馈信号
| 信号 | 检测什么 | 通俗解释 |
|---|---|---|
| 遗忘信号 | 先前成功但现在失败 | "这个我明明会,怎么忘了?" |
| 边界信号 | 同一任务结果高度不稳定 | "这道题有时候对有时候错" |
| 罕见信号 | 低频但重复出现的动作模式 | "这个动作很少见,但一出现就出问题" |
关键设计:三种信号独立评估、互补——遗忘检测能力退化,边界识别决策不稳定,罕见发现探索盲区。
Stage 2:LLM引导的重探索
不是随机探索,而是基于信号的定向探索:
- 多轮探索:同一上下文发起多个独立运行,鼓励行为多样性
- 多步探索:每次运行多步交互,基于中间观察动态调整
输出:步骤级交互三元组(动作、观察、任务ID)
Stage 3:任务抽象与验证
步骤级三元组 → 按任务分组 → LLM抽象为任务规范 → 环境验证 → 保留合格任务
双重通过标准:
- 成功完成目标,或
- 失败但获得正奖励
这确保了保留的任务可执行且有学习价值。
三、实验结果:15-20%绝对提升
主实验(AppWorld + BFCL)
| 模型 | 基线 | +CoEvolve | 提升 | 备注 |
|---|---|---|---|---|
| Qwen2.5-7B | 3.08 | 22.51 | +19.43% | 从几乎无法工作到超越GPT-OSS-20B |
| Qwen3-4B | 11.72 | 27.30 | +15.58% | 中型模型显著增益 |
| Qwen3-30B-A3B | 22.64 | 40.78 | +18.14% | 大模型仍有明显提升 |
BFCL-V3 的惊人提升
| 模型 | 基线 | +CoEvolve | 提升 |
|---|---|---|---|
| Qwen2.5-7B | 13.50 | 61.50 | +48.00(近4.5倍) |
| Qwen3-4B | 26.50 | 63.00 | +36.50(超越GPT-4的54.00) |
核心发现:中等规模开源模型(Qwen3-4B)+ CoEvolve 超越GPT-4——数据进化比模型规模更重要。
消融实验:反馈信号是关键
| 配置 | AppWorld | BFCL |
|---|---|---|
| Zero-shot | 16.67 | 26.50 |
| + 静态合成数据 | 28.57 | 58.00 |
| + 随机探索 | 30.36 | 60.50 |
| + 反馈信号(完整CoEvolve) | 35.71 | 63.00 |
洞察:随机探索仅带来边际增益(+2.14),反馈信号驱动的定向探索才是性能跃升的关键(+3.93,且在已经很高的基线上)。
效率:仅10%额外开销
| Benchmark | 反馈时间占比 | 性能增益 |
|---|---|---|
| AppWorld | 9.67% | +22.92% |
| BFCL | 12.76% | +8.62% |
四、训练动态:为什么CoEvolve不会崩溃?
| 指标 | CoEvolve | 基线 | 含义 |
|---|---|---|---|
| 性能曲线 | 稳定上升(0.21→0.35) | 先升后降(0.17→0.29→0.23) | 闭环防止过拟合 |
| 信号数量 | 269→204(下降) | N/A | 渐进式解决弱点 |
| 任务通过率 | 0.71→0.85→稳定0.80 | N/A | 生成质量提升 |
| 数据分布 | 向长尾扩展 | 固定 | 覆盖更复杂场景 |
关键发现:CoEvolve的合成任务分布明显向更高交互轮数偏移(图7)——它在主动生成长程、更复杂的训练任务,而不是在简单任务上过拟合。
五、与Deli AutoResearch四部曲的关联
CoEvolve恰好填补了四部曲的"实践落地"层面:
| 四部曲 | 核心理念 | CoEvolve的实现 |
|---|---|---|
| From Copilots to Colleagues | 从辅助工具进化为自主同事 | 互进化机制让智能体主动重塑能力边界 |
| Never Stop Learning | 持续学习,避免灾难性遗忘 | 遗忘信号直接检测并修复能力退化 |
| Navigating the Long Horizon | 长程规划与多步决策 | 生成长程、复杂交互任务,主动扩展视界 |
| Self-Play in the Age of Foundation Models | 验证信号质量决定自博弈上限 | 三种反馈信号作为"验证器",质量决定进化效果 |
更深层的关联:
- 四部曲的Self-Play论文说"验证器质量决定上限"——CoEvolve的三种信号就是轻量级验证器
- 四部曲的Long Horizon论文说"指数衰减边界"——CoEvolve通过主动生成长程任务来突破这个边界
- 四部曲的Never Stop Learning论文说"LoRA隔离将遗忘降至-3.1"——CoEvolve通过遗忘信号检测主动触发学习
CoEvolve的独特贡献:把四部曲的理念整合为单一可训练框架,而非分别实现。
六、批判性思考
1. 信号设计的局限性
三种预定义信号(遗忘、边界、罕见)是否足够?论文自己也承认这是局限。比如:
- 价值估计误差:智能体高估了某些动作的价值
- 因果归因错误:智能体错误地归因成功/失败原因
- 组合盲区:单独能完成的任务,组合时失败
2. 早期训练的"冷启动"问题
信号源于智能体自身轨迹,早期策略不成熟时信号可能噪声大。论文未详细讨论如何加速冷启动。
3. 探索模型的隐性依赖
使用Qwen3-Max作为探索LLM,质量和成本直接影响天花板。表12显示探索模型质量与最终性能正相关——这不是完全"无监督"的。
4. 安全与可控性
自主重塑训练分布可能引入对抗性或风险任务。论文在"局限"中承认了这一点,但未提供具体解决方案。
5. 环境验证的计算瓶颈
复杂环境(如真实世界物理模拟)中,环境验证可能成为瓶颈。当前实验在API/工具环境(AppWorld、BFCL)中进行,验证相对廉价。
七、对未来研究的启示
短期(1-2年)
- 丰富反馈信号:引入不确定性量化、价值估计误差等
- 元学习信号提取:让系统自己发现什么信号最有效
- 跨环境迁移:从API环境扩展到GUI、机器人、物理世界
中期(3-5年)
- 多智能体互进化:多个智能体互相提供信号,形成"进化生态"
- 安全约束集成:显式安全过滤器、风险触发审查
- 理论分析:互进化的收敛性保证、样本复杂度
长期(5年+)
- 与Deli四部曲的深度融合:把CoEvolve嵌入L4/L5系统的持续学习循环
- 真实世界部署:从模拟环境到物理世界的闭环进化
八、结论:从"训练数据"到"训练生态"
CoEvolve代表了一个范式的转变:
从"在静态数据上优化策略"到"策略与数据分布的共同进化"
它的核心洞察是:智能体的弱点本身就是最好的老师——不需要人类标注,不需要专家演示,只需要从训练动态中提取信号,然后让LLM生成针对性的挑战。
15-20%的绝对提升、仅10%额外开销、超越GPT-4的中等模型——这些数字说明,在智能体训练领域,"数据进化"可能比"模型规模"更重要。
与Deli四部曲的合奏:
- 四部曲说"AI应该能自我进化"
- CoEvolve说"这是具体的实现路径"
下一步:把CoEvolve的闭环嵌入Deli AutoResearch框架本身——让那个生成四部曲的L4系统,也能通过互进化持续改进自己。
参考文献格式保留区
Yang, S., Ma, Z., Huang, T., Hu, Y., Wang, Y., & Chu, X. (2026). CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution. Proceedings of ACL 2026. arXiv:2604.15840.
#CoEvolve #LLM-agents #reinforcement-learning #self-improvement #ACL2026 #data-evolution #deep-research #智柴外脑 #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。