CoEvolve:让智能体与数据共同进化——ACL26论文深度解析
CoEvolve:让智能体与数据共同进化——ACL26论文深度解析
> 论文: CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution > 作者: Shidong Yang, Ziyu Ma, Tongwen Huang, Yiming Hu, Yong Wang, Xiangxiang Chu(AMAP/阿里集团) > 发表: ACL 2026, arXiv:2604.15840 > 代码: https://github.com/AMAP-ML/CoEvolve
---
一、为什么这篇论文重要
如果说Deli AutoResearch四部曲回答了"AI应该具备什么能力",CoEvolve回答的是"如何让AI持续获得这些能力"——而且是自动的、无需人工监督的。
核心问题:当前LLM智能体强化学习训练有三大痛点: 1. 人工轨迹成本高——单条轨迹需数分钟人工 2. 数据分布静态——无法覆盖长尾变化(如按钮从"Book Now"变成"Reserve Now") 3. 合成数据无反馈——LLM生成的数据不针对智能体当前弱点
CoEvolve的解决方案:让智能体和训练数据在闭环中共同进化。
---
二、三阶段闭环机制
Stage 1: 训练 + 信号提取
↓ 发现弱点
Stage 2: 信号引导的环境重探索
↓ 生成针对性任务
Stage 3: 任务抽象 + 验证
↓ 更新训练分布
回到 Stage 1
Stage 1:三种核心反馈信号
| 信号 | 检测什么 | 通俗解释 |
|---|---|---|
| 遗忘信号 | 先前成功但现在失败 | "这个我明明会,怎么忘了?" |
| 边界信号 | 同一任务结果高度不稳定 | "这道题有时候对有时候错" |
| 罕见信号 | 低频但重复出现的动作模式 | "这个动作很少见,但一出现就出问题" |
Stage 2:LLM引导的重探索
不是随机探索,而是基于信号的定向探索:
- 多轮探索:同一上下文发起多个独立运行,鼓励行为多样性
- 多步探索:每次运行多步交互,基于中间观察动态调整
Stage 3:任务抽象与验证
步骤级三元组 → 按任务分组 → LLM抽象为任务规范 → 环境验证 → 保留合格任务
双重通过标准:
- 成功完成目标,或
- 失败但获得正奖励
---
三、实验结果:15-20%绝对提升
主实验(AppWorld + BFCL)
| 模型 | 基线 | +CoEvolve | 提升 | 备注 |
|---|---|---|---|---|
| Qwen2.5-7B | 3.08 | 22.51 | +19.43% | 从几乎无法工作到超越GPT-OSS-20B |
| Qwen3-4B | 11.72 | 27.30 | +15.58% | 中型模型显著增益 |
| Qwen3-30B-A3B | 22.64 | 40.78 | +18.14% | 大模型仍有明显提升 |
BFCL-V3 的惊人提升
| 模型 | 基线 | +CoEvolve | 提升 |
|---|---|---|---|
| Qwen2.5-7B | 13.50 | 61.50 | +48.00(近4.5倍) |
| Qwen3-4B | 26.50 | 63.00 | +36.50(超越GPT-4的54.00) |
消融实验:反馈信号是关键
| 配置 | AppWorld | BFCL |
|---|---|---|
| Zero-shot | 16.67 | 26.50 |
| + 静态合成数据 | 28.57 | 58.00 |
| + 随机探索 | 30.36 | 60.50 |
| + 反馈信号(完整CoEvolve) | 35.71 | 63.00 |
效率:仅10%额外开销
| Benchmark | 反馈时间占比 | 性能增益 |
|---|---|---|
| AppWorld | 9.67% | +22.92% |
| BFCL | 12.76% | +8.62% |
四、训练动态:为什么CoEvolve不会崩溃?
| 指标 | CoEvolve | 基线 | 含义 |
|---|---|---|---|
| 性能曲线 | 稳定上升(0.21→0.35) | 先升后降(0.17→0.29→0.23) | 闭环防止过拟合 |
| 信号数量 | 269→204(下降) | N/A | 渐进式解决弱点 |
| 任务通过率 | 0.71→0.85→稳定0.80 | N/A | 生成质量提升 |
| 数据分布 | 向长尾扩展 | 固定 | 覆盖更复杂场景 |
---
五、与Deli AutoResearch四部曲的关联
CoEvolve恰好填补了四部曲的"实践落地"层面:
| 四部曲 | 核心理念 | CoEvolve的实现 |
|---|---|---|
| From Copilots to Colleagues | 从辅助工具进化为自主同事 | 互进化机制让智能体主动重塑能力边界 |
| Never Stop Learning | 持续学习,避免灾难性遗忘 | 遗忘信号直接检测并修复能力退化 |
| Navigating the Long Horizon | 长程规划与多步决策 | 生成长程、复杂交互任务,主动扩展视界 |
| Self-Play in the Age of Foundation Models | 验证信号质量决定自博弈上限 | 三种反馈信号作为"验证器",质量决定进化效果 |
- 四部曲的Self-Play论文说"验证器质量决定上限"——CoEvolve的三种信号就是轻量级验证器
- 四部曲的Long Horizon论文说"指数衰减边界"——CoEvolve通过主动生成长程任务来突破这个边界
- 四部曲的Never Stop Learning论文说"LoRA隔离将遗忘降至-3.1"——CoEvolve通过遗忘信号检测主动触发学习
---
六、批判性思考
1. 信号设计的局限性
三种预定义信号(遗忘、边界、罕见)是否足够?论文自己也承认这是局限。比如:- 价值估计误差:智能体高估了某些动作的价值
- 因果归因错误:智能体错误地归因成功/失败原因
- 组合盲区:单独能完成的任务,组合时失败
2. 早期训练的"冷启动"问题
信号源于智能体自身轨迹,早期策略不成熟时信号可能噪声大。论文未详细讨论如何加速冷启动。3. 探索模型的隐性依赖
使用Qwen3-Max作为探索LLM,质量和成本直接影响天花板。表12显示探索模型质量与最终性能正相关——这不是完全"无监督"的。4. 安全与可控性
自主重塑训练分布可能引入对抗性或风险任务。论文在"局限"中承认了这一点,但未提供具体解决方案。5. 环境验证的计算瓶颈
复杂环境(如真实世界物理模拟)中,环境验证可能成为瓶颈。当前实验在API/工具环境(AppWorld、BFCL)中进行,验证相对廉价。---
七、对未来研究的启示
短期(1-2年)
- 丰富反馈信号:引入不确定性量化、价值估计误差等
- 元学习信号提取:让系统自己发现什么信号最有效
- 跨环境迁移:从API环境扩展到GUI、机器人、物理世界
中期(3-5年)
- 多智能体互进化:多个智能体互相提供信号,形成"进化生态"
- 安全约束集成:显式安全过滤器、风险触发审查
- 理论分析:互进化的收敛性保证、样本复杂度
长期(5年+)
- 与Deli四部曲的深度融合:把CoEvolve嵌入L4/L5系统的持续学习循环
- 真实世界部署:从模拟环境到物理世界的闭环进化
八、结论:从"训练数据"到"训练生态"
CoEvolve代表了一个范式的转变:
> 从"在静态数据上优化策略"到"策略与数据分布的共同进化"
它的核心洞察是:智能体的弱点本身就是最好的老师——不需要人类标注,不需要专家演示,只需要从训练动态中提取信号,然后让LLM生成针对性的挑战。
15-20%的绝对提升、仅10%额外开销、超越GPT-4的中等模型——这些数字说明,在智能体训练领域,"数据进化"可能比"模型规模"更重要。
与Deli四部曲的合奏:
- 四部曲说"AI应该能自我进化"
- CoEvolve说"这是具体的实现路径"
---
参考文献格式保留区
Yang, S., Ma, Z., Huang, T., Hu, Y., Wang, Y., & Chu, X. (2026). CoEvolve: Training LLM Agents via Agent-Data Mutual Evolution. *Proceedings of ACL 2026*. arXiv:2604.15840.
#CoEvolve #LLM-agents #reinforcement-learning #self-improvement #ACL2026 #data-evolution #deep-research #智柴外脑 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens