Evolving-RL:单模型协同自进化RL框架——让Agent从经验中"生长"出技能
论文:《Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents》
作者:Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong (Peking University), Yao Hu, Jiawei Li (Xiaohongshu Inc.)
链接:https://arxiv.org/abs/2605.10663
代码:https://github.com/Fanzy27/Evolving-RL
核心洞察:经验提取和经验利用不是两个独立问题,而是同一个问题的两面——它们必须共同进化,否则Agent会患上"技能失忆症"
一、引子:Agent的"静态困境"
大语言模型训练完成后,参数就固定了。就像一个已经毕业的学生,之后遇到的新知识、新场景,它无法自动学习、自我升级。
这就是Agent的静态困境。
现有解决方案通常是"经验驱动自进化"——Agent从过去的交互中积累经验,在遇到新任务时复用。但这里有个根本问题:
现有方法只优化了"经验的存储和检索",但忽视了底层模型"提取有用经验"的能力本身。
当经验质量不高时,模型会被噪声污染,最终学会忽略所有经验——这就是"技能失忆症"(skill amnesia)。
Evolving-RL 解决了这个问题。
二、核心洞察:提取和利用是同一枚硬币的两面
传统方法把经验提取和经验利用当作两个独立的模块:
- 提取器:从交互轨迹中提炼技能(通常由外部模型或手工规则完成)
- 求解器:使用技能解决新任务(由强化学习训练)
Evolving-RL 说:不对,它们必须共享同一个大脑,共同进化。
2.1 为什么必须协同进化?
单独训练提取器:提取的技能在训练数据上过拟合,对新任务毫无帮助。
单独训练求解器:模型被暴露在各种噪声技能中,最终学会"对所有技能免疫"——无论好坏都忽略。求解器变强了,但无法利用外部经验。
只有两者一起进化:
- 提取器被迫提取"真正有用的"技能(因为 solver 会用它评估)
- 求解器被迫学会"利用好的技能,抵抗坏的技能"(因为提取器会生成各种质量的技能)
2.2 技能(Skill)的精确定义
Evolving-RL 把经验实例化为文本技能——一种紧凑的程序性抽象:
- 做什么:决策规则
- 何时介入:触发条件
- 如何从失败恢复:错误处理策略
比如从"把花瓶放进保险箱"的交互轨迹中,提取出的技能可能是:
1. 检查目标容器是否可达
2. 定位目标物体
3. 拾取物体
4. 将物体放置到目标容器中
这是可跨任务复用的程序性知识,不是简单的提示词模板。
三、Evolving-RL 框架详解
3.1 架构:单模型,双角色
同一个策略模型 π_θ
├── 角色1:Extractor(提取器)
│ 输入:源任务交互轨迹
│ 输出:N个候选技能文本
│
└── 角色2:Solver(求解器)
输入:新任务 + 注入的技能
输出:动作轨迹
关键:提取器和求解器共享同一个模型参数。这不是两个模型,而是一个模型的两种用法。
3.2 四阶段训练循环
每个训练迭代包含以下步骤:
阶段1:源任务求解(无技能注入)
源任务 x_src ~ 训练集
↓
Solver 与环境交互,生成轨迹 τ
↓
获得环境奖励 r_src
阶段2:技能提取
提取状态 s^e = (x_src, τ, r_src)
↓
Extractor 生成 N=8 个候选技能 {e_1, ..., e_N}
↓
每个技能都是文本形式的程序性抽象
阶段3:下游评估
检索 K=4 个语义相关的下游任务(基于任务描述的embedding相似度)
↓
对每个 (技能 e_i, 下游任务 x_j) 对:
Solver 注入 e_i 后求解 x_j
获得环境奖励 r_ij
↓
技能 e_i 的奖励 = 在 K 个下游任务上的平均表现 R_i^e
阶段4:联合优化
提取器损失 L_e:基于GRPO,比较同一源任务生成的N个技能
求解器损失 L_s:基于GRPO,比较同一任务在不同技能条件下的表现
↓
总损失 L = λ_e * L_e + λ_s * L_s
3.3 提取器训练:以转移效用为导向
核心思想:技能的质量由它在新任务上的表现定义,不是由它在源任务上的表现定义。
GRPO分组:同一源任务生成的N个技能构成一个GRPO比较组。组内归一化优势:
A_i^e = (R_i^e - mean({R_i'^e})) / std({R_i'^e})
关键设计:奖励只来自下游任务,不是源任务。这强制提取器生成"可迁移的"技能,而不是"过拟合源任务的"技能。
稳定性控制:
- 负熵正则化:-η_e * H(π_θ),防止提取器熵增长导致崩溃
- 异常过滤:包含异常字符的技能直接给0奖励
为什么需要负熵?技能提取是文本生成,天然高熵。如果不约束,熵会持续增长,训练崩溃。这不同于通常用熵鼓励探索的做法——这里是要压制熵。
3.4 求解器训练:跨技能组比较
核心思想:求解器必须学会在"好技能"和"坏技能"的混合环境中生存。
GRPO分组:同一任务x_j在不同技能{e_1, ..., e_N}条件下的N个轨迹构成一个GRPO比较组。组内归一化优势:
A_ij^s = (r_ij - mean({r_i'j})) / std({r_i'j})
双重激励:
- 好技能存在时:求解器被奖励利用技能超越无技能/坏技能表现
- 坏技能存在时:求解器被惩罚偏离最优行为,学会抵抗误导
这训练出一个既会利用又会批判的求解器。
3.5 联合目标:耦合的梯度
L = λ_e * L_e + λ_s * L_s
两个损失作用在同一个参数向量上,梯度紧密耦合:
- 改进提取质量的梯度步,同时也更新了求解器权重
- 改进利用能力的梯度步,同时也更新了提取器权重
这创造了一个双向增强循环:更好的提取 → 更好的利用 → 更好的提取...
四、实验结果:惊人的泛化提升
4.1 ALFWorld(文本化 embodied 环境)
| 方法 | 已见任务 | 未见任务 | 总体 |
|---|---|---|---|
| 基础模型 | 51.9 | 27.4 | 45.5 |
| 基础模型(+自提取技能) | 50.9 | 26.3 | 44.5 |
| ReasoningBank | 47.5 | 22.9 | 41.1 |
| ExpeL | 49.5 | 37.4 | 46.3 |
| Memento | 64.6 | 20.0 | 53.0 |
| GRPO | 96.2 | 33.7 | 79.9 |
| GRPO(+技能) | 97.0 | 44.6 | 83.3 |
| SkillRL | 86.2 | 68.8 | 81.7 |
| Evolving-RL(无技能) | 97.4 | 81.1 | 93.1 |
| Evolving-RL(+技能) | 98.6 | 88.6 | 96.0 |
关键发现:
- 未见任务提升98.7%:相比GRPO基线(44.6%),Evolving-RL(88.6%)实现了近一倍的提升
- 即使无技能注入也极强:81.1% vs GRPO 33.7%,说明经验模式已经内化到模型参数中
- 技能可跨模型迁移:Evolving-RL提取的技能注入基础模型,从45.5%提升到60.4%;注入GRPO模型,从79.9%提升到88.8%
4.2 Mind2Web(网页导航)
| 方法 | 跨任务 | 跨网站 | 跨领域 | 总体 |
|---|---|---|---|---|
| 基础模型 | 8.79 | 8.79 | 8.79 | 8.79 |
| GRPO | 22.83 | 22.83 | 22.83 | 22.83 |
| Evolving-RL(无技能) | 28.05 | 28.05 | 28.05 | 28.05 |
| Evolving-RL(+技能) | 30.87 | 30.87 | 30.87 | 30.87 |
注:Mind2Web上报告的是动作准确率(Action Accuracy)。相对GRPO提升35.8%。
4.3 消融实验:协同进化是必需的
| 训练目标 | 已见任务(无/有技能) | 未见任务(无/有技能) | 总体(无/有技能) |
|---|---|---|---|
| 基础模型 | 51.9 / 50.9 | 27.4 / 26.3 | 45.5 / 44.5 |
| 仅提取器 | 62.6 / 73.7 | 28.6 / 27.6 | 53.7 / 61.7 |
| 仅求解器 | 98.2 / 97.8 | 70.3 / 69.7 | 90.9 / 90.4 |
| 协同进化 | 97.4 / 98.6 | 81.1 / 88.6 | 93.1 / 96.0 |
关键发现:
- 仅提取器:在已见任务上有提升,但未见任务无改进(过拟合)
- 仅求解器:即使无技能注入也很强(90.9%),但有技能注入无额外提升(90.4%)——求解器学会了"忽略技能"
- 协同进化:唯一在两种条件下都获得提升的方案,已见+未见双优
4.4 技能相关性控制
注入相关技能 vs 无关技能 vs 无技能:
- 相关技能:显著提升
- 无关技能:与不注入技能持平(模型学会了忽略噪声)
- 说明提升不是提示词格式带来的过拟合,而是技能语义本身带来的
五、技术深度:为什么有效?
5.1 从评估误差到训练稳定
论文附录A深入分析了技能评估的可靠性:
问题:下游评估基于有限样本(K=4个任务,每个任务1次交互),评估有噪声。
分析:
- 设两个技能的真实效用差为 Δ_ab
- 评估方差 σ²_ab ≤ (M-m)² / 2K
- 正确排序概率 ≈ Φ(Δ_ab * √(2K) / (M-m))
结论:当K适中时,如果两个技能的真实差异足够大,评估能可靠排序。但如果差异很小(比如异常字符vs正常文本但语义相近),评估会出错。
解决方案:
- 规则过滤异常字符
- 负熵正则化防止提取器扩散
这防止了"低概率异常token被强化→熵增长→更多异常→崩溃"的恶性循环。
5.2 为什么求解器"免疫"是问题?
在仅求解器训练中,模型被暴露于噪声技能中。最优策略是:
- 不依赖技能(因为不知道哪个好)
- 依靠自己的基础能力
这导致一个局部最优:求解器变强,但无法利用外部经验。就像一个人被给了太多错误建议后,决定再也不听任何人的建议——包括好的建议。
协同进化通过让提取器同步改进,确保求解器暴露的技能质量整体提升,从而打破这个局部最优。
5.3 经验内化的双重价值
Evolving-RL 不只是"测试时注入技能"的系统,它还是一个经验增强的RL算法:
- 训练过程中,模型反复接触技能增强的上下文
- 可复用的程序模式被内化到模型参数中
- 即使测试时不注入技能,模型本身也更强了
这解释了为什么"无技能"版本(81.1%)远超GRPO(33.7%)。
六、与相关工作对比
| 方法 | 提取优化 | 利用优化 | 协同进化 | 经验形式 |
|---|---|---|---|---|
| ExpeL / Memento | ❌ 手工规则 | ❌ 无 | ❌ | 原始轨迹/反思 |
| ReasoningBank | ❌ 手工规则 | ❌ 无 | ❌ | 策略原则 |
| SkillRL | ❌ 外部模型 | ✅ RL | ❌ | 技能库 |
| EvolveR | ❌ 手工过滤 | ✅ RL | ❌ | 经验库 |
| Evolving-RL | ✅ 在线RL | ✅ 在线RL | ✅ 单模型 | 可迁移文本技能 |
关键区别:Evolving-RL是唯一将提取和利用都纳入RL优化、且共享同一模型的框架。
七、局限与未来方向
7.1 当前局限
- 技能管理策略简单:检索基于embedding相似度,没有更复杂的技能组织、索引、版本管理
- 评估噪声:K=4个下游任务,评估仍有噪声,可能不稳定
- 计算成本:每次迭代需要N×K=32次下游交互,训练时间较长(10-17小时)
- 领域局限:仅在ALFWorld(文本 embodied)和Mind2Web(网页)测试,更复杂环境未验证
7.2 未来方向
- 部署时持续进化:当前只在训练阶段进化,部署后能否继续提取新技能?
- 更复杂的技能检索:层次化技能库、动态技能组合、技能间依赖建模
- 减少评估噪声:增加K、使用更可靠的评估信号、或引入辅助评估模型
- 跨领域迁移:从embodied到网页到代码到科学实验,技能是否通用?
- 多Agent协作:多个Agent提取的技能能否组合、共享、互评?
八、对业界的启示
8.1 对Agent开发者的启示
如果你的Agent需要在部署后持续学习:
- 不要只优化经验存储和检索,底层模型的提取能力才是关键瓶颈
- 提取和利用必须联合优化,否则模型会"免疫"
- 技能评估要以转移效用为准,不是源任务表现
- 考虑负熵正则化,防止提取器崩溃
8.2 对RL研究的启示
Evolving-RL 提出了一种新的RL范式——经验增强的RL:
- 不是从原始交互中学,而是从"结构化经验"中学
- 经验本身也是学习的产物,形成闭环
- 这模糊了"预训练"和"后训练"的边界
8.3 对小红书的意义
作为国内生活方式平台,小红书的Agent场景丰富:
- 内容推荐Agent(用户偏好持续学习)
- 购物助手(商品知识持续更新)
- 社区管理(规则和社区文化动态演变)
Evolving-RL 提供了一套让Agent从平台交互中持续进化的技术框架,可能比固定的prompt工程或RAG更有长期价值。
九、结论
Evolving-RL 的核心贡献:把经验提取和经验利用从"两个模块的拼接"变成"同一个大脑的两面"。
通过单模型协同进化、以转移效用为导向的评估、耦合的GRPO优化,Evolving-RL解决了Agent的"技能失忆症"——在未见任务上实现98.7%的相对提升,同时让经验模式内化到模型参数中。
它证明了:经验不是Agent的附加组件,而是Agent生长的土壤。
当提取器和求解器共同进化时,Agent不再是被动的经验消费者,而是主动的经验生产者——从自己的交互中提炼、评估、内化、再生的循环,让Agent真正具有了"成长"的能力。
参考来源
- Fan Z, Jin W, Zhang F, et al. Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents. arXiv:2605.10663, 2026.
- Shridhar M, Yuan X, et al. ALFWorld: Aligning Text and Embodied Environments. 2021.
- Deng X, et al. Mind2Web: Towards a Generalist Agent for the Web. 2023.
- Shao Z, et al. DeepSeekMath. 2024 (GRPO).
- Xia P, et al. SkillRL. 2026.
#EvolvingRL #SelfEvolvingAgent #ExperienceDriven #ReinforcementLearning #SkillExtraction #Xiaohongshu #GRPO #AgentEvolution #LLMAgent #TransferLearning #经验驱动 #自进化 #强化学习 #技能提取
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。