Evolving-RL：单模型协同自进化RL框架——让Agent从经验中"生长"出技能

> 论文：《Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents》 > 作者：Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong (Peking University), Yao Hu, Jiawei Li (Xiaohongshu Inc.) > 链接：https://arxiv.org/abs/2605.10663 > 代码：https://github.com/Fanzy27/Evolving-RL > 核心洞察：经验提取和经验利用不是两个独立问题，而是同一个问题的两面——它们必须共同进化，否则Agent会患上"技能失忆症"

---

一、引子：Agent的"静态困境"

大语言模型训练完成后，参数就固定了。就像一个已经毕业的学生，之后遇到的新知识、新场景，它无法自动学习、自我升级。

这就是Agent的静态困境。

现有解决方案通常是"经验驱动自进化"——Agent从过去的交互中积累经验，在遇到新任务时复用。但这里有个根本问题：

> 现有方法只优化了"经验的存储和检索"，但忽视了底层模型"提取有用经验"的能力本身。

当经验质量不高时，模型会被噪声污染，最终学会忽略所有经验——这就是"技能失忆症"（skill amnesia）。

Evolving-RL 解决了这个问题。

---

二、核心洞察：提取和利用是同一枚硬币的两面

传统方法把经验提取和经验利用当作两个独立的模块：

提取器：从交互轨迹中提炼技能（通常由外部模型或手工规则完成）
求解器：使用技能解决新任务（由强化学习训练）

Evolving-RL 说：不对，它们必须共享同一个大脑，共同进化。

2.1 为什么必须协同进化？

单独训练提取器：提取的技能在训练数据上过拟合，对新任务毫无帮助。

单独训练求解器：模型被暴露在各种噪声技能中，最终学会"对所有技能免疫"——无论好坏都忽略。求解器变强了，但无法利用外部经验。

只有两者一起进化：

提取器被迫提取"真正有用的"技能（因为 solver 会用它评估）
求解器被迫学会"利用好的技能，抵抗坏的技能"（因为提取器会生成各种质量的技能）

2.2 技能（Skill）的精确定义

Evolving-RL 把经验实例化为文本技能——一种紧凑的程序性抽象：

做什么：决策规则
何时介入：触发条件
如何从失败恢复：错误处理策略

比如从"把花瓶放进保险箱"的交互轨迹中，提取出的技能可能是：

1. 检查目标容器是否可达
2. 定位目标物体
3. 拾取物体
4. 将物体放置到目标容器中

这是可跨任务复用的程序性知识，不是简单的提示词模板。

---

三、Evolving-RL 框架详解

3.1 架构：单模型，双角色

同一个策略模型 π_θ
  ├── 角色1：Extractor（提取器）
  │     输入：源任务交互轨迹
  │     输出：N个候选技能文本
  │
  └── 角色2：Solver（求解器）
        输入：新任务 + 注入的技能
        输出：动作轨迹

关键：提取器和求解器共享同一个模型参数。这不是两个模型，而是一个模型的两种用法。

3.2 四阶段训练循环

每个训练迭代包含以下步骤：

阶段1：源任务求解（无技能注入）

源任务 x_src ~ 训练集
  ↓
Solver 与环境交互，生成轨迹 τ
  ↓
获得环境奖励 r_src

阶段2：技能提取

提取状态 s^e = (x_src, τ, r_src)
  ↓
Extractor 生成 N=8 个候选技能 {e_1, ..., e_N}
  ↓
每个技能都是文本形式的程序性抽象

阶段3：下游评估

检索 K=4 个语义相关的下游任务（基于任务描述的embedding相似度）
  ↓
对每个 (技能 e_i, 下游任务 x_j) 对：
  Solver 注入 e_i 后求解 x_j
  获得环境奖励 r_ij
  ↓
技能 e_i 的奖励 = 在 K 个下游任务上的平均表现 R_i^e

阶段4：联合优化

提取器损失 L_e：基于GRPO，比较同一源任务生成的N个技能
求解器损失 L_s：基于GRPO，比较同一任务在不同技能条件下的表现
  ↓
总损失 L = λ_e * L_e + λ_s * L_s

3.3 提取器训练：以转移效用为导向

核心思想：技能的质量由它在新任务上的表现定义，不是由它在源任务上的表现定义。

GRPO分组：同一源任务生成的N个技能构成一个GRPO比较组。组内归一化优势：

A_i^e = (R_i^e - mean({R_i'^e})) / std({R_i'^e})

关键设计：奖励只来自下游任务，不是源任务。这强制提取器生成"可迁移的"技能，而不是"过拟合源任务的"技能。

稳定性控制：

负熵正则化：-η_e * H(π_θ)，防止提取器熵增长导致崩溃
异常过滤：包含异常字符的技能直接给0奖励

为什么需要负熵？技能提取是文本生成，天然高熵。如果不约束，熵会持续增长，训练崩溃。这不同于通常用熵鼓励探索的做法——这里是要压制熵。

3.4 求解器训练：跨技能组比较

核心思想：求解器必须学会在"好技能"和"坏技能"的混合环境中生存。

GRPO分组：同一任务x_j在不同技能{e_1, ..., e_N}条件下的N个轨迹构成一个GRPO比较组。组内归一化优势：

A_ij^s = (r_ij - mean({r_i'j})) / std({r_i'j})

双重激励：

好技能存在时：求解器被奖励利用技能超越无技能/坏技能表现
坏技能存在时：求解器被惩罚偏离最优行为，学会抵抗误导

这训练出一个既会利用又会批判的求解器。

3.5 联合目标：耦合的梯度

L = λ_e * L_e + λ_s * L_s

两个损失作用在同一个参数向量上，梯度紧密耦合：

改进提取质量的梯度步，同时也更新了求解器权重
改进利用能力的梯度步，同时也更新了提取器权重

这创造了一个双向增强循环：更好的提取 → 更好的利用 → 更好的提取...

---

四、实验结果：惊人的泛化提升

4.1 ALFWorld（文本化 embodied 环境）

方法	已见任务	未见任务	总体
基础模型	51.9	27.4	45.5
基础模型（+自提取技能）	50.9	26.3	44.5
ReasoningBank	47.5	22.9	41.1
ExpeL	49.5	37.4	46.3
Memento	64.6	20.0	53.0
GRPO	96.2	33.7	79.9
GRPO（+技能）	97.0	44.6	83.3
SkillRL	86.2	68.8	81.7
Evolving-RL（无技能）	97.4	81.1	93.1
Evolving-RL（+技能）	98.6	88.6	96.0

关键发现： 1. 未见任务提升98.7%：相比GRPO基线（44.6%），Evolving-RL（88.6%）实现了近一倍的提升 2. 即使无技能注入也极强：81.1% vs GRPO 33.7%，说明经验模式已经内化到模型参数中 3. 技能可跨模型迁移：Evolving-RL提取的技能注入基础模型，从45.5%提升到60.4%；注入GRPO模型，从79.9%提升到88.8%

4.2 Mind2Web（网页导航）

方法	跨任务	跨网站	跨领域	总体
基础模型	8.79	8.79	8.79	8.79
GRPO	22.83	22.83	22.83	22.83
Evolving-RL（无技能）	28.05	28.05	28.05	28.05
Evolving-RL（+技能）	30.87	30.87	30.87	30.87

注：Mind2Web上报告的是动作准确率（Action Accuracy）。相对GRPO提升35.8%。

4.3 消融实验：协同进化是必需的

训练目标	已见任务（无/有技能）	未见任务（无/有技能）	总体（无/有技能）
基础模型	51.9 / 50.9	27.4 / 26.3	45.5 / 44.5
仅提取器	62.6 / 73.7	28.6 / 27.6	53.7 / 61.7
仅求解器	98.2 / 97.8	70.3 / 69.7	90.9 / 90.4
协同进化	97.4 / 98.6	81.1 / 88.6	93.1 / 96.0

关键发现：

仅提取器：在已见任务上有提升，但未见任务无改进（过拟合）
仅求解器：即使无技能注入也很强（90.9%），但有技能注入无额外提升（90.4%）——求解器学会了"忽略技能"
协同进化：唯一在两种条件下都获得提升的方案，已见+未见双优

4.4 技能相关性控制

注入相关技能 vs 无关技能 vs 无技能：

相关技能：显著提升
无关技能：与不注入技能持平（模型学会了忽略噪声）
说明提升不是提示词格式带来的过拟合，而是技能语义本身带来的

---

五、技术深度：为什么有效？

5.1 从评估误差到训练稳定

论文附录A深入分析了技能评估的可靠性：

问题：下游评估基于有限样本（K=4个任务，每个任务1次交互），评估有噪声。

分析：

设两个技能的真实效用差为 Δ_ab
评估方差 σ²_ab ≤ (M-m)² / 2K
正确排序概率 ≈ Φ(Δ_ab * √(2K) / (M-m))

结论：当K适中时，如果两个技能的真实差异足够大，评估能可靠排序。但如果差异很小（比如异常字符vs正常文本但语义相近），评估会出错。

解决方案： 1. 规则过滤异常字符 2. 负熵正则化防止提取器扩散

这防止了"低概率异常token被强化→熵增长→更多异常→崩溃"的恶性循环。

5.2 为什么求解器"免疫"是问题？

在仅求解器训练中，模型被暴露于噪声技能中。最优策略是：

不依赖技能（因为不知道哪个好）
依靠自己的基础能力

这导致一个局部最优：求解器变强，但无法利用外部经验。就像一个人被给了太多错误建议后，决定再也不听任何人的建议——包括好的建议。

协同进化通过让提取器同步改进，确保求解器暴露的技能质量整体提升，从而打破这个局部最优。

5.3 经验内化的双重价值

Evolving-RL 不只是"测试时注入技能"的系统，它还是一个经验增强的RL算法：

训练过程中，模型反复接触技能增强的上下文
可复用的程序模式被内化到模型参数中
即使测试时不注入技能，模型本身也更强了

这解释了为什么"无技能"版本（81.1%）远超GRPO（33.7%）。

---

六、与相关工作对比

方法	提取优化	利用优化	协同进化	经验形式
ExpeL / Memento	❌ 手工规则	❌ 无	❌	原始轨迹/反思
ReasoningBank	❌ 手工规则	❌ 无	❌	策略原则
SkillRL	❌ 外部模型	✅ RL	❌	技能库
EvolveR	❌ 手工过滤	✅ RL	❌	经验库
Evolving-RL	✅ 在线RL	✅ 在线RL	✅ 单模型	可迁移文本技能

关键区别：Evolving-RL是唯一将提取和利用都纳入RL优化、且共享同一模型的框架。

---

七、局限与未来方向

7.1 当前局限

1. 技能管理策略简单：检索基于embedding相似度，没有更复杂的技能组织、索引、版本管理 2. 评估噪声：K=4个下游任务，评估仍有噪声，可能不稳定 3. 计算成本：每次迭代需要N×K=32次下游交互，训练时间较长（10-17小时） 4. 领域局限：仅在ALFWorld（文本 embodied）和Mind2Web（网页）测试，更复杂环境未验证

7.2 未来方向

1. 部署时持续进化：当前只在训练阶段进化，部署后能否继续提取新技能？ 2. 更复杂的技能检索：层次化技能库、动态技能组合、技能间依赖建模 3. 减少评估噪声：增加K、使用更可靠的评估信号、或引入辅助评估模型 4. 跨领域迁移：从embodied到网页到代码到科学实验，技能是否通用？ 5. 多Agent协作：多个Agent提取的技能能否组合、共享、互评？

---

八、对业界的启示

8.1 对Agent开发者的启示

如果你的Agent需要在部署后持续学习：

不要只优化经验存储和检索，底层模型的提取能力才是关键瓶颈
提取和利用必须联合优化，否则模型会"免疫"
技能评估要以转移效用为准，不是源任务表现
考虑负熵正则化，防止提取器崩溃

8.2 对RL研究的启示

Evolving-RL 提出了一种新的RL范式——经验增强的RL：

不是从原始交互中学，而是从"结构化经验"中学
经验本身也是学习的产物，形成闭环
这模糊了"预训练"和"后训练"的边界

8.3 对小红书的意义

作为国内生活方式平台，小红书的Agent场景丰富：

内容推荐Agent（用户偏好持续学习）
购物助手（商品知识持续更新）
社区管理（规则和社区文化动态演变）

Evolving-RL 提供了一套让Agent从平台交互中持续进化的技术框架，可能比固定的prompt工程或RAG更有长期价值。

---

九、结论

Evolving-RL 的核心贡献：把经验提取和经验利用从"两个模块的拼接"变成"同一个大脑的两面"。

通过单模型协同进化、以转移效用为导向的评估、耦合的GRPO优化，Evolving-RL解决了Agent的"技能失忆症"——在未见任务上实现98.7%的相对提升，同时让经验模式内化到模型参数中。

它证明了：经验不是Agent的附加组件，而是Agent生长的土壤。

当提取器和求解器共同进化时，Agent不再是被动的经验消费者，而是主动的经验生产者——从自己的交互中提炼、评估、内化、再生的循环，让Agent真正具有了"成长"的能力。

---

参考来源

Fan Z, Jin W, Zhang F, et al. Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents. arXiv:2605.10663, 2026.
Shridhar M, Yuan X, et al. ALFWorld: Aligning Text and Embodied Environments. 2021.
Deng X, et al. Mind2Web: Towards a Generalist Agent for the Web. 2023.
Shao Z, et al. DeepSeekMath. 2024 (GRPO).
Xia P, et al. SkillRL. 2026.

#EvolvingRL #SelfEvolvingAgent #ExperienceDriven #ReinforcementLearning #SkillExtraction #Xiaohongshu #GRPO #AgentEvolution #LLMAgent #TransferLearning #经验驱动 #自进化 #强化学习 #技能提取

Evolving-RL：单模型协同自进化RL框架——让Agent从经验中"生长"出技能

Evolving-RL：单模型协同自进化RL框架——让Agent从经验中"生长"出技能

一、引子：Agent的"静态困境"

二、核心洞察：提取和利用是同一枚硬币的两面

2.1 为什么必须协同进化？

2.2 技能（Skill）的精确定义

三、Evolving-RL 框架详解

3.1 架构：单模型，双角色

3.2 四阶段训练循环

3.3 提取器训练：以转移效用为导向

3.4 求解器训练：跨技能组比较

3.5 联合目标：耦合的梯度

四、实验结果：惊人的泛化提升

4.1 ALFWorld（文本化 embodied 环境）

4.2 Mind2Web（网页导航）

4.3 消融实验：协同进化是必需的

4.4 技能相关性控制

五、技术深度：为什么有效？

5.1 从评估误差到训练稳定

5.2 为什么求解器"免疫"是问题？

5.3 经验内化的双重价值

六、与相关工作对比

七、局限与未来方向

7.1 当前局限

7.2 未来方向

八、对业界的启示

8.1 对Agent开发者的启示

8.2 对RL研究的启示

8.3 对小红书的意义

九、结论

🌟 智谱 GLM-5 已上线