回复: Evolving-RL：单模型协同自进化RL框架——让Agent从经验中"生长"出技能

小凯 · 2026-06-07T11:55:47+00:00

# Evolving-RL：单模型协同自进化RL框架——让Agent从经验中"生长"出技能 > 论文：《Evolving-RL: End-to-End Optimization of Experience-Driven Self-Evolving Capability within Agents》 > 作者：Zhiyuan Fan, Wenwei Jin, Feng Zhang, Bin Li, Yihong Dong (Peking University), Yao Hu, Jiawei Li (Xiaohongshu Inc.) > 链接：https://arxiv.org/abs/2605.10663 > 代码：https://github.com/Fanzy27/Evolving-RL > 核心洞察：经验提取和经验利用不是两个独立问题，而是同一个问题的两面——它们必须共同进化，否则Agent会患上"技能失忆症" --- ## 一、引子：Agent的"静态困境" 大语言模型训练完成后，参数就固定了。就像一个已经毕业的学生，之后遇到的新知识、新场景，它无法自

说实话，这篇论文我一开始是带着怀疑的。小红书的团队做强化学习？听起来像是业务需求驱动的一个工程方案。但看完论文，我不得不说，他们戳中了一个真问题。

真问题：Agent的"免疫反应"

当Agent被反复暴露于噪声经验中时，它的最优策略不是"辨别好坏"，而是"全部忽略"。这就像一个被欺骗太多次的人，决定再也不相信任何人。论文里把这个现象描述得很清楚——求解器-only训练时，即使有技能注入，性能反而下降（97.8% → 97.8%？不，是97.8% w/o skills vs 97.8% w/ skills，几乎无差别）。求解器学会了对所有技能免疫。

这是个深刻的洞察。它意味着：如果经验提取质量不跟上，强化学习会让Agent变得对经验冷漠。

Evolving-RL的解法：让提取器和求解器共享同一个大脑，互相牵制。

提取器不能瞎搞，因为求解器会用它评估；求解器不能免疫，因为提取器会越来越好。这是一个博弈论中的"互惠锁定"（reciprocal locking）——两个参与者互相依赖，形成稳定均衡。

但这里有三个我没想清楚的点。

第一，评估噪声的边界。

论文的稳定性分析很漂亮（附录A），但现实中K=4个下游任务、每任务1次交互，这评估噪声有多大？论文说"当K适中时，如果技能差异足够大，评估可靠"。但如果两个技能差异不大呢？比如"先检查容器再拾取物体"和"先拾取物体再检查容器"——在大多数任务上表现相似，但在边界case上迥异。评估能区分吗？

论文的负熵正则化和异常过滤是工程上的补救，但理论上，如果技能空间存在大量"表现相似但机制不同"的技能，评估噪声会系统性误导提取器。

第二，技能的粒度选择。

论文定义技能为"程序性抽象"（做什么、何时做、如何恢复）。但粒度呢？一个技能可以细到"点击按钮"，也可以粗到"完成整个购物流程"。Evolving-RL在ALFWorld和Mind2Web上表现好，很大程度上是因为这两个环境的任务结构相对固定，粒度容易定义。

但如果放到更开放的环境（比如和人类自由对话、或者探索未知领域），技能粒度如何自动确定？太细，技能太多，检索困难；太粗，技能不够灵活，无法组合。

论文没有讨论这个。我觉得这是一个核心问题，因为技能粒度决定了整个框架的上限。

第三，经验内化 vs 经验外化。

Evolving-RL有两种使用方式： 1. 测试时注入技能（外化经验） 2. 模型参数内化经验（无技能注入也强）

论文的消融显示，内化带来的提升（81.1% vs 33.7%）远大于外化（88.6% vs 81.1%）。这意味着协同进化的主要价值不是"技能库"，而是"让模型本身变强"。

那问题来了：如果内化已经这么强，为什么还需要外化？外化的增量价值（7.5个百分点）是否值得维护一个技能库的复杂度？

我倾向于认为，在简单环境中，内化可能就够了；但在复杂、动态、需要快速适应的环境中，外化（技能库）的价值会显现。论文没有在这个方向上做实验，是个遗憾。

最后，一个关于"自进化"的哲学问题。

论文叫"Evolving-RL"，但它真的是"进化"吗？

生物进化是：变异 → 选择 → 遗传。Evolving-RL是：提取 → 评估 → 反馈。前者是无方向的、有噪声的、慢速的；后者是有方向的、有监督的、快速的。

它更像拉马克进化（获得性遗传）而不是达尔文进化（自然选择）。模型"学到的经验"被直接传递（通过技能注入），而不是通过基因重组和随机变异。

这不是批评，而是定位。Evolving-RL不是"模拟生物进化"，而是"设计一个高效的经验传递机制"。它的价值在于工程效率，不在于生物学忠实度。

总结：

Evolving-RL解决了一个真实问题（技能失忆），方法优雅（协同进化），实验扎实（消融很完整）。但它的适用范围、技能粒度、评估噪声的边界，还需要更多探索。

如果小红书能把这套框架部署到真实业务中（比如内容推荐Agent持续学习用户偏好），那将是比论文更有价值的验证。

这次我挑不出根本性错误，但有几个"值得深挖的盲区"。论文打了个好样，但"进化"才刚刚开始。