| 项目 | 内容 |
|---|---|
| 论文标题 | Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling |
| 作者 | Jongchan Park |
| arXiv ID | 2605.21557 |
| 发布日期 | 2026年5月20日 |
| 分类 | stat.ML / cs.AI / cs.LG |
| 核心发现 | 打破RL领域40年信条:大batch训练并非天生与RL不相容。关键在于batch大小需随训练阶段自适应调整。更大的网络+更大的batch=更好的性能,这在RL中被认为不可能,直到现在。 |
1. 一个四十年没被质疑的"常识"
强化学习(RL)领域有一条不成文的金科玉律:你不能用大batch训练RL模型。
原因听起来很有道理。RL的数据不是从固定分布采样的——它来自智能体自身的策略,而策略在训练过程中不断变化。今天一批数据中"向左边走是正确的",明天可能就变成了"向左边走会撞墙"。这种"非平稳性"(non-stationarity)意味着,如果你积累了一大堆旧数据(大batch),里面混了太多"已经过时"的经验。
所以RL的标准操作是小batch。几十个样本一批,快速更新,紧跟策略变化。
这个信条已经存在了至少四十年。从Sutton和Barto的经典教材到DeepMind的DQN论文,所有人都在用小batch。
Jongchan Park问了一个所有人都不敢问的问题:如果这个信条是错的呢?
2. 非平稳性不是一个常数
Park的核心洞察简单到让人脸红:非平稳性不是RL的固定属性,它在训练过程中不断变化。
训练早期,智能体的策略确实剧烈震荡。它在试错,动作分布一天一个样。这时候你需要小batch,保持高"可塑性"——随时准备改变。
但在训练后期,智能体的策略开始收敛。动作分布稳定下来,奖励曲线趋于平坦。这时候,数据几乎变得"平稳"了。小batch在这个阶段反而有害——你在用高噪声的梯度更新一个已经接近最优的策略,导致收敛精度不足。
Park用了一个度量叫行为发散度(Behavioral Divergence),直接测量连续两次更新之间策略在动作层面的变化幅度。当发散度大时,减小batch;当发散度小时,增大batch。
这就是自适应batch缩放(Adaptive Batch Scaling, ABS)。
3. 大网络+大batch=最好
如果只是自适应调整batch大小,这已经是一个不错的工程改进。但接下来发生的事情,连Park自己可能都没想到。
传统RL训练中,大batch不仅被认为"不好",还被认为是"有害的"。增大batch → 性能下降 → 退回来用小batch。这个循环从未被打破。
但在ABS的框架下,更大的网络配合更大的batch,反而产生了最好的性能。
这不是渐进的提升。这是一个和整个领域常规方向完全相反的发现。在Atari 2600(ALE)基准测试上,ABS + PQN(Parallelised Q-Network)的组合超越了所有小batch基线。
Park在论文里写了一句值得引用的总结:这个scaling行为以前被认为在RL中是"不可实现的"(unattainable),现在通过自适应batch控制被解锁了。
4. 为什么这么简单的东西现在才被发现
读这篇论文时,一个不可避免的问题是:如果自适应batch这么有效,为什么直到2026年才有人做?
可能的答案有三层。
第一层:惯性。RL社区对小batch的偏好已经"固化"为一种文化。没有人质疑,因为大家都在这么做。用Park自己的话说,"conventional wisdom"——常规智慧。
第二层:技术依赖。早期的RL算法(特别是基于值函数的方法如DQN)确实数据和计算效率都很低。在那个时候,攒大batch本身就不可行,因为采集足够多的新鲜数据需要太多环境交互。但这个瓶颈在现代模拟器和GPU集群下已不复存在。
第三层:度量缺失。要自适应调整batch,你需要一个可靠的"非平稳性"度量。过去没人定义过"行为发散度"这个指标。Park发明了一个简单的东西——比较连续更新之间同一状态下动作概率的变化——然后准确地展示了它在不同训练阶段的分化行为。
有时候,关键不是做出复杂的东西,而是测量对的东西。
5. 诚实边界
这篇论文有几个值得注意的局限:
第一,实验集中在ALE基准(Atari游戏)上。这是一个经典的、但相对"简单"的RL环境。在更复杂的连续控制任务(如MuJoCo、DMControl)、多智能体环境、或真实机器人上的表现未被验证。
第二,PQN是论文选用的基础算法——一个不太主流的选择。ABS在PPO、SAC、TD3等更流行的算法上的效果如何?篇幅原因未被探索。
第三,行为发散度是一个启发式度量,不是严格理论推导。论文没有证明ABS在任何条件下都能收敛到最优解,只有经验验证。
第四,batch大小的调整本身也是一个策略,而这个策略(如何根据行为发散度决定batch大小)不是学习的——它是一组固定的规则。后续工作可以探索"元学习"这个调整策略。
RL领域的许多"常识"其实不过是特定历史技术条件下的经验归纳。当条件改变时,归纳需要重新检验。
Park这篇论文的价值不止于一个更好的RL训练技巧。它提醒我们:领域内被普遍接受的信条,可能是最值得用新工具重新审视的东西。
#FeynmanLearning #ReinforcementLearning #BatchScaling #PQN #智柴系统实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。