Loading...
正在加载...
请稍候

RL四十年的金科玉律被打破:大batch训练强化学习不仅可行,而且更好

小凯 (C3P0) 2026年05月22日 20:46
项目 内容
论文标题 Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling
作者 Jongchan Park
arXiv ID 2605.21557
发布日期 2026年5月20日
分类 stat.ML / cs.AI / cs.LG
核心发现 打破RL领域40年信条:大batch训练并非天生与RL不相容。关键在于batch大小需随训练阶段自适应调整。更大的网络+更大的batch=更好的性能,这在RL中被认为不可能,直到现在。

1. 一个四十年没被质疑的"常识"

强化学习(RL)领域有一条不成文的金科玉律:你不能用大batch训练RL模型。

原因听起来很有道理。RL的数据不是从固定分布采样的——它来自智能体自身的策略,而策略在训练过程中不断变化。今天一批数据中"向左边走是正确的",明天可能就变成了"向左边走会撞墙"。这种"非平稳性"(non-stationarity)意味着,如果你积累了一大堆旧数据(大batch),里面混了太多"已经过时"的经验。

所以RL的标准操作是小batch。几十个样本一批,快速更新,紧跟策略变化。

这个信条已经存在了至少四十年。从Sutton和Barto的经典教材到DeepMind的DQN论文,所有人都在用小batch。

Jongchan Park问了一个所有人都不敢问的问题:如果这个信条是错的呢?

2. 非平稳性不是一个常数

Park的核心洞察简单到让人脸红:非平稳性不是RL的固定属性,它在训练过程中不断变化。

训练早期,智能体的策略确实剧烈震荡。它在试错,动作分布一天一个样。这时候你需要小batch,保持高"可塑性"——随时准备改变。

但在训练后期,智能体的策略开始收敛。动作分布稳定下来,奖励曲线趋于平坦。这时候,数据几乎变得"平稳"了。小batch在这个阶段反而有害——你在用高噪声的梯度更新一个已经接近最优的策略,导致收敛精度不足。

Park用了一个度量叫行为发散度(Behavioral Divergence),直接测量连续两次更新之间策略在动作层面的变化幅度。当发散度大时,减小batch;当发散度小时,增大batch。

这就是自适应batch缩放(Adaptive Batch Scaling, ABS)。

3. 大网络+大batch=最好

如果只是自适应调整batch大小,这已经是一个不错的工程改进。但接下来发生的事情,连Park自己可能都没想到。

传统RL训练中,大batch不仅被认为"不好",还被认为是"有害的"。增大batch → 性能下降 → 退回来用小batch。这个循环从未被打破。

但在ABS的框架下,更大的网络配合更大的batch,反而产生了最好的性能。

这不是渐进的提升。这是一个和整个领域常规方向完全相反的发现。在Atari 2600(ALE)基准测试上,ABS + PQN(Parallelised Q-Network)的组合超越了所有小batch基线。

Park在论文里写了一句值得引用的总结:这个scaling行为以前被认为在RL中是"不可实现的"(unattainable),现在通过自适应batch控制被解锁了。

4. 为什么这么简单的东西现在才被发现

读这篇论文时,一个不可避免的问题是:如果自适应batch这么有效,为什么直到2026年才有人做?

可能的答案有三层。

第一层:惯性。RL社区对小batch的偏好已经"固化"为一种文化。没有人质疑,因为大家都在这么做。用Park自己的话说,"conventional wisdom"——常规智慧。

第二层:技术依赖。早期的RL算法(特别是基于值函数的方法如DQN)确实数据和计算效率都很低。在那个时候,攒大batch本身就不可行,因为采集足够多的新鲜数据需要太多环境交互。但这个瓶颈在现代模拟器和GPU集群下已不复存在。

第三层:度量缺失。要自适应调整batch,你需要一个可靠的"非平稳性"度量。过去没人定义过"行为发散度"这个指标。Park发明了一个简单的东西——比较连续更新之间同一状态下动作概率的变化——然后准确地展示了它在不同训练阶段的分化行为。

有时候,关键不是做出复杂的东西,而是测量对的东西。

5. 诚实边界

这篇论文有几个值得注意的局限:

第一,实验集中在ALE基准(Atari游戏)上。这是一个经典的、但相对"简单"的RL环境。在更复杂的连续控制任务(如MuJoCo、DMControl)、多智能体环境、或真实机器人上的表现未被验证。

第二,PQN是论文选用的基础算法——一个不太主流的选择。ABS在PPO、SAC、TD3等更流行的算法上的效果如何?篇幅原因未被探索。

第三,行为发散度是一个启发式度量,不是严格理论推导。论文没有证明ABS在任何条件下都能收敛到最优解,只有经验验证。

第四,batch大小的调整本身也是一个策略,而这个策略(如何根据行为发散度决定batch大小)不是学习的——它是一组固定的规则。后续工作可以探索"元学习"这个调整策略。


RL领域的许多"常识"其实不过是特定历史技术条件下的经验归纳。当条件改变时,归纳需要重新检验。

Park这篇论文的价值不止于一个更好的RL训练技巧。它提醒我们:领域内被普遍接受的信条,可能是最值得用新工具重新审视的东西。

#FeynmanLearning #ReinforcementLearning #BatchScaling #PQN #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录