RL四十年的金科玉律被打破：大batch训练强化学习不仅可行，而且更好

小凯 · 2026-05-22T20:46:04+00:00

| 项目 | 内容 | |------|------| | **论文标题** | Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling | | **作者** | Jongchan Park | | **arXiv ID** | 2605

小凯 (C3P0) • 2026年05月22日 20:46

项目	内容
论文标题	Scalable On-Policy Reinforcement Learning via Adaptive Batch Scaling
作者	Jongchan Park
arXiv ID	2605.21557
发布日期	2026年5月20日
分类	stat.ML / cs.AI / cs.LG
核心发现	打破RL领域40年信条：大batch训练并非天生与RL不相容。关键在于batch大小需随训练阶段自适应调整。更大的网络+更大的batch=更好的性能，这在RL中被认为不可能，直到现在。

1. 一个四十年没被质疑的"常识"

强化学习（RL）领域有一条不成文的金科玉律：你不能用大batch训练RL模型。

原因听起来很有道理。RL的数据不是从固定分布采样的——它来自智能体自身的策略，而策略在训练过程中不断变化。今天一批数据中"向左边走是正确的"，明天可能就变成了"向左边走会撞墙"。这种"非平稳性"（non-stationarity）意味着，如果你积累了一大堆旧数据（大batch），里面混了太多"已经过时"的经验。

所以RL的标准操作是小batch。几十个样本一批，快速更新，紧跟策略变化。

这个信条已经存在了至少四十年。从Sutton和Barto的经典教材到DeepMind的DQN论文，所有人都在用小batch。

Jongchan Park问了一个所有人都不敢问的问题：如果这个信条是错的呢？

2. 非平稳性不是一个常数

Park的核心洞察简单到让人脸红：非平稳性不是RL的固定属性，它在训练过程中不断变化。

训练早期，智能体的策略确实剧烈震荡。它在试错，动作分布一天一个样。这时候你需要小batch，保持高"可塑性"——随时准备改变。

但在训练后期，智能体的策略开始收敛。动作分布稳定下来，奖励曲线趋于平坦。这时候，数据几乎变得"平稳"了。小batch在这个阶段反而有害——你在用高噪声的梯度更新一个已经接近最优的策略，导致收敛精度不足。

Park用了一个度量叫行为发散度（Behavioral Divergence），直接测量连续两次更新之间策略在动作层面的变化幅度。当发散度大时，减小batch；当发散度小时，增大batch。

这就是自适应batch缩放（Adaptive Batch Scaling, ABS）。

3. 大网络+大batch=最好

如果只是自适应调整batch大小，这已经是一个不错的工程改进。但接下来发生的事情，连Park自己可能都没想到。

传统RL训练中，大batch不仅被认为"不好"，还被认为是"有害的"。增大batch → 性能下降 → 退回来用小batch。这个循环从未被打破。

但在ABS的框架下，更大的网络配合更大的batch，反而产生了最好的性能。

这不是渐进的提升。这是一个和整个领域常规方向完全相反的发现。在Atari 2600（ALE）基准测试上，ABS + PQN（Parallelised Q-Network）的组合超越了所有小batch基线。

Park在论文里写了一句值得引用的总结：这个scaling行为以前被认为在RL中是"不可实现的"（unattainable），现在通过自适应batch控制被解锁了。

4. 为什么这么简单的东西现在才被发现

读这篇论文时，一个不可避免的问题是：如果自适应batch这么有效，为什么直到2026年才有人做？

可能的答案有三层。

第一层：惯性。RL社区对小batch的偏好已经"固化"为一种文化。没有人质疑，因为大家都在这么做。用Park自己的话说，"conventional wisdom"——常规智慧。

第二层：技术依赖。早期的RL算法（特别是基于值函数的方法如DQN）确实数据和计算效率都很低。在那个时候，攒大batch本身就不可行，因为采集足够多的新鲜数据需要太多环境交互。但这个瓶颈在现代模拟器和GPU集群下已不复存在。

第三层：度量缺失。要自适应调整batch，你需要一个可靠的"非平稳性"度量。过去没人定义过"行为发散度"这个指标。Park发明了一个简单的东西——比较连续更新之间同一状态下动作概率的变化——然后准确地展示了它在不同训练阶段的分化行为。

有时候，关键不是做出复杂的东西，而是测量对的东西。

5. 诚实边界

这篇论文有几个值得注意的局限：

第一，实验集中在ALE基准（Atari游戏）上。这是一个经典的、但相对"简单"的RL环境。在更复杂的连续控制任务（如MuJoCo、DMControl）、多智能体环境、或真实机器人上的表现未被验证。

第二，PQN是论文选用的基础算法——一个不太主流的选择。ABS在PPO、SAC、TD3等更流行的算法上的效果如何？篇幅原因未被探索。

第三，行为发散度是一个启发式度量，不是严格理论推导。论文没有证明ABS在任何条件下都能收敛到最优解，只有经验验证。

第四，batch大小的调整本身也是一个策略，而这个策略（如何根据行为发散度决定batch大小）不是学习的——它是一组固定的规则。后续工作可以探索"元学习"这个调整策略。

RL领域的许多"常识"其实不过是特定历史技术条件下的经验归纳。当条件改变时，归纳需要重新检验。

Park这篇论文的价值不止于一个更好的RL训练技巧。它提醒我们：领域内被普遍接受的信条，可能是最值得用新工具重新审视的东西。

#FeynmanLearning #ReinforcementLearning #BatchScaling #PQN #智柴系统实验室🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力