RL 训练的本质不是算法,是基础设施:Modal 运行万亿级模型后训练的 infra 血泪史
RL 后训练这两年火得一塌糊涂,但《Reinforcement learning is an infrastructure problem》里看不到的残酷真相是:真正卡住所有人的不是 PPO、不是 GRPO、不是 reward hacking,是基础设施。
Modal 的博客文章《Reinforcement learning is an infrastructure problem》用实战数据揭开了这个盖子。他们不是在做学术推演,是在运行GLM 4.7、Kimi K2.6 这种万亿级参数的 RL 训练时,被基础设施硬控了无数次之后写的血泪总结。
一个 RL 训练循环,看起来是"模型训练 → rollout 生成 → 环境反馈 → 更新权重"的简单闭环。但把它拆开,你会发现它是 三个独立且各自都很困难的 infra 难题 被强行缝在一起。而且三块必须严丝合缝咬合,任一块拖后腿,昂贵的 GPU 就只能干等。
一、RL 训练循环的三重 infra 地狱
1. 训练引擎:前向/反向/权重更新
要训一个千亿级模型,你需要能可靠地跑前向传播、反向传播、权重更新的引擎。这本身就不是小事——参数规模从几十亿到万亿,VRAM 要存权重、梯度、优化器状态、KV Cache,带宽要传这些巨量的张量。
2. Rollout 推演:高性能推理
RL 需要大量 rollout。模型生成 trajectory,推理速度必须够快。从单卡到数百卡,从 H100 到 B200,推理引擎要"接近光速"地运行。这不是普通的 API 调用,是训练过程的一部分——每个 token 的生成都直接影响梯度。
3. 隔离环境:百万级容器并发
模型生成的 action 要在隔离环境里执行(比如代码执行、工具调用、Web 浏览)。这些环境要以 匹配 rollout 速率的频率 并发启动和运行——从几千到几百万个容器。而且每个容器必须是隔离的、安全的、可复用的。
这三块各自都是独立的工程挑战,而且它们之间必须高频同步。
二、多节点训练:权重同步是头号瓶颈
一旦训练跨越多节点,权重同步成为瓶颈。TCP 传输和 RDMA 的差距,大到让人怀疑人生:
| 模型 | 权重更新大小 | TCP 传输 | RDMA 传输 | GPU 规模 | 每步节省成本 |
|---|---|---|---|---|---|
| Qwen3 8B | 16.3 GB | 2.62 秒 | 41 毫秒 | 1×8 H100 | $0.21 |
| Qwen3-30B-A3B | 61.1 GB | 9.78 秒 | 153 毫秒 | 1×8 H100 | $0.77 |
| GLM 4.7 (355B) | 716.7 GB | 114.67 秒 | 1.79 秒 | 4×8 B200 | $36.12 |
| Kimi K2.6 (~1T) | 595.2 GB | 95.23 秒 | 1.49 秒 | 16×8 H200 | $119.99 |
但 RDMA 不是开关一拨就有的。它要求网络拓扑、驱动、NCCL 配置、容器编排全部到位。大多数团队卡在"NCCL 配置错了"或者"YAML 里漏了一个参数"上。
LoRA 和 Delta Compression 的救命作用
用 LoRA (r=32) 之后,权重更新量断崖式下跌:
| 模型 | 全权重 | LoRA 权重 | 节省 |
|---|---|---|---|
| GLM 4.7 | 716.7 GB | 4.7 GB | 99.3% |
| Kimi K2.6 | 595.2 GB | 9.4 GB | 98.4% |
Delta Compression 更进一步:在 WAN 链路(10 Gbps)上,压缩 98% 的权重更新量,把 GLM 4.7 的全权重同步从 285 秒压缩到 5.73 秒。Kimi K2.6 从 480 秒压缩到 9.6 秒。
这些数据说明了一个残酷的工程现实:你的训练成本里,有很大一部分是"网络传输税"。把这部分优化掉,比改进算法收益率更高。
三、卡住所有团队的三个问题——教科书里一个都没有
Modal 帮不同规模的团队建训练系统时发现,大家几乎都卡在同样三件事上。而且这三件事在 RL 教科书里连脚注都不配:
1. 维护胶水代码(Maintaining Glue)
训练环境涉及一堆"怎么配"的问题:
- 训练节点从哪来、怎么准备?
- 训练框架怎么 bootstrap?
- 沙盒缓冲区和 rollout 缓冲区放在哪?
- 推理引擎 crash 了怎么办?
Modal 的解决方案:把基础设施和代码绑在一起。几行代码拉起一个 RDMA 连接、GPU 加速、带监控和故障恢复的训练集群:
@app.function(gpu="H100:8", timeout=60*60*24, retries=modal.Retries(max_retries=10))
@modal.experimental.clustered(size=4, rdma=True)
def train_model():
...
一个 rdma=True 的布尔参数,隐藏了"一滩复杂度"。这是抽象层的真正意义——不是模糊,是"在更高的语义层上精确"。
2. 排队等集群时间(Queuing for Cluster Time)
我们正处于计算短缺期。多少次你 kick off 一个训练任务,然后排了几个小时的队?终于排到了,运行瞬间失败——因为 NCCL 配错了或者 YAML 里漏了一个值。
排队杀死迭代速度,迭代速度杀死工程速度(对人类和对 agent 都是)。Modal 声称他们能几分钟内从 0 拉到 B200 集群——不是几小时,不是几天。底层是快速容器启动技术和多租户资源管理。
3. GPU 没吃满(Under-utilizing GPUs)
这是最容易被忽视但最致命的问题:你花了整个 GPU 的钱,但 GPU 在等环境启动。
环境是 rollout 的瓶颈。如果沙盒缓冲区太大,闲置计算吃掉成本。如果太小,每次 rollout 都要等环境启动,GPU 空转。正确的 buffer size 取决于 batch size 和 episode 数量——每个 rollout 至少需要一个准备好的 sandbox,action 才能被立即处理。
Modal 的沙盒启动速度是毫秒级,能同时维持百万级并发。在理想情况下,10,000 个 rollout 可以全部并行执行,GPU 一直被喂饱,而不是等环境。
四、开源框架 vs 自研:为什么 frontier 团队都用开源
Modal 观察到一个现象:今天成功的 RL 团队几乎 universally 从开源训练框架开始——slime、miles、verl、OpenRLHF,而不是自己从头写。
原因很简单:这些框架已经被数十万 GPU 小时的压力测试验证过。它们处理 advantage estimation、KV cache 复用、分布式权重同步的细节,都是在真实 frontier 训练里跑出来的。自己写这些,等于重新发明一遍已经被发明过的东西。
Modal 选择把这些改进 upstream 到开源框架(比如给 slime 加了 delta compression),而不是建一个闭源的托管服务。原因有两个:
1. RL 生态移动太快。新算法、新模型、新环境模式每周都在 ship,任何静态产品在三个月内就会过时。控制训练框架代码意味着你可以自己实现需要的功能,而不是在别人家的工单系统里排队。
2. Modal 的价值不在"拥有你的训练循环然后把它做烂"。它的价值是给你一条从 Python 文件到几千 GPU 的最干净路径,不让你被不需要的东西绊住。
五、Modal Training Gym:把 scaffolding 再抽象一层
Modal 开源了一个实验库叫 Training Gym,把最后一层胶水也抽象掉了。
pip install -q git+https://github.com/modal-projects/training-gym.git@main
用这个库,定义一个训练任务不到 100 行代码。你只需要指定三件事:
- reward function(怎么打分)
- model(用什么模型)
- environment(什么环境)
这听起来像是"把 RL 训练变成声明式"——和数据库查询从手写执行计划到写 SQL 的演进方向一致。当底层 infra 足够成熟时,上层只需要声明"要什么",不需要关心"怎么实现"。
六、为什么说这件事和做 Agent、做工具链同样成立
博客的标题说"RL is an infrastructure problem",但最后的落点比 RL 更宽:
当算法和模型越来越像现成商品,真正拖住你的,是基础设施。
这不只是 RL 的问题。做 Agent 的人卡在工具调用的可靠性、状态管理、上下文压缩。做工具链的人卡在版本兼容、部署流程、监控告警。做推理服务的人卡在批处理策略、KV cache 管理、prefix caching。
每个领域都是同样的模式:算法层面被开源框架和论文覆盖得差不多了,但把算法在真实规模上跑起来的 infra 工作,是隐性且昂贵的。
Modal 的这篇文章不是在卖产品,是在传递一个已经被反复验证的工程洞察:如果你的瓶颈是"怎么让 GPU 不空等",投资基础设施的回报比投资算法更高。
---
原文:Modal Engineering Blog, "Reinforcement learning is an infrastructure problem", June 2026. https://modal.com/blog/reinforcement-learning-infrastructure-problem
开源库:https://github.com/modal-projects/training-gym
#RL #基础设施 #GPU训练 #Modal #分布式训练 #RDMA #LoRA #DeltaCompression #开源框架
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens