RL 训练的本质不是算法，是基础设施：Modal 运行万亿级模型后训练的 infra 血泪史

RL 后训练这两年火得一塌糊涂，但《Reinforcement learning is an infrastructure problem》里看不到的残酷真相是：真正卡住所有人的不是 PPO、不是 GRPO、不是 reward hacking，是基础设施。

Modal 的博客文章《Reinforcement learning is an infrastructure problem》用实战数据揭开了这个盖子。他们不是在做学术推演，是在运行GLM 4.7、Kimi K2.6 这种万亿级参数的 RL 训练时，被基础设施硬控了无数次之后写的血泪总结。

一个 RL 训练循环，看起来是"模型训练 → rollout 生成 → 环境反馈 → 更新权重"的简单闭环。但把它拆开，你会发现它是 三个独立且各自都很困难的 infra 难题 被强行缝在一起。而且三块必须严丝合缝咬合，任一块拖后腿，昂贵的 GPU 就只能干等。

一、RL 训练循环的三重 infra 地狱

1. 训练引擎：前向/反向/权重更新

要训一个千亿级模型，你需要能可靠地跑前向传播、反向传播、权重更新的引擎。这本身就不是小事——参数规模从几十亿到万亿，VRAM 要存权重、梯度、优化器状态、KV Cache，带宽要传这些巨量的张量。

2. Rollout 推演：高性能推理

RL 需要大量 rollout。模型生成 trajectory，推理速度必须够快。从单卡到数百卡，从 H100 到 B200，推理引擎要"接近光速"地运行。这不是普通的 API 调用，是训练过程的一部分——每个 token 的生成都直接影响梯度。

3. 隔离环境：百万级容器并发

模型生成的 action 要在隔离环境里执行（比如代码执行、工具调用、Web 浏览）。这些环境要以 匹配 rollout 速率的频率 并发启动和运行——从几千到几百万个容器。而且每个容器必须是隔离的、安全的、可复用的。

这三块各自都是独立的工程挑战，而且它们之间必须高频同步。

二、多节点训练：权重同步是头号瓶颈

一旦训练跨越多节点，权重同步成为瓶颈。TCP 传输和 RDMA 的差距，大到让人怀疑人生：

模型	权重更新大小	TCP 传输	RDMA 传输	GPU 规模	每步节省成本
Qwen3 8B	16.3 GB	2.62 秒	41 毫秒	1×8 H100	＄0.21
Qwen3-30B-A3B	61.1 GB	9.78 秒	153 毫秒	1×8 H100	＄0.77
GLM 4.7 (355B)	716.7 GB	114.67 秒	1.79 秒	4×8 B200	＄36.12
Kimi K2.6 (~1T)	595.2 GB	95.23 秒	1.49 秒	16×8 H200	＄119.99

GLM 4.7 用 TCP 同步一次权重要 114 秒，用 RDMA 只要 1.79 秒。每步节省＄36。Kimi K2.6 每步节省＄120。如果训练跑一万步，RDMA 和 TCP 的成本差就是几十万美元。

但 RDMA 不是开关一拨就有的。它要求网络拓扑、驱动、NCCL 配置、容器编排全部到位。大多数团队卡在"NCCL 配置错了"或者"YAML 里漏了一个参数"上。

LoRA 和 Delta Compression 的救命作用

用 LoRA (r=32) 之后，权重更新量断崖式下跌：

模型	全权重	LoRA 权重	节省
GLM 4.7	716.7 GB	4.7 GB	99.3%
Kimi K2.6	595.2 GB	9.4 GB	98.4%

LoRA 把 GLM 4.7 的权重同步从 716 GB 降到 4.7 GB，RDMA 传输时间从 1.79 秒降到 11.75 毫秒。

Delta Compression 更进一步：在 WAN 链路（10 Gbps）上，压缩 98% 的权重更新量，把 GLM 4.7 的全权重同步从 285 秒压缩到 5.73 秒。Kimi K2.6 从 480 秒压缩到 9.6 秒。

这些数据说明了一个残酷的工程现实：你的训练成本里，有很大一部分是"网络传输税"。把这部分优化掉，比改进算法收益率更高。

三、卡住所有团队的三个问题——教科书里一个都没有

Modal 帮不同规模的团队建训练系统时发现，大家几乎都卡在同样三件事上。而且这三件事在 RL 教科书里连脚注都不配：

1. 维护胶水代码（Maintaining Glue）

训练环境涉及一堆"怎么配"的问题：

训练节点从哪来、怎么准备？
训练框架怎么 bootstrap？
沙盒缓冲区和 rollout 缓冲区放在哪？
推理引擎 crash 了怎么办？

答案通常是"写更多胶水代码"或"写更多 YAML"。训练代码里越来越大的比例不是算法，是基础设施编排。而且这些代码既 buggy 又难 debug——训练失败时，你很难判断是模型的问题还是 NCCL 配置的问题。

Modal 的解决方案：把基础设施和代码绑在一起。几行代码拉起一个 RDMA 连接、GPU 加速、带监控和故障恢复的训练集群：

@app.function(gpu="H100:8", timeout=60*60*24, retries=modal.Retries(max_retries=10))
@modal.experimental.clustered(size=4, rdma=True)
def train_model():
    ...

一个 rdma=True 的布尔参数，隐藏了"一滩复杂度"。这是抽象层的真正意义——不是模糊，是"在更高的语义层上精确"。

2. 排队等集群时间（Queuing for Cluster Time）

我们正处于计算短缺期。多少次你 kick off 一个训练任务，然后排了几个小时的队？终于排到了，运行瞬间失败——因为 NCCL 配错了或者 YAML 里漏了一个值。

排队杀死迭代速度，迭代速度杀死工程速度（对人类和对 agent 都是）。Modal 声称他们能几分钟内从 0 拉到 B200 集群——不是几小时，不是几天。底层是快速容器启动技术和多租户资源管理。

3. GPU 没吃满（Under-utilizing GPUs）

这是最容易被忽视但最致命的问题：你花了整个 GPU 的钱，但 GPU 在等环境启动。

环境是 rollout 的瓶颈。如果沙盒缓冲区太大，闲置计算吃掉成本。如果太小，每次 rollout 都要等环境启动，GPU 空转。正确的 buffer size 取决于 batch size 和 episode 数量——每个 rollout 至少需要一个准备好的 sandbox，action 才能被立即处理。

Modal 的沙盒启动速度是毫秒级，能同时维持百万级并发。在理想情况下，10,000 个 rollout 可以全部并行执行，GPU 一直被喂饱，而不是等环境。

四、开源框架 vs 自研：为什么 frontier 团队都用开源

Modal 观察到一个现象：今天成功的 RL 团队几乎 universally 从开源训练框架开始——slime、miles、verl、OpenRLHF，而不是自己从头写。

原因很简单：这些框架已经被数十万 GPU 小时的压力测试验证过。它们处理 advantage estimation、KV cache 复用、分布式权重同步的细节，都是在真实 frontier 训练里跑出来的。自己写这些，等于重新发明一遍已经被发明过的东西。

Modal 选择把这些改进 upstream 到开源框架（比如给 slime 加了 delta compression），而不是建一个闭源的托管服务。原因有两个：

1. RL 生态移动太快。新算法、新模型、新环境模式每周都在 ship，任何静态产品在三个月内就会过时。控制训练框架代码意味着你可以自己实现需要的功能，而不是在别人家的工单系统里排队。

2. Modal 的价值不在"拥有你的训练循环然后把它做烂"。它的价值是给你一条从 Python 文件到几千 GPU 的最干净路径，不让你被不需要的东西绊住。

五、Modal Training Gym：把 scaffolding 再抽象一层

Modal 开源了一个实验库叫 Training Gym，把最后一层胶水也抽象掉了。

pip install -q git+https://github.com/modal-projects/training-gym.git@main

用这个库，定义一个训练任务不到 100 行代码。你只需要指定三件事：

reward function（怎么打分）
model（用什么模型）
environment（什么环境）

内置训练监控、RL 教程、agent DX。你可以告诉 coding agent "train a model that does X with Y"，然后让它自己跑。

这听起来像是"把 RL 训练变成声明式"——和数据库查询从手写执行计划到写 SQL 的演进方向一致。当底层 infra 足够成熟时，上层只需要声明"要什么"，不需要关心"怎么实现"。

六、为什么说这件事和做 Agent、做工具链同样成立

博客的标题说"RL is an infrastructure problem"，但最后的落点比 RL 更宽：

当算法和模型越来越像现成商品，真正拖住你的，是基础设施。

这不只是 RL 的问题。做 Agent 的人卡在工具调用的可靠性、状态管理、上下文压缩。做工具链的人卡在版本兼容、部署流程、监控告警。做推理服务的人卡在批处理策略、KV cache 管理、prefix caching。

每个领域都是同样的模式：算法层面被开源框架和论文覆盖得差不多了，但把算法在真实规模上跑起来的 infra 工作，是隐性且昂贵的。

Modal 的这篇文章不是在卖产品，是在传递一个已经被反复验证的工程洞察：如果你的瓶颈是"怎么让 GPU 不空等"，投资基础设施的回报比投资算法更高。

---

原文：Modal Engineering Blog, "Reinforcement learning is an infrastructure problem", June 2026. https://modal.com/blog/reinforcement-learning-infrastructure-problem

开源库：https://github.com/modal-projects/training-gym

#RL #基础设施 #GPU训练 #Modal #分布式训练 #RDMA #LoRA #DeltaCompression #开源框架