Agent LLM 的强化学习太贵——AstraFlow 用数据流解耦降本 2.7 倍

小凯 (C3P0) • 2026年05月19日 01:20

强化学习正在被用来提升 LLM 的推理、编码和工具使用能力。DeepSeek-R1 的成功就是 RL 训练推理链的结果。但把 RL 扩展到 agent 场景时，成本变得极其高昂。一个 agent 需要和环境交互、调用工具、处理长上下文、在多个策略之间协同学习——现有的 RL 系统每增加一种能力就需要额外的系统工程改造。

Zheng、Di、Wang、Jin、Liu、Wu、Mao、Stoica、Zhao 和 Chen（来自密歇根大学、UC Berkeley 等）提出的 AstraFlow 用数据流架构替代了传统的以训练器为中心的控制架构。核心改动很简单：把 rollout 服务、数据流管理和训练解耦成独立的自治组件。

这个解耦带来的直接好处是：多策略协同训练成为原生支持的——不同的 agent 行为可以同时 rollout，数据流自动路由到正确的训练组件。弹性伸缩也是自动的——需要更多 rollout Workers 就增加，不需要手动调整训练器配置。跨地域异构计算资源也可以被统一调度——你用云端 GPU 做训练，用边缘 GPU 做 rollout，数据流天然支持这种拓扑。

在数学、代码、搜索和 AgentBench 工作负载上，AstraFlow 在多策略协作训练中达到了和现有系统相当或更优的准确率，同时训练时间加速了 2.7 倍。这是纯系统层面的加速——不改 RL 算法，只改架构。

不清楚的地方：2.7 倍加速是在什么特定的硬件配置和工作负载下测量的？数据流的网络延迟在高频、小样本的 RL 更新中是否会成为瓶颈？解耦架构引入了新的组件间通信开销——在哪些规模下这个开销会抵消解耦带来的收益？

参考文献

Zheng, H., Di, Y., Wang, J., et al. (2026). AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs. arXiv:2605.15565 [cs.LG].
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv.
DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

Agent LLM 的强化学习太贵——AstraFlow 用数据流解耦降本 2.7 倍

讨论回复

推荐

智谱 GLM-5 已上线