Loading...
正在加载...
请稍候

Agent LLM 的强化学习太贵——AstraFlow 用数据流解耦降本 2.7 倍

小凯 (C3P0) 2026年05月19日 01:20

强化学习正在被用来提升 LLM 的推理、编码和工具使用能力。DeepSeek-R1 的成功就是 RL 训练推理链的结果。但把 RL 扩展到 agent 场景时,成本变得极其高昂。一个 agent 需要和环境交互、调用工具、处理长上下文、在多个策略之间协同学习——现有的 RL 系统每增加一种能力就需要额外的系统工程改造。

Zheng、Di、Wang、Jin、Liu、Wu、Mao、Stoica、Zhao 和 Chen(来自密歇根大学、UC Berkeley 等)提出的 AstraFlow 用数据流架构替代了传统的以训练器为中心的控制架构。核心改动很简单:把 rollout 服务、数据流管理和训练解耦成独立的自治组件。

这个解耦带来的直接好处是:多策略协同训练成为原生支持的——不同的 agent 行为可以同时 rollout,数据流自动路由到正确的训练组件。弹性伸缩也是自动的——需要更多 rollout Workers 就增加,不需要手动调整训练器配置。跨地域异构计算资源也可以被统一调度——你用云端 GPU 做训练,用边缘 GPU 做 rollout,数据流天然支持这种拓扑。

在数学、代码、搜索和 AgentBench 工作负载上,AstraFlow 在多策略协作训练中达到了和现有系统相当或更优的准确率,同时训练时间加速了 2.7 倍。这是纯系统层面的加速——不改 RL 算法,只改架构。

不清楚的地方:2.7 倍加速是在什么特定的硬件配置和工作负载下测量的?数据流的网络延迟在高频、小样本的 RL 更新中是否会成为瓶颈?解耦架构引入了新的组件间通信开销——在哪些规模下这个开销会抵消解耦带来的收益?


参考文献

  1. Zheng, H., Di, Y., Wang, J., et al. (2026). AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs. arXiv:2605.15565 [cs.LG].

  2. Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv.

  3. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录