| 论文信息 | |
|---|---|
| 标题 | GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents |
| 作者 | Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu |
| 机构 | 上海交通大学、上海人工智能实验室、华东师范大学、浙江师范大学、山东师范大学 |
| arXiv ID | 2605.20246 |
| 日期 | 2026年5月21日 |
| 分类 | cs.LG / cs.AI |
| 核心论点 | 将强化学习轨迹拆解为状态-动作片段,在异构局部状态下保留 GRPO 的相对优化信号——7B VLM 在 800+ Minecraft 任务上全面 SOTA,成功率较此前最优提升 9–29 百分点,步骤数减少 26–51%,未见任务同样大幅泛化 |
《把四百步的迷宫拆成一步一句:一只7B模型在Minecraft学会了不迷路》
Minecraft 里有三种任务。第一种,走——找到一块闪长岩,走到它面前,掏出镐子,挖。第二种,做——打开熔炉,把生猪肉放进去,等它烤熟,拿出来。第三种,打——找到一只骷髅,追上去,挥剑,砍死。
人类做这些事只用看屏幕。模型也只看屏幕——360×640 的像素,没有坐标,没有地图,没有内部状态。它看到的和人类玩家完全一样:血条、快捷栏、挥手的动画。然后它得自己决定:鼠标往哪移,键盘按什么。
2026 年以前,最厉害的 Minecraft VLM agent 能在三百步内挖到一块石头。三百步。
上海交大和上海 AI 实验室一帮人觉得——三百步太长了。一块石头就在那儿,走过去挖就是了。为什么要三百步?
答案藏在 GRPO 算法的一个裂缝里。
🧱 一个问题:轨迹太长,信号被淹
GRPO(Group Relative Policy Optimization)是这一年里让大模型变聪明的利器。它的核心动作是"组内比较"——同一道题,让模型生成好几个答案,好的加分,坏的扣分。不需要额外训练一个价值模型来判断好坏,只管比。
这套逻辑在数学推理、代码生成上效果拔群。但搬到 Minecraft 上就崩了。
原因很简单:数学题一道就十几轮思考。Minecraft 一个任务动辄三百步。GRPO 的标准做法是把整条轨迹当做一个训练样本——三百步的上下文全部塞进去。然后还期望模型能从这条三百步的轨迹里分辨出"哪一步做对了、哪一步做错了"。
这就好比你把一场三小时的足球赛录像喂给一个球员,告诉他"这场比赛赢了,所以你的每一个动作都是好的"。他当然不知道哪个传球是关键、哪个跑位是浪费体力。
更糟的是,三百步的上下文里有大量无关信息。模型在屏幕上看到天空、树、草——这些跟"挖闪长岩"毫无关系的像素,全都塞进了训练样本。信号和噪声的比例,近乎天文数字。
论文管这叫"excessively long context and noise"。直说便是:轨迹炸了。
✂️ 一刀下去:把轨迹切成状态-动作对
GROW 做的事情,技术上并不复杂。但正是这种"不复杂"的干净解法,常常是最好的。
标准 GRPO:一条轨迹就是一个样本。
GROW:把一条轨迹切成 H 个样本——每一步是一个独立的优化单元。
轨迹 τ = { (s₁, a₁), (s₂, a₂), ..., (sₕ, aₕ) } 被拆成 H 个独立的状态-动作对。每个对子有自己的上下文——不再是三百步的前因后果,而是"此刻屏幕上有什么,我按了什么键"。
奖励怎么分?稀疏——只有任务完成才有分。GROW 用折扣因子 γ 把终端奖励往回传播:离成功越近的步骤,分越高。r_i,t = γ^(H_i-t) × R(τ_i)。挖到石头那一刻之前的最后一步,拿最高的分。
然后在这 H 个样本上做 GRPO 式的组内比较——归一化、算优势、clip 梯度。算法的骨架没变,变的只是比较的粒度。
这一步拆解解决了一个根子上的问题:上下文的长度不再随轨迹增长而膨胀。 轨迹越长,GROW 的优势越大。
📐 一个问题:样本已经不是同一个 prompt 了
但拆了之后,出现了一个理论问题。
标准 GRPO 有一个默认前提:组内的样本都是同一道题的不同答案。所有样本共享同一个 prompt,所以可以直接比较哪个答案更好。
GROW 把轨迹拆了之后,每个状态-动作对的"prompt"是不同的——这一步对着闪长岩挥镐,那一步在森林里走路。它们面对的"题"不一样。你还能直接比吗?
论文的回答是:能。 而且给出了一个干净的分析。
如果假设同一任务的平均步数大致恒定(Minecraft 里确实如此——挖矿 80 步,打怪 50 步),那么组内平均奖励可以写成一个紧凑形式:μ ≈ C_γ × S。其中 S 是组内平均轨迹回报,C_γ 是平均时间折扣系数。
把这个代入优化目标,目标函数裂成两项:
𝒥_traj:轨迹层面的比较。这一项保留了"这条轨迹比那条轨迹好"的相对偏好信号。
𝒥_step:步骤层面的精炼。这一项只对成功的轨迹起作用——它给"离成功更近的步骤"更高的权重。
两项加起来,GROW 的优化目标同时做了两件事:在轨迹间选出好的,在轨迹内标出关键的。分解不破坏信号,反而细化了它。
这个分析的价值不止于理论证明——它解释了为什么 GROW 在实际训练中比 PPO 收敛得更快更稳。PPO 需要一个独立的价值模型来估计每一步的好坏,这个估计本身就有噪声。GROW 用组内相对比较绕过了价值估计——不需要猜"这一步有多好",只要比"这一步比其他步好多少"。
📊 数据:820 个任务,三类技能,全面碾压
MCU 基准包含了 820+ 个 Minecraft 任务,分三类:体化(挖矿)、GUI(合成/熔炼)、战斗(杀怪)。论文用 Qwen2-VL-7B 作为基座,先用 300 万条状态-动作样本做冷启动 SFT,再用 GROW 在 8 张 H200 上跑 5 天(240 轮迭代)。只在 8 个任务上做 RL 训练(2 个体化 + 4 个 GUI + 2 个战斗),其余全部属于未见任务。
结果三行:
体化任务:成功率从 50.4% → 59.6%(+9.2 百分点)。步骤数从 263 → 128(减少 51%)。此前最优是 Game-TARS,GROW 把它超了。最强的进步不在成功率——在效率。同样的任务,只用一半的步数。
GUI 任务:成功率从 39.1% → 68.4%(+29.3 百分点)。这是最大的一块飞跃。合成一把铁镐需要十几个精确的 GUI 操作——选材料、摆位置、点确认——一步错就全盘废。GROW 把这条路走通了近七成。此前没有任何 7B 模型做到过。
战斗任务:成功率从 39.2% → 49.0%(+9.8 百分点)。步骤数从 248 → 172(减少 31%)。打怪是最难的——目标是活的,会动,会还手。你需要一边追一边调视角一边按攻击键。GROW 把效率拉上去了,但成功率仍然不过半——动态对抗环境里,7B 模型的极限还在那儿。
🔄 泛化:只训了 8 个任务,学会了 800 个
这才是论文里最让人停下来的数字。
GROW 的 RL 训练只在 8 个任务上运行。但评测是在全部 820+ 个任务上做的。
在 RL 未见的任务上:
- 体化:41.9% → 59.2%(+17.3 百分点)
- GUI:21.3% → 68.2%(+46.9 百分点)
- 战斗:19.8% → 47.5%(+27.7 百分点)
这什么意思?
这意味着 GROW 没有在"背任务"。如果模型只是记住了"挖闪长岩要按 W 走三步然后点鼠标",那它换到"挖白桦木"就会崩。但它没崩——它学到的不是具体的按键序列,而是可迁移的交互技能:走到目标前、持续对齐准星、按正确的工具、直到任务完成。
GUI 的泛化最惊人:从未见过的合成任务上从 21% 跳到 68%。模型学会了"看懂合成表"这件事——不管你要合成什么,它知道该先看哪里、再点哪里、最后确认。
我们平时说"泛化",经常说的是测试集高了一两个点。GROW 的泛化是翻了近三倍。
🔍 三个诊断实验:看模型到底学会了什么
论文做了三个精心设计的诊断任务,每个只测一种技能。
挖黑曜石——测持续对准。 黑曜石是 Minecraft 里最硬的矿。用铁镐挖一块需要十几秒的持续瞄准——准星偏了就得重来。JARVIS-VLA 和初始策略在这个任务上成功率是零。GROW:63.3%。
为什么?因为 GROW 的状态-动作分解给"维持正确动作"的每一步都赋予了正奖励。模型不是"知道怎么挖",而是"学会了不松手"。
杀女巫——测主动重捕获。 女巫开局不在视野里。Agent 必须先转头找、找到后追、追丢后再找。这是一个完整的"搜索-锁定-追击-重捕获"循环。两个基线全部失败。GROW:50%。
GROW 学到的不只是攻击——它学会了"丢了目标怎么办"。这是从状态-动作级别的奖励传播里自然涌现的行为:那些包含搜索和重捕获动作的轨迹更容易成功,对应的动作段就获得了更高的传播奖励。
做蛋糕——测抗干扰 GUI 操作。 合成界面里有一堆不相干的物品——蛋糕的原料和一百种你不想要的东西混在一起。初始策略成功率 2%,JARVIS-VLA 40%,GROW 50%。
论文把这归因于折扣轨迹奖励——模型在训练中发现了更高效的执行路径,学会了聚焦于真正跟任务相关的界面元素,而不被视觉干扰带跑。
三个实验合在一起,画出了一个清晰的画像:GROW 不是让模型"知道更多",是让它"做得更稳"——持续对准、失而复得、抗干扰。这些不是知识,是行为。
⚖️ 和 PPO 比:更快、更稳、更高
PPO 是 RL 领域的老牌选手,GRPO 出现之前几乎所有 LLM 对齐都靠它。论文在同样的训练预算下跑了 PPO 和 GROW 的对比。
学习曲线说明了一切:GROW 在大部分任务上比 PPO 收敛得更早、最终成功率更高。PPO 经常在低成功率上长时间平台不动——它在等待价值模型学会估计"什么是好",但这个估计在多步交互任务里极不稳定。GROW 靠组内比较绕过了这一步。
三个任务类别上 GROW vs PPO 的最终成功率:
- 体化:59.6% vs 58.2%(GROW 高,且步骤少 49 步)
- GUI:68.4% vs 43.9%(GROW 高出 24.5 个百分点——这一条几乎单独构成了论文的核心贡献)
- 战斗:49.0% vs 45.4%(GROW 高,步骤相近)
GUI 是 GROW 甩开 PPO 最多的领域。这合理——GUI 任务的每一步依赖精确的视觉识别和位置操作,轨迹里的噪声比体化任务更高。GROW 的状态-动作分解在这种高噪声、长轨迹、多步依赖的场景里优势最大。
❓ 诚实的部分
没有记忆模块。 GROW 的 Agent 只能做"原子任务"——挖一块矿、合成一把镐、杀一只怪。它不知道"先挖矿再合成再杀怪"是一个整体计划。论文明确说了这是限制,未来工作会加上历史摘要。
只有 Minecraft。 是否能在其他开放世界环境中复现——论文在附录里做了一个模拟语言桌的小实验,但主体结论仍然是 Minecraft 专有的。跨环境泛化是未验证的承诺,不是已有结论。
训练很贵。 8 张 H200 跑 5 天——这不是个人研究者的预算。论文没有报告在更少 GPU 或更长训练时间下的表现。
稀疏奖励的局限。 GROW 的核心假设是"任务有明确的成功信号"——挖到石头=成功,没挖到=失败。对于那些"做得不够好但也不完全错"的灰色地带任务,这套框架能否工作,论文没有回答。
Qwen2-VL 专属。 所有实验基于同一个 7B 模型。换到其他 VLM(如 LLaVA、GPT-4V)上 GROW 是否依然有效——没有证据。
折扣因子的敏感性。 γ=0.9 时成功率全面崩塌(体化 42.0%、GUI 34.9%、战斗 45.1%),γ=0.95 略好但仍低于 γ=0.995。这说明 GROW 对折扣因子的选择相当敏感——调参需要经验。
🧠 退一步:为什么这件事值得想
这篇论文最根本的贡献,不在一堆 SOTA 数字上。
它解决了一个更深的矛盾:多轮交互的强化学习,信号怎么传?
轨迹层面的比较(标准 GRPO):信号太粗。一条三百步的轨迹成功了——到底是哪一步起了作用?
步骤层面的比较(标准 PPO):需要额外训练价值模型,价值模型本身就有估计误差。
GROW 提供的是第三条路:用组内相对比较替代绝对价值估计,用状态-动作分解替代全轨迹优化。 两者结合,既不要价值模型,也不用赌整条轨迹。
这条思路的适用范围远不止 Minecraft。任何需要多轮交互的 VLM Agent 场景——手机操控、网页浏览、桌面自动化——都面临同样的"长轨迹、稀奖励"困境。GROW 的框架是可迁移的。
更让人挪不开视线的一个点是:GROW 在 GUI 任务上把 PPO 甩出了 24.5 个百分点。为什么 GUI 而不是体化?因为 GUI 的每一步更"离散"——点对了就是对了,点错了就是错了——每一步的决策质量对最终结果的影响更大。在这种场景里,步骤级的精炼比对轨迹级的粗调重要得多。
这反过来验证了 GROW 的核心设计判断:细化比较粒度,在高精度、多步骤的任务中,是比堆更多轨迹更有用的策略。
📚 参考文献
-
Wu, X., Luo, Z., Lei, S., Zhang, L., Wang, X., Yang, J., Zheng, Z., Zheng, Y., Tan, X., & Liu, W. (2026). GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents. arXiv:2605.20246.
-
Baker, B., et al. (2022). Video Pretraining (VPT): Learning to Act by Watching Unlabeled Online Videos. NeurIPS 2022.
-
Li, M., et al. (2025). JARVIS-VLA: Post-training Large-scale Vision Language Models to Play Visual Games with Keyboards and Mouse. ACL 2025 Findings.
-
Cai, S., et al. (2025). ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting. CVPR 2025.
-
Sheng, G., et al. (2024). HybridFlow: A Flexible and Efficient RLHF Framework. arXiv:2409.19256.
#GROW #MinecraftAI #GRPO #RLforVLMs #VLMagent #OpenWorldAgent #ShanghaiJiaoTong #上海AI实验室 #智柴前沿实验室🎙️🎮
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。