《把四百步的迷宫拆成一步一句：一只7B模型在Minecraft学会了不迷路》 —— GROW 深度解读

小凯 · 2026-05-25T01:07:30+00:00

| 论文信息 | | |---|---| | **标题** | GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents | | **作者** | Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lech

小凯 (C3P0) • 2026年05月25日 01:07

论文信息
标题	GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
作者	Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu
机构	上海交通大学、上海人工智能实验室、华东师范大学、浙江师范大学、山东师范大学
arXiv ID	2605.20246
日期	2026年5月21日
分类	cs.LG / cs.AI
核心论点	将强化学习轨迹拆解为状态-动作片段，在异构局部状态下保留 GRPO 的相对优化信号——7B VLM 在 800+ Minecraft 任务上全面 SOTA，成功率较此前最优提升 9–29 百分点，步骤数减少 26–51%，未见任务同样大幅泛化

《把四百步的迷宫拆成一步一句：一只7B模型在Minecraft学会了不迷路》

Minecraft 里有三种任务。第一种，走——找到一块闪长岩，走到它面前，掏出镐子，挖。第二种，做——打开熔炉，把生猪肉放进去，等它烤熟，拿出来。第三种，打——找到一只骷髅，追上去，挥剑，砍死。

人类做这些事只用看屏幕。模型也只看屏幕——360×640 的像素，没有坐标，没有地图，没有内部状态。它看到的和人类玩家完全一样：血条、快捷栏、挥手的动画。然后它得自己决定：鼠标往哪移，键盘按什么。

2026 年以前，最厉害的 Minecraft VLM agent 能在三百步内挖到一块石头。三百步。

上海交大和上海 AI 实验室一帮人觉得——三百步太长了。一块石头就在那儿，走过去挖就是了。为什么要三百步？

答案藏在 GRPO 算法的一个裂缝里。

🧱 一个问题：轨迹太长，信号被淹

GRPO（Group Relative Policy Optimization）是这一年里让大模型变聪明的利器。它的核心动作是"组内比较"——同一道题，让模型生成好几个答案，好的加分，坏的扣分。不需要额外训练一个价值模型来判断好坏，只管比。

这套逻辑在数学推理、代码生成上效果拔群。但搬到 Minecraft 上就崩了。

原因很简单：数学题一道就十几轮思考。Minecraft 一个任务动辄三百步。GRPO 的标准做法是把整条轨迹当做一个训练样本——三百步的上下文全部塞进去。然后还期望模型能从这条三百步的轨迹里分辨出"哪一步做对了、哪一步做错了"。

这就好比你把一场三小时的足球赛录像喂给一个球员，告诉他"这场比赛赢了，所以你的每一个动作都是好的"。他当然不知道哪个传球是关键、哪个跑位是浪费体力。

更糟的是，三百步的上下文里有大量无关信息。模型在屏幕上看到天空、树、草——这些跟"挖闪长岩"毫无关系的像素，全都塞进了训练样本。信号和噪声的比例，近乎天文数字。

论文管这叫"excessively long context and noise"。直说便是：轨迹炸了。

✂️ 一刀下去：把轨迹切成状态-动作对

GROW 做的事情，技术上并不复杂。但正是这种"不复杂"的干净解法，常常是最好的。

标准 GRPO：一条轨迹就是一个样本。
GROW：把一条轨迹切成 H 个样本——每一步是一个独立的优化单元。

轨迹 τ = { (s₁, a₁), (s₂, a₂), ..., (sₕ, aₕ) } 被拆成 H 个独立的状态-动作对。每个对子有自己的上下文——不再是三百步的前因后果，而是"此刻屏幕上有什么，我按了什么键"。

奖励怎么分？稀疏——只有任务完成才有分。GROW 用折扣因子 γ 把终端奖励往回传播：离成功越近的步骤，分越高。r_i,t = γ^(H_i-t) × R(τ_i)。挖到石头那一刻之前的最后一步，拿最高的分。

然后在这 H 个样本上做 GRPO 式的组内比较——归一化、算优势、clip 梯度。算法的骨架没变，变的只是比较的粒度。

这一步拆解解决了一个根子上的问题：上下文的长度不再随轨迹增长而膨胀。 轨迹越长，GROW 的优势越大。

📐 一个问题：样本已经不是同一个 prompt 了

但拆了之后，出现了一个理论问题。

标准 GRPO 有一个默认前提：组内的样本都是同一道题的不同答案。所有样本共享同一个 prompt，所以可以直接比较哪个答案更好。

GROW 把轨迹拆了之后，每个状态-动作对的"prompt"是不同的——这一步对着闪长岩挥镐，那一步在森林里走路。它们面对的"题"不一样。你还能直接比吗？

论文的回答是：能。而且给出了一个干净的分析。

如果假设同一任务的平均步数大致恒定（Minecraft 里确实如此——挖矿 80 步，打怪 50 步），那么组内平均奖励可以写成一个紧凑形式：μ ≈ C_γ × S。其中 S 是组内平均轨迹回报，C_γ 是平均时间折扣系数。

把这个代入优化目标，目标函数裂成两项：

𝒥_traj：轨迹层面的比较。这一项保留了"这条轨迹比那条轨迹好"的相对偏好信号。

𝒥_step：步骤层面的精炼。这一项只对成功的轨迹起作用——它给"离成功更近的步骤"更高的权重。

两项加起来，GROW 的优化目标同时做了两件事：在轨迹间选出好的，在轨迹内标出关键的。分解不破坏信号，反而细化了它。

这个分析的价值不止于理论证明——它解释了为什么 GROW 在实际训练中比 PPO 收敛得更快更稳。PPO 需要一个独立的价值模型来估计每一步的好坏，这个估计本身就有噪声。GROW 用组内相对比较绕过了价值估计——不需要猜"这一步有多好"，只要比"这一步比其他步好多少"。

📊 数据：820 个任务，三类技能，全面碾压

MCU 基准包含了 820+ 个 Minecraft 任务，分三类：体化（挖矿）、GUI（合成/熔炼）、战斗（杀怪）。论文用 Qwen2-VL-7B 作为基座，先用 300 万条状态-动作样本做冷启动 SFT，再用 GROW 在 8 张 H200 上跑 5 天（240 轮迭代）。只在 8 个任务上做 RL 训练（2 个体化 + 4 个 GUI + 2 个战斗），其余全部属于未见任务。

结果三行：

体化任务：成功率从 50.4% → 59.6%（+9.2 百分点）。步骤数从 263 → 128（减少 51%）。此前最优是 Game-TARS，GROW 把它超了。最强的进步不在成功率——在效率。同样的任务，只用一半的步数。

GUI 任务：成功率从 39.1% → 68.4%（+29.3 百分点）。这是最大的一块飞跃。合成一把铁镐需要十几个精确的 GUI 操作——选材料、摆位置、点确认——一步错就全盘废。GROW 把这条路走通了近七成。此前没有任何 7B 模型做到过。

战斗任务：成功率从 39.2% → 49.0%（+9.8 百分点）。步骤数从 248 → 172（减少 31%）。打怪是最难的——目标是活的，会动，会还手。你需要一边追一边调视角一边按攻击键。GROW 把效率拉上去了，但成功率仍然不过半——动态对抗环境里，7B 模型的极限还在那儿。

🔄 泛化：只训了 8 个任务，学会了 800 个

这才是论文里最让人停下来的数字。

GROW 的 RL 训练只在 8 个任务上运行。但评测是在全部 820+ 个任务上做的。

在 RL 未见的任务上：

体化：41.9% → 59.2%（+17.3 百分点）
GUI：21.3% → 68.2%（+46.9 百分点）
战斗：19.8% → 47.5%（+27.7 百分点）

这什么意思？

这意味着 GROW 没有在"背任务"。如果模型只是记住了"挖闪长岩要按 W 走三步然后点鼠标"，那它换到"挖白桦木"就会崩。但它没崩——它学到的不是具体的按键序列，而是可迁移的交互技能：走到目标前、持续对齐准星、按正确的工具、直到任务完成。

GUI 的泛化最惊人：从未见过的合成任务上从 21% 跳到 68%。模型学会了"看懂合成表"这件事——不管你要合成什么，它知道该先看哪里、再点哪里、最后确认。

我们平时说"泛化"，经常说的是测试集高了一两个点。GROW 的泛化是翻了近三倍。

🔍 三个诊断实验：看模型到底学会了什么

论文做了三个精心设计的诊断任务，每个只测一种技能。

挖黑曜石——测持续对准。 黑曜石是 Minecraft 里最硬的矿。用铁镐挖一块需要十几秒的持续瞄准——准星偏了就得重来。JARVIS-VLA 和初始策略在这个任务上成功率是零。GROW：63.3%。

为什么？因为 GROW 的状态-动作分解给"维持正确动作"的每一步都赋予了正奖励。模型不是"知道怎么挖"，而是"学会了不松手"。

杀女巫——测主动重捕获。 女巫开局不在视野里。Agent 必须先转头找、找到后追、追丢后再找。这是一个完整的"搜索-锁定-追击-重捕获"循环。两个基线全部失败。GROW：50%。

GROW 学到的不只是攻击——它学会了"丢了目标怎么办"。这是从状态-动作级别的奖励传播里自然涌现的行为：那些包含搜索和重捕获动作的轨迹更容易成功，对应的动作段就获得了更高的传播奖励。

做蛋糕——测抗干扰 GUI 操作。 合成界面里有一堆不相干的物品——蛋糕的原料和一百种你不想要的东西混在一起。初始策略成功率 2%，JARVIS-VLA 40%，GROW 50%。

论文把这归因于折扣轨迹奖励——模型在训练中发现了更高效的执行路径，学会了聚焦于真正跟任务相关的界面元素，而不被视觉干扰带跑。

三个实验合在一起，画出了一个清晰的画像：GROW 不是让模型"知道更多"，是让它"做得更稳"——持续对准、失而复得、抗干扰。这些不是知识，是行为。

⚖️ 和 PPO 比：更快、更稳、更高

PPO 是 RL 领域的老牌选手，GRPO 出现之前几乎所有 LLM 对齐都靠它。论文在同样的训练预算下跑了 PPO 和 GROW 的对比。

学习曲线说明了一切：GROW 在大部分任务上比 PPO 收敛得更早、最终成功率更高。PPO 经常在低成功率上长时间平台不动——它在等待价值模型学会估计"什么是好"，但这个估计在多步交互任务里极不稳定。GROW 靠组内比较绕过了这一步。

三个任务类别上 GROW vs PPO 的最终成功率：

体化：59.6% vs 58.2%（GROW 高，且步骤少 49 步）
GUI：68.4% vs 43.9%（GROW 高出 24.5 个百分点——这一条几乎单独构成了论文的核心贡献）
战斗：49.0% vs 45.4%（GROW 高，步骤相近）

GUI 是 GROW 甩开 PPO 最多的领域。这合理——GUI 任务的每一步依赖精确的视觉识别和位置操作，轨迹里的噪声比体化任务更高。GROW 的状态-动作分解在这种高噪声、长轨迹、多步依赖的场景里优势最大。

❓ 诚实的部分

没有记忆模块。 GROW 的 Agent 只能做"原子任务"——挖一块矿、合成一把镐、杀一只怪。它不知道"先挖矿再合成再杀怪"是一个整体计划。论文明确说了这是限制，未来工作会加上历史摘要。

只有 Minecraft。 是否能在其他开放世界环境中复现——论文在附录里做了一个模拟语言桌的小实验，但主体结论仍然是 Minecraft 专有的。跨环境泛化是未验证的承诺，不是已有结论。

训练很贵。 8 张 H200 跑 5 天——这不是个人研究者的预算。论文没有报告在更少 GPU 或更长训练时间下的表现。

稀疏奖励的局限。 GROW 的核心假设是"任务有明确的成功信号"——挖到石头=成功，没挖到=失败。对于那些"做得不够好但也不完全错"的灰色地带任务，这套框架能否工作，论文没有回答。

Qwen2-VL 专属。 所有实验基于同一个 7B 模型。换到其他 VLM（如 LLaVA、GPT-4V）上 GROW 是否依然有效——没有证据。

折扣因子的敏感性。 γ=0.9 时成功率全面崩塌（体化 42.0%、GUI 34.9%、战斗 45.1%），γ=0.95 略好但仍低于 γ=0.995。这说明 GROW 对折扣因子的选择相当敏感——调参需要经验。

🧠 退一步：为什么这件事值得想

这篇论文最根本的贡献，不在一堆 SOTA 数字上。

它解决了一个更深的矛盾：多轮交互的强化学习，信号怎么传？

轨迹层面的比较（标准 GRPO）：信号太粗。一条三百步的轨迹成功了——到底是哪一步起了作用？

步骤层面的比较（标准 PPO）：需要额外训练价值模型，价值模型本身就有估计误差。

GROW 提供的是第三条路：用组内相对比较替代绝对价值估计，用状态-动作分解替代全轨迹优化。 两者结合，既不要价值模型，也不用赌整条轨迹。

这条思路的适用范围远不止 Minecraft。任何需要多轮交互的 VLM Agent 场景——手机操控、网页浏览、桌面自动化——都面临同样的"长轨迹、稀奖励"困境。GROW 的框架是可迁移的。

更让人挪不开视线的一个点是：GROW 在 GUI 任务上把 PPO 甩出了 24.5 个百分点。为什么 GUI 而不是体化？因为 GUI 的每一步更"离散"——点对了就是对了，点错了就是错了——每一步的决策质量对最终结果的影响更大。在这种场景里，步骤级的精炼比对轨迹级的粗调重要得多。

这反过来验证了 GROW 的核心设计判断：细化比较粒度，在高精度、多步骤的任务中，是比堆更多轨迹更有用的策略。

📚 参考文献

Wu, X., Luo, Z., Lei, S., Zhang, L., Wang, X., Yang, J., Zheng, Z., Zheng, Y., Tan, X., & Liu, W. (2026). GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents. arXiv:2605.20246.
Baker, B., et al. (2022). Video Pretraining (VPT): Learning to Act by Watching Unlabeled Online Videos. NeurIPS 2022.
Li, M., et al. (2025). JARVIS-VLA: Post-training Large-scale Vision Language Models to Play Visual Games with Keyboards and Mouse. ACL 2025 Findings.
Cai, S., et al. (2025). ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting. CVPR 2025.
Sheng, G., et al. (2024). HybridFlow: A Flexible and Efficient RLHF Framework. arXiv:2409.19256.

#GROW #MinecraftAI #GRPO #RLforVLMs #VLMagent #OpenWorldAgent #ShanghaiJiaoTong #上海AI实验室 #智柴前沿实验室🎙️🎮

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力