2025 年,两个团队各自教 AI 玩 Super Mario Land。
团队 A 的做法:找来 1000 小时人类玩家的录像,用 SFT 微调一个 VLM。模型学会了模仿人类——看到敌人就跳,看到金币就吃。看起来很聪明。
团队 B 的做法:用同样的 VLM,但不做 SFT。直接让它自己玩游戏,死了扣分,通关加分。中间加了一个 lightweight critic 在每个回合告诉它"离通关还有多远"。
三个月后,团队 B 的模型平均游戏进度是团队 A 的 **3 倍**。
Shi, Li, Liang, Lu, Yang, Feng, Karten, Yang, Ding, Sarch, Chen, Narasimhan 和 Jin 在 2026 年 5 月 1 日提交的论文(arXiv:2605.00347)揭示了一个被忽视的真相:**教 AI 玩游戏,SFT 是教练,RL 才是发动机。**
---
我们都被同一个谎言骗了。从 DALL-E 到 GPT-4V,我们被训练成一个条件反射:VLM 够强了,微调一下就能做任何事。做 agent?SFT 人类轨迹。做游戏?SFT 人类录像。做机器人?SFT 人类演示。
但 Super Mario Land 不是图像描述任务。它需要 **100+ 回合的连续决策**——每一步都要考虑之前发生了什么、未来可能发生什么。看到敌人跳,只是反应;知道什么时候该冒险走隐藏通道,才是智慧。
SFT 只能教反应,教不了智慧。因为人类玩家的水平就是天花板。
---
让我用一个具体画面来解释。
想象你在教两个人从纽约开车到洛杉矶。
**第一个人(SFT)** 🗺️:你给他一张人类司机录制的行车记录。他跟着录像学——看到红灯停,看到绿灯走,看到限速牌减速。但他永远不会找到比人类司机更快的路线,因为他只是在模仿。
**第二个人(RL)** 🚗:你给他一辆车,告诉他"到洛杉矶越快越好"。他自己摸索。但问题是他开了 1000 英里后才发现走错了路——他怎么知道是在哪个路口错的?
这就是长程决策的核心难题:**credit assignment**。第 100 回合的死亡,是因为第 5 回合的错误决策,还是第 50 回合的,还是第 99 回合的?
```
┌─────────────────────────────────────────────────────────────┐
│ 长程决策的 Credit Assignment 难题 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 回合 5 回合 30 回合 60 回合 90 回合 100 │
│ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ │
│ [跳] [走隐藏] [吃金币] [踩敌人] [死亡] │
│ │
│ "哪个动作导致了死亡?" │
│ │
│ SFT: 不知道,人类没死在这里 │
│ GRPO: 等 100 回合后统一算,信号太稀疏 │
│ PPO + turn-level critic: 每回合都有预言家告诉你价值 │
│ │
└─────────────────────────────────────────────────────────────┘
```
论文的解决方案是 **turn-level critic**——一个轻量级的"预言家"。它在每个回合告诉 agent:"根据当前画面,你预计最终能得多少分。"
> **Annotation: Critic 与 Credit Assignment**
>
> 在 RL 中,agent 的目标是最大化累积奖励 $R = \sum_{t=1}^{T} \gamma^{t-1} r_t$。问题是奖励 $r_t$ 通常是稀疏的——很多回合 $r_t = 0$,只在关键事件(通关、死亡)时才有非零值。
>
> Critic 是一个价值函数 $V(s_t)$,估计从当前状态 $s_t$ 出发的期望累积回报:
> $$V(s_t) = \mathbb{E}\left[\sum_{k=t}^{T} \gamma^{k-t} r_k \Big| s_t\right]$$
>
> Turn-level critic 简化了这个估计——它不预测整个未来的精确回报,而是给出一个回合级别的价值信号。这让梯度更新更稳定:如果 $V(s_t)$ 预测很高但实际回报很低,说明第 $t$ 回合的动作有问题,惩罚可以精确分配。
如果预言家说"你还能得 1000 分",但 agent 最终只得了 100 分——那说明中间某个动作搞砸了。惩罚可以精确分配到具体的回合,而不是等 100 回合后才给一个笼统的"你死了"。
论文发现,PPO + turn-level critic 比 critic-free 方法(GRPO、Reinforce++)在 100+ 回合的设置下**稳定得多**。
> **Annotation: PPO vs GRPO 在长程任务上的差异**
>
> PPO(Proximal Policy Optimization)使用 clipped surrogate objective:
> $$L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A(s,a), \text{clip}(\cdot, 1-\epsilon, 1+\epsilon) A(s,a)\right)\right]$$
> 其中 $A(s,a) = Q(s,a) - V(s)$ 是优势函数,需要 critic 提供 $V(s)$。
>
> GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 使用的变体,它**不用 critic**,而是用同一问题的多个采样输出的相对奖励来估计优势。这在短程任务(20-30 回合)上有效,但在 100+ 回合时,组内方差太大,信号被噪声淹没。Turn-level critic 提供了稳定的基线,让 PPO 在长程设置下仍然收敛。
---
但 RL alone 不够。从头训练的 RL agent 需要数百万次尝试才能发现"按右键可以让 Mario 前进"这种基本常识。
这就是预训练 VLM 的 secret weapon 所在。🔮
预训练 VLM(如 Qwen2.5-VL)already know:
- 画面中哪个是 Mario
- 敌人从左边来应该跳
- 金币是加分项
- 掉坑里会死
它提供的不是最终策略,而是**action prior**——它已经知道哪些动作是合理的。RL 不需要从"按 A 键是什么意思"开始探索,只需要在 VLM 认为合理的动作中选择最优的。
这就像让一个已经会开车的人去学赛车——他不需要重新学怎么握方向盘,只需要学怎么过弯最快。
> **Annotation: Action Prior 的数学含义**
>
> 预训练 VLM 提供了一个动作分布 $p_{\text{VLM}}(a|s)$——给定游戏画面 $s$,它输出每个动作的概率。这个分布是有偏的:合理的动作(如"向右走")概率高,不合理的动作(如"站着不动等死")概率低。
>
> RL 在这个分布上优化:
> $$\pi_{\text{RL}}(a|s) \propto p_{\text{VLM}}(a|s) \cdot \exp(Q(s,a))$$
> 其中 $Q(s,a)$ 是 RL 学到的动作价值。VLM 提供了先验,RL 负责优化。这显著提高了样本效率——agent 不需要探索整个动作空间,只需要在 VLM 认为合理的子空间中搜索。
"但 RL 不稳定啊?GRPO 在长程任务上不是经常发散吗?"
这是事实。论文发现,标准的 critic-free 方法(GRPO、Reinforce++)在 100+ 回合的设置下确实不稳定。但 PPO + turn-level critic 解决了这个问题——critic 提供了稳定的价值信号,让梯度更新不再像无头苍蝇。
而且,Odysseus 框架的模型在 in-game 泛化(同一游戏的不同关卡)和 cross-game 泛化(不同游戏)上都有 consistent improvement。同时保持通用域能力——它没有变成一个"只会玩游戏的傻子"。
---
这就是最让我不安的地方。
整个 VLM agent 行业正在做一件可能是错误的事情:**花数百万美元标注人类轨迹数据,然后用 SFT 微调模型。**
这些数据标注的成本——雇佣人类玩家、录制轨迹、清洗数据、过滤低质量样本——可能是 RL 训练成本的十倍。而且结果永远超不过人类。
如果你的 agent pipeline 是 SFT-first,你可能正在用黄金的价格买铜矿。💰⛏️
Odysseus 没有说 SFT 完全没用。它说的是:**SFT 是起点,RL 是终点。**
预训练 VLM 提供了常识和视觉理解。SFT 可以快速让模型上手。但如果想要超越人类水平的长程决策能力,RL 是不可避免的。
而那些已经投入数千万美元做 SFT 数据标注的公司,可能需要重新考虑一下:这些钱如果花在 RL 基础设施和 critic 设计上,会不会产出更好的 agent?
从反应到智慧,从模仿到超越,这条路很长。但至少现在我们知道,100+ 回合不是不可逾越的鸿沟。🏁
---
## 📚 论文详细信息
| 项目 | 内容 |
|:-----|:-----|
| **标题** | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning |
| **作者** | Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin |
| **arXiv ID** | [2605.00347](https://arxiv.org/abs/2605.00347) |
| **发布日期** | 2026年5月1日 |
| **类别** | cs.LG (Machine Learning) |
| **核心方法** | PPO + lightweight turn-level critic,预训练 VLM 作为 action prior |
| **实验环境** | Super Mario Land(100+ 回合视觉决策) |
| **核心发现** | 至少 3 倍平均游戏进度;in-game 和 cross-game 泛化;保持通用域能力 |
| **对比方法** | GRPO、Reinforce++(critic-free,长程不稳定) |
**概念注释索引**
| 概念 | 位置 | 说明 |
|:-----|:-----|:-----|
| Credit Assignment | 开篇 | 长程任务中确定哪个动作对最终结果负责的核心难题 |
| Turn-level Critic | 核心方案 | 每回合提供价值预测的轻量级预言家 |
| PPO | 方法对比 | Proximal Policy Optimization,使用 clipped objective 和 critic |
| GRPO | 方法对比 | Group Relative Policy Optimization,无 critic,用组内相对奖励 |
| Action Prior | 核心发现 | 预训练 VLM 提供的合理动作先验分布 |
| In-game 泛化 | 实验验证 | 同一游戏不同关卡上的能力迁移 |
| Cross-game 泛化 | 实验验证 | 不同游戏之间的能力迁移 |
| 优势函数 $A(s,a)$ | Annotation 2 | $Q(s,a) - V(s)$,衡量动作相对于平均水平的优劣 |
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力