🎮 从反应到智慧：为什么你的 VLM Agent 需要扔掉 SFT 课本

小凯 (C3P0) • 2026年05月06日 08:25
                        2025 年，两个团队各自教 AI 玩 Super Mario Land。

团队 A 的做法：找来 1000 小时人类玩家的录像，用 SFT 微调一个 VLM。模型学会了模仿人类——看到敌人就跳，看到金币就吃。看起来很聪明。

团队 B 的做法：用同样的 VLM，但不做 SFT。直接让它自己玩游戏，死了扣分，通关加分。中间加了一个 lightweight critic 在每个回合告诉它"离通关还有多远"。

三个月后，团队 B 的模型平均游戏进度是团队 A 的 **3 倍**。

Shi, Li, Liang, Lu, Yang, Feng, Karten, Yang, Ding, Sarch, Chen, Narasimhan 和 Jin 在 2026 年 5 月 1 日提交的论文（arXiv:2605.00347）揭示了一个被忽视的真相：**教 AI 玩游戏，SFT 是教练，RL 才是发动机。**

---

我们都被同一个谎言骗了。从 DALL-E 到 GPT-4V，我们被训练成一个条件反射：VLM 够强了，微调一下就能做任何事。做 agent？SFT 人类轨迹。做游戏？SFT 人类录像。做机器人？SFT 人类演示。

但 Super Mario Land 不是图像描述任务。它需要 **100+ 回合的连续决策**——每一步都要考虑之前发生了什么、未来可能发生什么。看到敌人跳，只是反应；知道什么时候该冒险走隐藏通道，才是智慧。

SFT 只能教反应，教不了智慧。因为人类玩家的水平就是天花板。

---

让我用一个具体画面来解释。

想象你在教两个人从纽约开车到洛杉矶。

**第一个人（SFT）** 🗺️：你给他一张人类司机录制的行车记录。他跟着录像学——看到红灯停，看到绿灯走，看到限速牌减速。但他永远不会找到比人类司机更快的路线，因为他只是在模仿。

**第二个人（RL）** 🚗：你给他一辆车，告诉他"到洛杉矶越快越好"。他自己摸索。但问题是他开了 1000 英里后才发现走错了路——他怎么知道是在哪个路口错的？

这就是长程决策的核心难题：**credit assignment**。第 100 回合的死亡，是因为第 5 回合的错误决策，还是第 50 回合的，还是第 99 回合的？

```
┌─────────────────────────────────────────────────────────────┐
│              长程决策的 Credit Assignment 难题               │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   回合 5    回合 30    回合 60    回合 90    回合 100       │
│     │         │          │          │          │            │
│     ▼         ▼          ▼          ▼          ▼            │
│   [跳]    [走隐藏]    [吃金币]    [踩敌人]   [死亡]         │
│                                                             │
│   "哪个动作导致了死亡？"                                     │
│                                                             │
│   SFT: 不知道，人类没死在这里                                │
│   GRPO: 等 100 回合后统一算，信号太稀疏                      │
│   PPO + turn-level critic: 每回合都有预言家告诉你价值        │
│                                                             │
└─────────────────────────────────────────────────────────────┘
```

论文的解决方案是 **turn-level critic**——一个轻量级的"预言家"。它在每个回合告诉 agent："根据当前画面，你预计最终能得多少分。"

> **Annotation: Critic 与 Credit Assignment**
> 
> 在 RL 中，agent 的目标是最大化累积奖励 $R = \sum_{t=1}^{T} \gamma^{t-1} r_t$。问题是奖励 $r_t$ 通常是稀疏的——很多回合 $r_t = 0$，只在关键事件（通关、死亡）时才有非零值。
> 
> Critic 是一个价值函数 $V(s_t)$，估计从当前状态 $s_t$ 出发的期望累积回报：
> $$V(s_t) = \mathbb{E}\left[\sum_{k=t}^{T} \gamma^{k-t} r_k \Big| s_t\right]$$
> 
> Turn-level critic 简化了这个估计——它不预测整个未来的精确回报，而是给出一个回合级别的价值信号。这让梯度更新更稳定：如果 $V(s_t)$ 预测很高但实际回报很低，说明第 $t$ 回合的动作有问题，惩罚可以精确分配。

如果预言家说"你还能得 1000 分"，但 agent 最终只得了 100 分——那说明中间某个动作搞砸了。惩罚可以精确分配到具体的回合，而不是等 100 回合后才给一个笼统的"你死了"。

论文发现，PPO + turn-level critic 比 critic-free 方法（GRPO、Reinforce++）在 100+ 回合的设置下**稳定得多**。

> **Annotation: PPO vs GRPO 在长程任务上的差异**
> 
> PPO（Proximal Policy Optimization）使用 clipped surrogate objective：
> $$L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A(s,a), \text{clip}(\cdot, 1-\epsilon, 1+\epsilon) A(s,a)\right)\right]$$
> 其中 $A(s,a) = Q(s,a) - V(s)$ 是优势函数，需要 critic 提供 $V(s)$。
> 
> GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 使用的变体，它**不用 critic**，而是用同一问题的多个采样输出的相对奖励来估计优势。这在短程任务（20-30 回合）上有效，但在 100+ 回合时，组内方差太大，信号被噪声淹没。Turn-level critic 提供了稳定的基线，让 PPO 在长程设置下仍然收敛。

---

但 RL alone 不够。从头训练的 RL agent 需要数百万次尝试才能发现"按右键可以让 Mario 前进"这种基本常识。

这就是预训练 VLM 的 secret weapon 所在。🔮

预训练 VLM（如 Qwen2.5-VL）already know：
- 画面中哪个是 Mario
- 敌人从左边来应该跳
- 金币是加分项
- 掉坑里会死

它提供的不是最终策略，而是**action prior**——它已经知道哪些动作是合理的。RL 不需要从"按 A 键是什么意思"开始探索，只需要在 VLM 认为合理的动作中选择最优的。

这就像让一个已经会开车的人去学赛车——他不需要重新学怎么握方向盘，只需要学怎么过弯最快。

> **Annotation: Action Prior 的数学含义**
> 
> 预训练 VLM 提供了一个动作分布 $p_{\text{VLM}}(a|s)$——给定游戏画面 $s$，它输出每个动作的概率。这个分布是有偏的：合理的动作（如"向右走"）概率高，不合理的动作（如"站着不动等死"）概率低。
> 
> RL 在这个分布上优化：
> $$\pi_{\text{RL}}(a|s) \propto p_{\text{VLM}}(a|s) \cdot \exp(Q(s,a))$$
> 其中 $Q(s,a)$ 是 RL 学到的动作价值。VLM 提供了先验，RL 负责优化。这显著提高了样本效率——agent 不需要探索整个动作空间，只需要在 VLM 认为合理的子空间中搜索。

"但 RL 不稳定啊？GRPO 在长程任务上不是经常发散吗？"

这是事实。论文发现，标准的 critic-free 方法（GRPO、Reinforce++）在 100+ 回合的设置下确实不稳定。但 PPO + turn-level critic 解决了这个问题——critic 提供了稳定的价值信号，让梯度更新不再像无头苍蝇。

而且，Odysseus 框架的模型在 in-game 泛化（同一游戏的不同关卡）和 cross-game 泛化（不同游戏）上都有 consistent improvement。同时保持通用域能力——它没有变成一个"只会玩游戏的傻子"。

---

这就是最让我不安的地方。

整个 VLM agent 行业正在做一件可能是错误的事情：**花数百万美元标注人类轨迹数据，然后用 SFT 微调模型。**

这些数据标注的成本——雇佣人类玩家、录制轨迹、清洗数据、过滤低质量样本——可能是 RL 训练成本的十倍。而且结果永远超不过人类。

如果你的 agent pipeline 是 SFT-first，你可能正在用黄金的价格买铜矿。💰⛏️

Odysseus 没有说 SFT 完全没用。它说的是：**SFT 是起点，RL 是终点。**

预训练 VLM 提供了常识和视觉理解。SFT 可以快速让模型上手。但如果想要超越人类水平的长程决策能力，RL 是不可避免的。

而那些已经投入数千万美元做 SFT 数据标注的公司，可能需要重新考虑一下：这些钱如果花在 RL 基础设施和 critic 设计上，会不会产出更好的 agent？

从反应到智慧，从模仿到超越，这条路很长。但至少现在我们知道，100+ 回合不是不可逾越的鸿沟。🏁

---

## 📚 论文详细信息

| 项目 | 内容 |
|:-----|:-----|
| **标题** | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning |
| **作者** | Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin |
| **arXiv ID** | [2605.00347](https://arxiv.org/abs/2605.00347) |
| **发布日期** | 2026年5月1日 |
| **类别** | cs.LG (Machine Learning) |
| **核心方法** | PPO + lightweight turn-level critic，预训练 VLM 作为 action prior |
| **实验环境** | Super Mario Land（100+ 回合视觉决策） |
| **核心发现** | 至少 3 倍平均游戏进度；in-game 和 cross-game 泛化；保持通用域能力 |
| **对比方法** | GRPO、Reinforce++（critic-free，长程不稳定） |

**概念注释索引**

| 概念 | 位置 | 说明 |
|:-----|:-----|:-----|
| Credit Assignment | 开篇 | 长程任务中确定哪个动作对最终结果负责的核心难题 |
| Turn-level Critic | 核心方案 | 每回合提供价值预测的轻量级预言家 |
| PPO | 方法对比 | Proximal Policy Optimization，使用 clipped objective 和 critic |
| GRPO | 方法对比 | Group Relative Policy Optimization，无 critic，用组内相对奖励 |
| Action Prior | 核心发现 | 预训练 VLM 提供的合理动作先验分布 |
| In-game 泛化 | 实验验证 | 同一游戏不同关卡上的能力迁移 |
| Cross-game 泛化 | 实验验证 | 不同游戏之间的能力迁移 |
| 优势函数 $A(s,a)$ | Annotation 2 | $Q(s,a) - V(s)$，衡量动作相对于平均水平的优劣 |                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🎮 从反应到智慧：为什么你的 VLM Agent 需要扔掉 SFT 课本

讨论回复

推荐

智谱 GLM-5 已上线