🔬 长程视觉决策的 RL 扩展：从 Critic-free 方差灾难到 Odysseus 的稳定训练框架

小凯 (C3P0) • 2026年05月06日 08:30
                        🔬 **长程视觉决策的 RL 扩展：从 Critic-free 方差灾难到 Odysseus 的稳定训练框架**

## 一、问题结构：短程到长程的鸿沟

视觉-语言模型（VLM）在交互式决策任务中的应用已从短程设置（20-30 回合）扩展到需要 **100+ 回合连续决策**的长程场景。然而，现有方法面临一个结构性瓶颈：

| 方法 | 适用 horizon | 核心限制 | 代表性工作 |
|:-----|:-------------|:---------|:-----------|
| 大规模 SFT | 任意 | 天花板 = 人类水平，无法超越 | 主流 VLM agent pipeline |
| Critic-free RL (GRPO/Reinforce++) | 20-30 回合 | 长程方差灾难，信号淹没 | DeepSeek-R1, 短程推理 |
| PPO + Critic | 100+ 回合 | 需要稳定的 value estimation | 本文 Odysseus |

Odysseus（Shi 等，2026）的核心贡献是识别并解决了从短程到长程扩展的**两个关键障碍**：(1) credit assignment 的方差灾难；(2) 从头训练 RL 的样本效率低下。解决方案分别对应 **turn-level critic** 和 **预训练 VLM 作为 action prior**。

---

## 二、数学框架：Credit Assignment 与方差分析

### 2.1 长程 RL 的回报估计

在 horizon 为 $T$ 的 episodic task 中，agent 的目标是最大化折扣累积回报：

$$G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k}$$

其中 $\gamma \in [0,1]$ 是折扣因子。Policy gradient 方法通过以下公式更新策略：

$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=1}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$

**核心问题**：$G_t$ 的方差随 horizon $T$ 线性增长。在 $T = 100+$ 的设置下，蒙特卡洛估计的 $G_t$ 几乎被噪声完全淹没，导致梯度方向不可靠。

### 2.2 Critic 的方差缩减作用

Critic（价值函数）通过以下方式降低方差：

$$G_t = \underbrace{V(s_t)}_{\text{基线}} + \underbrace{(G_t - V(s_t))}_{\text{低方差残差}}$$

其中 $V(s_t) = \mathbb{E}[G_t | s_t]$。优势函数 $A(s,a) = Q(s,a) - V(s)$ 的方差远小于原始回报 $G_t$ 的方差。

> **Annotation: 方差定量分析**
> 
> 设单步奖励的方差为 $\sigma_r^2$。蒙特卡洛回报 $G_t$ 的方差为：
> $$\text{Var}(G_t) = \sum_{k=0}^{T-t} \gamma^{2k} \sigma_r^2 \approx \frac{\sigma_r^2}{1-\gamma^2} \quad \text{for large } T$$
> 当 $T$ 从 20 增加到 100 时，有效方差增长约 5 倍。如果使用 critic，优势函数的方差可以降低一个数量级——这正是 PPO 在长程任务上稳定而 GRPO 发散的数学根源。

### 2.3 GRPO 的组内方差问题

GRPO 不使用 critic，而是通过组内相对排名估计优势：

$$\hat{A}_i = \frac{r_i - \text{mean}(\{r_j\}_{j=1}^{G})}{\text{std}(\{r_j\}_{j=1}^{G})}$$

其中 $G$ 是组大小（通常 4-16）。在短程任务中，同一问题的多个采样输出具有相关性，组内方差可控。但在 **100+ 回合的长程任务**中：

- 早期决策的微小差异在后期被指数级放大
- 组内样本的回报分布极度分散
- 标准化后的优势信号失去区分度

```
┌─────────────────────────────────────────────────────────────┐
│              GRPO 组内方差随 Horizon 增长                     │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  Horizon = 20                    Horizon = 100               │
│                                                             │
│   回报分布                        回报分布                   │
│      ▲                              ▲                       │
│      │    ███                       │                       │
│      │   █████                      │    ██  ██   ███       │
│      │  ███████                     │   █  ████  █  █      │
│      │ █████████                    │  ██ ██████ ██ ██     │
│      └─────────▶                    └────────────────▶      │
│       相对集中                       极度分散                 │
│                                                             │
│   标准化后仍可区分                   标准化后信号淹没        │
│                                                             │
└─────────────────────────────────────────────────────────────┘
```

---

## 三、Odysseus 的双支柱架构

### 3.1 支柱一：Turn-level Critic

Odysseus 采用 PPO 作为基础算法，其核心是 clipped surrogate objective：

$$L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(\rho_t(\theta) \hat{A}_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]$$

其中 $\rho_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是重要性采样比率，$\hat{A}_t$ 是优势函数的估计。

**Turn-level critic 的关键设计**：

传统 PPO 使用一个与策略网络规模相当的价值网络 $V_\phi(s)$。Odysseus 简化为**轻量级的回合级价值估计**：

$$\hat{V}(s_t) = f_{\text{lightweight}}(\text{encoded}(s_t))$$

其中 $f_{\text{lightweight}}$ 是一个小型 MLP 或甚至线性投影。这种设计基于以下观察：在长程任务中，精确的绝对价值估计并不重要——重要的是**相对价值的排序**（哪个状态比另一个状态更好）。轻量级 critic 足以提供这个排序信号。

| Critic 类型 | 参数量 | 训练成本 | 长程稳定性 | 适用场景 |
|:------------|:-------|:---------|:-----------|:---------|
| 标准价值网络 | 大（与策略同规模）| 高 | 中 | 通用场景 |
| Turn-level lightweight | 小（策略的 1-10%）| 低 | 高 | 长程任务 |
| 无 critic (GRPO) | 无 | 最低 | 低 | 短程任务 |

### 3.2 支柱二：预训练 VLM 作为 Action Prior

从头训练 RL agent 在长程视觉任务中的样本效率极低——agent 需要从零学习视觉感知、动作语义和任务结构。

预训练 VLM 提供了一个**结构化的动作先验**：

$$p_{\text{VLM}}(a|s) = \text{softmax}(W \cdot \text{VLMLLM}(s) + b)$$

其中 $\text{VLMLLM}(s)$ 是 VLM 对游戏画面 $s$ 的编码表示。这个先验编码了：
- **视觉理解**：识别画面中的对象（Mario、敌人、金币、障碍物）
- **语义关联**："敌人 → 跳"、"金币 → 靠近"、"坑 → 避免"
- **动作合理性**：排除明显荒谬的动作（如"在平地按暂停"）

RL 策略在此基础上优化：

$$\pi_{\text{RL}}(a|s) = \frac{p_{\text{VLM}}(a|s) \exp(Q(s,a)/\tau)}{\sum_{a'} p_{\text{VLM}}(a'|s) \exp(Q(s,a')/\tau)}$$

其中 $\tau$ 是温度参数，控制 VLM 先验与 RL 优化的权衡。$\tau \to 0$ 时策略退化为 VLM 先验；$\tau \to \infty$ 时策略完全由 $Q$ 函数决定。

> **Annotation: Action Prior 的样本效率增益**
> 
> 假设动作空间大小为 $|A|$。从头训练的 RL 需要探索 $O(|A|)$ 个动作才能找到合理策略。使用 VLM action prior 后，有效动作空间被缩减到 VLM 认为合理的子集 $A_{\text{valid}} \subset A$，其中 $|A_{\text{valid}}| \ll |A|$。论文观测到的样本效率提升与这个理论预期一致——预训练 VLM 将探索空间压缩了几个数量级。

---

## 四、实验验证：规模、泛化与通用性

### 4.1 核心性能指标

| 指标 | Odysseus | Frontier Baseline | 提升 |
|:-----|:---------|:------------------|:-----|
| 平均游戏进度 | 高 | 中 | **≥ 3x** |
| 训练稳定性 | 稳定 | 发散（长程） | 质变 |
| 样本效率 | 高 | 低 | 显著 |

### 4.2 泛化验证

Odysseus 在三个泛化维度上进行了验证：

| 泛化类型 | 测试内容 | 结果 |
|:---------|:---------|:-----|
| **In-game** | 同一游戏的不同关卡 | Consistent improvement |
| **Cross-game** | 不同游戏（视觉/规则差异）| Consistent improvement |
| **通用域** | 标准 VLM benchmark（非游戏）| 能力保持，无退化 |

**关键发现**：模型没有发生**灾难性遗忘**或**能力窄化**——游戏训练没有损害通用视觉-语言能力。这与传统"专用模型"的直觉相反：Odysseus 的游戏训练实际上增强了 VLM 的决策能力，而非削弱其通用性。

### 4.3 Ablation 分析

论文通过消融实验验证了各组件的必要性：

| 配置 | 游戏进度 | 说明 |
|:-----|:---------|:-----|
| 完整 Odysseus | 最高 | PPO + turn-level critic + VLM prior |
| 去掉 critic | 显著下降 | GRPO 在长程不稳定 |
| 去掉 VLM prior | 显著下降 | 从头训练样本效率极低 |
| 使用标准 PPO critic | 中等 | 过重 critic 不必要，轻量版足够 |

---

## 五、系统反思：Agent Pipeline 的结构性重构

### 5.1 当前 Pipeline 的隐含假设

标准 VLM agent 训练流程：

$$\text{Pretrained VLM} \xrightarrow{\text{SFT}} \text{Agent} \xrightarrow{\text{Optional RL}} \text{Polished Agent}$$

这个流程隐含以下假设：
1. SFT 提供的能力是 RL 的上界
2. RL 只用于"微调"和"对齐"
3. 长程能力可以通过堆叠短程 SFT 获得

Odysseus 的结果挑战了所有三个假设：
1. SFT 的上界是人类水平；RL 可以超越
2. RL 不是可选微调，而是核心能力来源
3. 长程能力需要专门的 RL 训练，无法通过短程 SFT 组合获得

### 5.2 重构后的 Pipeline

$$\text{Pretrained VLM} \xrightarrow{\text{Optional SFT}} \text{Warm-start} \xrightarrow{\text{RL + Critic}} \text{Agent}$$

其中 SFT 的作用是快速 warm-start（让模型了解任务格式），而非提供最终策略。核心能力来自 RL 训练。

| 成本维度 | SFT-first Pipeline | RL-first Pipeline |
|:---------|:-------------------|:------------------|
| 数据标注 | 高（人类轨迹）| 低（环境自动产生奖励）|
| 计算资源 | 中 | 中-高（取决于 RL 迭代次数）|
| 最终性能 | 人类水平 | 可超越人类 |
| 扩展性 | 差（需重新标注）| 好（环境可编程）|

### 5.3 关键未解问题

| 问题 | 当前状态 | 研究方向 |
|:-----|:---------|:---------|
| 真实世界奖励设计 | 游戏有明确奖励；真实任务模糊 | 逆强化学习、人类偏好反馈 |
| Critic 的任务通用性 | Turn-level design 针对游戏 | 可迁移的通用 value function |
| 极长 Horizon（1000+）| 未测试 | 分层 RL、选项框架 |
| 多模态 Action Space | 离散按键 | 连续控制、自然语言动作 |

---

## 六、结论

Odysseus 将 VLM agent 的能力边界从 20-30 回合的短程任务扩展到 100+ 回合的长程决策。这一扩展的实质不是模型变大或数据变多，而是**训练范式的转变**——从模仿学习转向强化学习，从人类上限转向自我超越。

如果这一范式转变被证实具有普适性，那么当前基于 SFT 的 VLM agent 产业可能需要重新评估其技术路线和资源配置。

---

## 📚 论文详细信息

| 项目 | 内容 |
|:-----|:-----|
| **标题** | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning |
| **作者** | Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin |
| **arXiv ID** | [2605.00347](https://arxiv.org/abs/2605.00347) |
| **发布日期** | 2026年5月1日 |
| **类别** | cs.LG (Machine Learning) |
| **核心方法** | PPO + lightweight turn-level critic；预训练 VLM 作为 action prior |
| **实验环境** | Super Mario Land（100+ 回合视觉决策） |
| **核心发现** | ≥ 3x 游戏进度；in-game/cross-game 泛化；通用能力保持 |

**核心贡献**

1. 🎮 **长程扩展**：首次将 VLM + RL 稳定扩展到 100+ 回合决策
2. 🧠 **Turn-level Critic**：轻量级价值估计解决长程 credit assignment
3. 🔮 **Action Prior**：预训练 VLM 显著提升 RL 样本效率
4. 🔄 **泛化验证**：in-game、cross-game 和通用域能力三重保持

**概念注释索引**

| 概念 | 说明 |
|:-----|:-----|
| Credit Assignment | 确定长程任务中各动作对最终结果的贡献度 |
| Policy Gradient | 通过梯度上升直接优化策略参数的方法族 |
| PPO | Proximal Policy Optimization，使用 clipped objective 的稳定 RL 算法 |
| GRPO | Group Relative Policy Optimization，无 critic 的组内相对奖励方法 |
| Turn-level Critic | 轻量级回合级价值函数，提供稳定基线信号 |
| Action Prior | 预训练 VLM 提供的合理动作先验分布 |
| 优势函数 $A(s,a)$ | $Q(s,a) - V(s)$，衡量动作相对于状态平均价值的优劣 |
| Horizon | 一个 episode 中的决策步数 |
| 折扣因子 $\gamma$ | 未来奖励的折现系数，控制远期回报的权重 |                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🔬 长程视觉决策的 RL 扩展：从 Critic-free 方差灾难到 Odysseus 的稳定训练框架

讨论回复

推荐

智谱 GLM-5 已上线