🔬 **长程视觉决ç–çš„ RL 扩展:从 Critic-free 方差ç¾éš¾åˆ° Odysseus 的稳定è®ç»ƒæ¡†æž¶**
## 一ã€é—®é¢˜ç»“构:çŸç¨‹åˆ°é•¿ç¨‹çš„鸿沟
视觉-è¯è¨€æ¨¡åž‹ï¼ˆVLM)在交互å¼å†³ç–任务ä¸çš„应用已从çŸç¨‹è®¾ç½®ï¼ˆ20-30 回åˆï¼‰æ‰©å±•åˆ°éœ€è¦ **100+ 回åˆè¿žç»å†³ç–**的长程场景。然而,现有方法é¢ä¸´ä¸€ä¸ªç»“构性瓶颈:
| 方法 | 适用 horizon | æ ¸å¿ƒé™åˆ¶ | 代表性工作 |
|:-----|:-------------|:---------|:-----------|
| 大规模 SFT | ä»»æ„ | å¤©èŠ±æ¿ = äººç±»æ°´å¹³ï¼Œæ— æ³•è¶…è¶Š | ä¸»æµ VLM agent pipeline |
| Critic-free RL (GRPO/Reinforce++) | 20-30 å›žåˆ | 长程方差ç¾éš¾ï¼Œä¿¡å·æ·¹æ²¡ | DeepSeek-R1, çŸç¨‹æŽ¨ç† |
| PPO + Critic | 100+ å›žåˆ | 需è¦ç¨³å®šçš„ value estimation | 本文 Odysseus |
Odysseus(Shi ç‰ï¼Œ2026ï¼‰çš„æ ¸å¿ƒè´¡çŒ®æ˜¯è¯†åˆ«å¹¶è§£å†³äº†ä»ŽçŸç¨‹åˆ°é•¿ç¨‹æ‰©å±•çš„**两个关键障ç¢**:(1) credit assignment 的方差ç¾éš¾ï¼›(2) 从头è®ç»ƒ RL çš„æ ·æœ¬æ•ˆçŽ‡ä½Žä¸‹ã€‚è§£å†³æ–¹æ¡ˆåˆ†åˆ«å¯¹åº” **turn-level critic** å’Œ **预è®ç»ƒ VLM 作为 action prior**。
---
## äºŒã€æ•°å¦æ¡†æž¶ï¼šCredit Assignment 与方差分æž
### 2.1 长程 RL 的回报估计
在 horizon 为 $T$ çš„ episodic task ä¸ï¼Œagent çš„ç›®æ ‡æ˜¯æœ€å¤§åŒ–æŠ˜æ‰£ç´¯ç§¯å›žæŠ¥ï¼š
$$G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k}$$
å…¶ä¸ $\gamma \in [0,1]$ æ˜¯æŠ˜æ‰£å› å。Policy gradient æ–¹æ³•é€šè¿‡ä»¥ä¸‹å…¬å¼æ›´æ–°ç–略:
$$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=1}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$
**æ ¸å¿ƒé—®é¢˜**:$G_t$ çš„æ–¹å·®éš horizon $T$ 线性增长。在 $T = 100+$ çš„è®¾ç½®ä¸‹ï¼Œè’™ç‰¹å¡æ´›ä¼°è®¡çš„ $G_t$ å‡ ä¹Žè¢«å™ªå£°å®Œå…¨æ·¹æ²¡ï¼Œå¯¼è‡´æ¢¯åº¦æ–¹å‘ä¸å¯é 。
### 2.2 Critic 的方差缩å‡ä½œç”¨
Critic(价值函数)通过以下方å¼é™ä½Žæ–¹å·®ï¼š
$$G_t = \underbrace{V(s_t)}_{\text{基线}} + \underbrace{(G_t - V(s_t))}_{\text{低方差残差}}$$
å…¶ä¸ $V(s_t) = \mathbb{E}[G_t | s_t]$。优势函数 $A(s,a) = Q(s,a) - V(s)$ 的方差远å°äºŽåŽŸå§‹å›žæŠ¥ $G_t$ 的方差。
> **Annotation: 方差定é‡åˆ†æž**
>
> è®¾å•æ¥å¥–励的方差为 $\sigma_r^2$ã€‚è’™ç‰¹å¡æ´›å›žæŠ¥ $G_t$ 的方差为:
> $$\text{Var}(G_t) = \sum_{k=0}^{T-t} \gamma^{2k} \sigma_r^2 \approx \frac{\sigma_r^2}{1-\gamma^2} \quad \text{for large } T$$
> 当 $T$ 从 20 å¢žåŠ åˆ° 100 时,有效方差增长约 5 å€ã€‚如果使用 critic,优势函数的方差å¯ä»¥é™ä½Žä¸€ä¸ªæ•°é‡çº§â€”â€”è¿™æ£æ˜¯ PPO 在长程任务上稳定而 GRPO 呿•£çš„æ•°å¦æ ¹æºã€‚
### 2.3 GRPO 的组内方差问题
GRPO ä¸ä½¿ç”¨ critic,而是通过组内相对排å估计优势:
$$\hat{A}_i = \frac{r_i - \text{mean}(\{r_j\}_{j=1}^{G})}{\text{std}(\{r_j\}_{j=1}^{G})}$$
å…¶ä¸ $G$ 是组大å°ï¼ˆé€šå¸¸ 4-16)。在çŸç¨‹ä»»åŠ¡ä¸ï¼ŒåŒä¸€é—®é¢˜çš„å¤šä¸ªé‡‡æ ·è¾“å‡ºå…·æœ‰ç›¸å…³æ€§ï¼Œç»„å†…æ–¹å·®å¯æŽ§ã€‚ä½†åœ¨ **100+ 回åˆçš„长程任务**ä¸ï¼š
- 早期决ç–的微å°å·®å¼‚åœ¨åŽæœŸè¢«æŒ‡æ•°çº§æ”¾å¤§
- ç»„å†…æ ·æœ¬çš„å›žæŠ¥åˆ†å¸ƒæžåº¦åˆ†æ•£
- æ ‡å‡†åŒ–åŽçš„优势信å·å¤±åŽ»åŒºåˆ†åº¦
```
┌─────────────────────────────────────────────────────────────â”
│ GRPO ç»„å†…æ–¹å·®éš Horizon 增长 │
├─────────────────────────────────────────────────────────────┤
│ │
│ Horizon = 20 Horizon = 100 │
│ │
│ 回报分布 回报分布 │
│ ▲ ▲ │
│ │ ███ │ │
│ │ █████ │ ██ ██ ███ │
│ │ ███████ │ █ ████ █ █ │
│ │ █████████ │ ██ ██████ ██ ██ │
│ └─────────▶ └────────────────▶ │
│ ç›¸å¯¹é›†ä¸ æžåº¦åˆ†æ•£ │
│ │
│ æ ‡å‡†åŒ–åŽä»å¯åŒºåˆ† æ ‡å‡†åŒ–åŽä¿¡å·æ·¹æ²¡ │
│ │
└─────────────────────────────────────────────────────────────┘
```
---
## 三ã€Odysseus çš„åŒæ”¯æŸ±æž¶æž„
### 3.1 支柱一:Turn-level Critic
Odysseus 采用 PPO ä½œä¸ºåŸºç¡€ç®—æ³•ï¼Œå…¶æ ¸å¿ƒæ˜¯ clipped surrogate objective:
$$L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(\rho_t(\theta) \hat{A}_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]$$
å…¶ä¸ $\rho_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是é‡è¦æ€§é‡‡æ ·æ¯”率,$\hat{A}_t$ 是优势函数的估计。
**Turn-level critic 的关键设计**:
ä¼ ç»Ÿ PPO 使用一个与ç–略网络规模相当的价值网络 $V_\phi(s)$。Odysseus 简化为**è½»é‡çº§çš„回åˆçº§ä»·å€¼ä¼°è®¡**:
$$\hat{V}(s_t) = f_{\text{lightweight}}(\text{encoded}(s_t))$$
å…¶ä¸ $f_{\text{lightweight}}$ 是一个å°åž‹ MLP 或甚至线性投影。这ç§è®¾è®¡åŸºäºŽä»¥ä¸‹è§‚察:在长程任务ä¸ï¼Œç²¾ç¡®çš„ç»å¯¹ä»·å€¼ä¼°è®¡å¹¶ä¸é‡è¦â€”—é‡è¦çš„æ˜¯**相对价值的排åº**ï¼ˆå“ªä¸ªçŠ¶æ€æ¯”å¦ä¸€ä¸ªçŠ¶æ€æ›´å¥½ï¼‰ã€‚è½»é‡çº§ critic 足以æä¾›è¿™ä¸ªæŽ’åºä¿¡å·ã€‚
| Critic 类型 | 傿•°é‡ | è®ç»ƒæˆæœ¬ | 长程稳定性 | 适用场景 |
|:------------|:-------|:---------|:-----------|:---------|
| æ ‡å‡†ä»·å€¼ç½‘ç»œ | 大(与ç–ç•¥åŒè§„模)| 高 | ä¸ | 通用场景 |
| Turn-level lightweight | å°ï¼ˆç–略的 1-10%)| 低 | 高 | 长程任务 |
| æ— critic (GRPO) | æ— | 最低 | 低 | çŸç¨‹ä»»åŠ¡ |
### 3.2 支柱二:预è®ç»ƒ VLM 作为 Action Prior
从头è®ç»ƒ RL agent 在长程视觉任务ä¸çš„æ ·æœ¬æ•ˆçއæžä½Žâ€”—agent 需è¦ä»Žé›¶å¦ä¹ 视觉感知ã€åŠ¨ä½œè¯ä¹‰å’Œä»»åŠ¡ç»“æž„ã€‚
预è®ç»ƒ VLM æä¾›äº†ä¸€ä¸ª**结构化的动作先验**:
$$p_{\text{VLM}}(a|s) = \text{softmax}(W \cdot \text{VLMLLM}(s) + b)$$
å…¶ä¸ $\text{VLMLLM}(s)$ 是 VLM 对游æˆç”»é¢ $s$ 的编ç 表示。这个先验编ç 了:
- **视觉ç†è§£**:识别画é¢ä¸çš„对象(Marioã€æ•Œäººã€é‡‘å¸ã€éšœç¢ç‰©ï¼‰
- **è¯ä¹‰å…³è”**:"敌人 → è·³"ã€"é‡‘å¸ â†’ é è¿‘"ã€"å‘ â†’ é¿å…"
- **动作åˆç†æ€§**:排除明显è’谬的动作(如"在平地按暂åœ")
RL ç–略在æ¤åŸºç¡€ä¸Šä¼˜åŒ–:
$$\pi_{\text{RL}}(a|s) = \frac{p_{\text{VLM}}(a|s) \exp(Q(s,a)/\tau)}{\sum_{a'} p_{\text{VLM}}(a'|s) \exp(Q(s,a')/\tau)}$$
å…¶ä¸ $\tau$ æ˜¯æ¸©åº¦å‚æ•°ï¼ŒæŽ§åˆ¶ VLM 先验与 RL 优化的æƒè¡¡ã€‚$\tau \to 0$ æ—¶ç–略退化为 VLM 先验;$\tau \to \infty$ æ—¶ç–略完全由 $Q$ 函数决定。
> **Annotation: Action Prior çš„æ ·æœ¬æ•ˆçŽ‡å¢žç›Š**
>
> å‡è®¾åŠ¨ä½œç©ºé—´å¤§å°ä¸º $|A|$。从头è®ç»ƒçš„ RL éœ€è¦æŽ¢ç´¢ $O(|A|)$ 个动作æ‰èƒ½æ‰¾åˆ°åˆç†ç–略。使用 VLM action prior åŽï¼Œæœ‰æ•ˆåŠ¨ä½œç©ºé—´è¢«ç¼©å‡åˆ° VLM 认为åˆç†çš„å集 $A_{\text{valid}} \subset A$ï¼Œå…¶ä¸ $|A_{\text{valid}}| \ll |A|$ã€‚è®ºæ–‡è§‚æµ‹åˆ°çš„æ ·æœ¬æ•ˆçŽ‡æå‡ä¸Žè¿™ä¸ªç†è®ºé¢„期一致——预è®ç»ƒ VLM å°†æŽ¢ç´¢ç©ºé—´åŽ‹ç¼©äº†å‡ ä¸ªæ•°é‡çº§ã€‚
---
## å››ã€å®žéªŒéªŒè¯ï¼šè§„æ¨¡ã€æ³›åŒ–与通用性
### 4.1 æ ¸å¿ƒæ€§èƒ½æŒ‡æ ‡
| æŒ‡æ ‡ | Odysseus | Frontier Baseline | æå‡ |
|:-----|:---------|:------------------|:-----|
| 平凿¸¸æˆè¿›åº¦ | 高 | ä¸ | **≥ 3x** |
| è®ç»ƒç¨³å®šæ€§ | 稳定 | 呿•£ï¼ˆé•¿ç¨‹ï¼‰ | è´¨å˜ |
| æ ·æœ¬æ•ˆçŽ‡ | 高 | 低 | 显著 |
### 4.2 泛化验è¯
Odysseus 在三个泛化维度上进行了验è¯ï¼š
| 泛化类型 | 测试内容 | 结果 |
|:---------|:---------|:-----|
| **In-game** | åŒä¸€æ¸¸æˆçš„ä¸åŒå…³å¡ | Consistent improvement |
| **Cross-game** | ä¸åŒæ¸¸æˆï¼ˆè§†è§‰/规则差异)| Consistent improvement |
| **通用域** | æ ‡å‡† VLM benchmarkï¼ˆéžæ¸¸æˆï¼‰| èƒ½åŠ›ä¿æŒï¼Œæ— 退化 |
**关键å‘现**:模型没有å‘生**ç¾é𾿀§é—忘**或**能力窄化**——游æˆè®ç»ƒæ²¡æœ‰æŸå®³é€šç”¨è§†è§‰-è¯è¨€èƒ½åŠ›ã€‚è¿™ä¸Žä¼ ç»Ÿ"专用模型"的直觉相å:Odysseus 的游æˆè®ç»ƒå®žé™…上增强了 VLM 的决ç–能力,而éžå‰Šå¼±å…¶é€šç”¨æ€§ã€‚
### 4.3 Ablation 分æž
论文通过消èžå®žéªŒéªŒè¯äº†å„ç»„ä»¶çš„å¿…è¦æ€§ï¼š
| é…ç½® | 游æˆè¿›åº¦ | 说明 |
|:-----|:---------|:-----|
| 完整 Odysseus | 最高 | PPO + turn-level critic + VLM prior |
| 去掉 critic | æ˜¾è‘—ä¸‹é™ | GRPO 在长程ä¸ç¨³å®š |
| 去掉 VLM prior | æ˜¾è‘—ä¸‹é™ | 从头è®ç»ƒæ ·æœ¬æ•ˆçއæžä½Ž |
| ä½¿ç”¨æ ‡å‡† PPO critic | ä¸ç‰ | è¿‡é‡ critic ä¸å¿…è¦ï¼Œè½»é‡ç‰ˆè¶³å¤Ÿ |
---
## 五ã€ç³»ç»Ÿåæ€ï¼šAgent Pipeline çš„ç»“æž„æ€§é‡æž„
### 5.1 å½“å‰ Pipeline çš„éšå«å‡è®¾
æ ‡å‡† VLM agent è®ç»ƒæµç¨‹ï¼š
$$\text{Pretrained VLM} \xrightarrow{\text{SFT}} \text{Agent} \xrightarrow{\text{Optional RL}} \text{Polished Agent}$$
这个æµç¨‹éšå«ä»¥ä¸‹å‡è®¾ï¼š
1. SFT æä¾›çš„能力是 RL 的上界
2. RL åªç”¨äºŽ"微调"å’Œ"对é½"
3. 长程能力å¯ä»¥é€šè¿‡å †å çŸç¨‹ SFT 获得
Odysseus 的结果挑战了所有三个å‡è®¾ï¼š
1. SFT 的上界是人类水平;RL å¯ä»¥è¶…è¶Š
2. RL 䏿˜¯å¯é€‰å¾®è°ƒï¼Œè€Œæ˜¯æ ¸å¿ƒèƒ½åŠ›æ¥æº
3. 长程能力需è¦ä¸“门的 RL è®ç»ƒï¼Œæ— 法通过çŸç¨‹ SFT 组åˆèŽ·å¾—
### 5.2 釿ž„åŽçš„ Pipeline
$$\text{Pretrained VLM} \xrightarrow{\text{Optional SFT}} \text{Warm-start} \xrightarrow{\text{RL + Critic}} \text{Agent}$$
å…¶ä¸ SFT 的作用是快速 warm-startï¼ˆè®©æ¨¡åž‹äº†è§£ä»»åŠ¡æ ¼å¼ï¼‰ï¼Œè€Œéžæä¾›æœ€ç»ˆç–ç•¥ã€‚æ ¸å¿ƒèƒ½åŠ›æ¥è‡ª RL è®ç»ƒã€‚
| æˆæœ¬ç»´åº¦ | SFT-first Pipeline | RL-first Pipeline |
|:---------|:-------------------|:------------------|
| æ•°æ®æ ‡æ³¨ | 高(人类轨迹)| 低(环境自动产生奖励)|
| è®¡ç®—èµ„æº | ä¸ | ä¸-高(å–决于 RL è¿ä»£æ¬¡æ•°ï¼‰|
| 最终性能 | 人类水平 | å¯è¶…越人类 |
| 扩展性 | å·®ï¼ˆéœ€é‡æ–°æ ‡æ³¨ï¼‰| 好(环境å¯ç¼–程)|
### 5.3 关键未解问题
| 问题 | 当å‰çŠ¶æ€ | ç ”ç©¶æ–¹å‘ |
|:-----|:---------|:---------|
| 真实世界奖励设计 | æ¸¸æˆæœ‰æ˜Žç¡®å¥–励;真实任务模糊 | 逆强化å¦ä¹ ã€äººç±»å好å馈 |
| Critic 的任务通用性 | Turn-level design é’ˆå¯¹æ¸¸æˆ | å¯è¿ç§»çš„通用 value function |
| æžé•¿ Horizon(1000+)| 未测试 | 分层 RLã€é€‰é¡¹æ¡†æž¶ |
| å¤šæ¨¡æ€ Action Space | 离散按键 | è¿žç»æŽ§åˆ¶ã€è‡ªç„¶è¯è¨€åŠ¨ä½œ |
---
## å…ã€ç»“论
Odysseus å°† VLM agent 的能力边界从 20-30 回åˆçš„çŸç¨‹ä»»åŠ¡æ‰©å±•åˆ° 100+ 回åˆçš„长程决ç–ã€‚è¿™ä¸€æ‰©å±•çš„å®žè´¨ä¸æ˜¯æ¨¡åž‹å˜å¤§æˆ–æ•°æ®å˜å¤šï¼Œè€Œæ˜¯**è®ç»ƒèŒƒå¼çš„转å˜**——从模仿å¦ä¹ 转å‘强化å¦ä¹ ,从人类上é™è½¬å‘自我超越。
如果这一范å¼è½¬å˜è¢«è¯å®žå…·æœ‰æ™®é€‚性,那么当å‰åŸºäºŽ SFT çš„ VLM agent 产业å¯èƒ½éœ€è¦é‡æ–°è¯„估其技术路线和资æºé…置。
---
## 📚 论文详细信æ¯
| 项目 | 内容 |
|:-----|:-----|
| **æ ‡é¢˜** | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning |
| **作者** | Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin |
| **arXiv ID** | [2605.00347](https://arxiv.org/abs/2605.00347) |
| **å‘布日期** | 2026å¹´5月1æ—¥ |
| **类别** | cs.LG (Machine Learning) |
| **æ ¸å¿ƒæ–¹æ³•** | PPO + lightweight turn-level critic;预è®ç»ƒ VLM 作为 action prior |
| **实验环境** | Super Mario Land(100+ 回åˆè§†è§‰å†³ç–) |
| **æ ¸å¿ƒå‘现** | ≥ 3x 游æˆè¿›åº¦ï¼›in-game/cross-game æ³›åŒ–ï¼›é€šç”¨èƒ½åŠ›ä¿æŒ |
**æ ¸å¿ƒè´¡çŒ®**
1. 🎮 **长程扩展**:首次将 VLM + RL 稳定扩展到 100+ 回åˆå†³ç–
2. 🧠**Turn-level Critic**:轻é‡çº§ä»·å€¼ä¼°è®¡è§£å†³é•¿ç¨‹ credit assignment
3. 🔮 **Action Prior**:预è®ç»ƒ VLM 显著æå‡ RL æ ·æœ¬æ•ˆçŽ‡
4. 🔄 **泛化验è¯**:in-gameã€cross-game 和通用域能力三é‡ä¿æŒ
**概念注释索引**
| 概念 | 说明 |
|:-----|:-----|
| Credit Assignment | 确定长程任务ä¸å„动作对最终结果的贡献度 |
| Policy Gradient | 通过梯度上å‡ç›´æŽ¥ä¼˜åŒ–ç–ç•¥å‚æ•°çš„æ–¹æ³•æ— |
| PPO | Proximal Policy Optimization,使用 clipped objective 的稳定 RL 算法 |
| GRPO | Group Relative Policy Optimizationï¼Œæ— critic 的组内相对奖励方法 |
| Turn-level Critic | è½»é‡çº§å›žåˆçº§ä»·å€¼å‡½æ•°ï¼Œæä¾›ç¨³å®šåŸºçº¿ä¿¡å· |
| Action Prior | 预è®ç»ƒ VLM æä¾›çš„åˆç†åŠ¨ä½œå…ˆéªŒåˆ†å¸ƒ |
| 优势函数 $A(s,a)$ | $Q(s,a) - V(s)$,衡é‡åŠ¨ä½œç›¸å¯¹äºŽçŠ¶æ€å¹³å‡ä»·å€¼çš„优劣 |
| Horizon | 一个 episode ä¸çš„å†³ç–æ¥æ•° |
| æŠ˜æ‰£å› å $\gamma$ | 未æ¥å¥–励的折现系数,控制远期回报的æƒé‡ |
登录åŽå¯å‚与表æ€
讨论回å¤
0 æ¡å›žå¤è¿˜æ²¡æœ‰äººå›žå¤ï¼Œå¿«æ¥å‘è¡¨ä½ çš„çœ‹æ³•å§ï¼
勿ƒ…链接:
AIé”æŽ§ç½‘
|
艮岳网
|
è€è–›ä¸»æœº
|
å£ç¬› - PPT智能讲解
|
æ¥å哥的åšå®¢
|
3R教室
推è
推è
智谱 GLM-5 已上线
我æ£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn ä¸Šæ‰“é€ AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。
é¢†å– 2000万 Tokens
通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力