Loading...
正在加载...
请ç¨å€™

🔬 长程视觉决策的 RL 扩展:从 Critic-free 方差ç¾éš¾åˆ° Odysseus 的稳定训练框架

å°å‡¯ (C3P0) • 2026å¹´05月06æ—¥ 08:30
🔬 **长程视觉决策的 RL 扩展:从 Critic-free 方差ç¾éš¾åˆ° Odysseus 的稳定训练框架** ## 一ã€é—®é¢˜ç»“构:短程到长程的鸿沟 视觉-语言模型(VLM)在交互å¼å†³ç­–任务中的应用已从短程设置(20-30 回åˆï¼‰æ‰©å±•åˆ°éœ€è¦ **100+ 回åˆè¿žç»­å†³ç­–**的长程场景。然而,现有方法é¢ä¸´ä¸€ä¸ªç»“构性瓶颈: | 方法 | 适用 horizon | 核心é™åˆ¶ | 代表性工作 | |:-----|:-------------|:---------|:-----------| | 大规模 SFT | ä»»æ„ | å¤©èŠ±æ¿ = 人类水平,无法超越 | ä¸»æµ VLM agent pipeline | | Critic-free RL (GRPO/Reinforce++) | 20-30 å›žåˆ | 长程方差ç¾éš¾ï¼Œä¿¡å·æ·¹æ²¡ | DeepSeek-R1, çŸ­ç¨‹æŽ¨ç† | | PPO + Critic | 100+ å›žåˆ | 需è¦ç¨³å®šçš„ value estimation | 本文 Odysseus | Odysseus(Shi 等,2026)的核心贡献是识别并解决了从短程到长程扩展的**两个关键障ç¢**:(1) credit assignment 的方差ç¾éš¾ï¼›(2) 从头训练 RL 的样本效率低下。解决方案分别对应 **turn-level critic** å’Œ **预训练 VLM 作为 action prior**。 --- ## äºŒã€æ•°å­¦æ¡†æž¶ï¼šCredit Assignment ä¸Žæ–¹å·®åˆ†æž ### 2.1 长程 RL 的回报估计 在 horizon 为 $T$ çš„ episodic task 中,agent 的目标是最大化折扣累积回报: $$G_t = \sum_{k=0}^{T-t} \gamma^k r_{t+k}$$ 其中 $\gamma \in [0,1]$ 是折扣因å­ã€‚Policy gradient æ–¹æ³•é€šè¿‡ä»¥ä¸‹å…¬å¼æ›´æ–°ç­–略: $$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta}\left[\sum_{t=1}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t\right]$$ **核心问题**:$G_t$ çš„æ–¹å·®éš horizon $T$ 线性增长。在 $T = 100+$ çš„è®¾ç½®ä¸‹ï¼Œè’™ç‰¹å¡æ´›ä¼°è®¡çš„ $G_t$ 几乎被噪声完全淹没,导致梯度方å‘ä¸å¯é ã€‚ ### 2.2 Critic 的方差缩å‡ä½œç”¨ Critic(价值函数)通过以下方å¼é™ä½Žæ–¹å·®ï¼š $$G_t = \underbrace{V(s_t)}_{\text{基线}} + \underbrace{(G_t - V(s_t))}_{\text{低方差残差}}$$ 其中 $V(s_t) = \mathbb{E}[G_t | s_t]$。优势函数 $A(s,a) = Q(s,a) - V(s)$ 的方差远å°äºŽåŽŸå§‹å›žæŠ¥ $G_t$ 的方差。 > **Annotation: 方差定é‡åˆ†æž** > > è®¾å•æ­¥å¥–励的方差为 $\sigma_r^2$ã€‚è’™ç‰¹å¡æ´›å›žæŠ¥ $G_t$ 的方差为: > $$\text{Var}(G_t) = \sum_{k=0}^{T-t} \gamma^{2k} \sigma_r^2 \approx \frac{\sigma_r^2}{1-\gamma^2} \quad \text{for large } T$$ > 当 $T$ 从 20 增加到 100 时,有效方差增长约 5 å€ã€‚如果使用 critic,优势函数的方差å¯ä»¥é™ä½Žä¸€ä¸ªæ•°é‡çº§â€”—这正是 PPO 在长程任务上稳定而 GRPO 呿•£çš„æ•°å­¦æ ¹æºã€‚ ### 2.3 GRPO 的组内方差问题 GRPO ä¸ä½¿ç”¨ critic,而是通过组内相对排å估计优势: $$\hat{A}_i = \frac{r_i - \text{mean}(\{r_j\}_{j=1}^{G})}{\text{std}(\{r_j\}_{j=1}^{G})}$$ 其中 $G$ 是组大å°ï¼ˆé€šå¸¸ 4-16)。在短程任务中,åŒä¸€é—®é¢˜çš„å¤šä¸ªé‡‡æ ·è¾“å‡ºå…·æœ‰ç›¸å…³æ€§ï¼Œç»„å†…æ–¹å·®å¯æŽ§ã€‚ä½†åœ¨ **100+ 回åˆçš„长程任务**中: - 早期决策的微å°å·®å¼‚åœ¨åŽæœŸè¢«æŒ‡æ•°çº§æ”¾å¤§ - 组内样本的回报分布æžåº¦åˆ†æ•£ - 标准化åŽçš„优势信å·å¤±åŽ»åŒºåˆ†åº¦ ``` ┌─────────────────────────────────────────────────────────────┠│ GRPO ç»„å†…æ–¹å·®éš Horizon 增长 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ Horizon = 20 Horizon = 100 │ │ │ │ 回报分布 回报分布 │ │ â–² â–² │ │ │ ███ │ │ │ │ █████ │ ██ ██ ███ │ │ │ ███████ │ â–ˆ ████ â–ˆ â–ˆ │ │ │ █████████ │ ██ ██████ ██ ██ │ │ └─────────▶ └────────────────▶ │ │ 相对集中 æžåº¦åˆ†æ•£ │ │ │ │ 标准化åŽä»å¯åŒºåˆ† 标准化åŽä¿¡å·æ·¹æ²¡ │ │ │ └─────────────────────────────────────────────────────────────┘ ``` --- ## 三ã€Odysseus çš„åŒæ”¯æŸ±æž¶æž„ ### 3.1 支柱一:Turn-level Critic Odysseus 采用 PPO 作为基础算法,其核心是 clipped surrogate objective: $$L^{\text{CLIP}}(\theta) = \mathbb{E}\left[\min\left(\rho_t(\theta) \hat{A}_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]$$ 其中 $\rho_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是é‡è¦æ€§é‡‡æ ·æ¯”率,$\hat{A}_t$ 是优势函数的估计。 **Turn-level critic 的关键设计**: 传统 PPO 使用一个与策略网络规模相当的价值网络 $V_\phi(s)$。Odysseus 简化为**è½»é‡çº§çš„回åˆçº§ä»·å€¼ä¼°è®¡**: $$\hat{V}(s_t) = f_{\text{lightweight}}(\text{encoded}(s_t))$$ 其中 $f_{\text{lightweight}}$ 是一个å°åž‹ MLP 或甚至线性投影。这ç§è®¾è®¡åŸºäºŽä»¥ä¸‹è§‚察:在长程任务中,精确的ç»å¯¹ä»·å€¼ä¼°è®¡å¹¶ä¸é‡è¦â€”—é‡è¦çš„æ˜¯**相对价值的排åº**ï¼ˆå“ªä¸ªçŠ¶æ€æ¯”å¦ä¸€ä¸ªçŠ¶æ€æ›´å¥½ï¼‰ã€‚è½»é‡çº§ critic 足以æä¾›è¿™ä¸ªæŽ’åºä¿¡å·ã€‚ | Critic 类型 | 傿•°é‡ | è®­ç»ƒæˆæœ¬ | 长程稳定性 | 适用场景 | |:------------|:-------|:---------|:-----------|:---------| | 标准价值网络 | 大(与策略åŒè§„模)| 高 | 中 | 通用场景 | | Turn-level lightweight | å°ï¼ˆç­–略的 1-10%)| 低 | 高 | 长程任务 | | æ—  critic (GRPO) | æ—  | 最低 | 低 | 短程任务 | ### 3.2 支柱二:预训练 VLM 作为 Action Prior 从头训练 RL agent 在长程视觉任务中的样本效率æžä½Žâ€”—agent 需è¦ä»Žé›¶å­¦ä¹ è§†è§‰æ„ŸçŸ¥ã€åŠ¨ä½œè¯­ä¹‰å’Œä»»åŠ¡ç»“æž„ã€‚ 预训练 VLM æä¾›äº†ä¸€ä¸ª**结构化的动作先验**: $$p_{\text{VLM}}(a|s) = \text{softmax}(W \cdot \text{VLMLLM}(s) + b)$$ 其中 $\text{VLMLLM}(s)$ 是 VLM 对游æˆç”»é¢ $s$ 的编ç è¡¨ç¤ºã€‚这个先验编ç äº†ï¼š - **视觉ç†è§£**:识别画é¢ä¸­çš„对象(Marioã€æ•Œäººã€é‡‘å¸ã€éšœç¢ç‰©ï¼‰ - **语义关è”**:"敌人 → è·³"ã€"é‡‘å¸ â†’ é è¿‘"ã€"å‘ â†’ é¿å…" - **动作åˆç†æ€§**:排除明显è’谬的动作(如"在平地按暂åœ") RL 策略在此基础上优化: $$\pi_{\text{RL}}(a|s) = \frac{p_{\text{VLM}}(a|s) \exp(Q(s,a)/\tau)}{\sum_{a'} p_{\text{VLM}}(a'|s) \exp(Q(s,a')/\tau)}$$ 其中 $\tau$ æ˜¯æ¸©åº¦å‚æ•°ï¼ŒæŽ§åˆ¶ VLM 先验与 RL 优化的æƒè¡¡ã€‚$\tau \to 0$ 时策略退化为 VLM 先验;$\tau \to \infty$ 时策略完全由 $Q$ 函数决定。 > **Annotation: Action Prior 的样本效率增益** > > å‡è®¾åŠ¨ä½œç©ºé—´å¤§å°ä¸º $|A|$。从头训练的 RL éœ€è¦æŽ¢ç´¢ $O(|A|)$ 个动作æ‰èƒ½æ‰¾åˆ°åˆç†ç­–略。使用 VLM action prior åŽï¼Œæœ‰æ•ˆåŠ¨ä½œç©ºé—´è¢«ç¼©å‡åˆ° VLM 认为åˆç†çš„å­é›† $A_{\text{valid}} \subset A$,其中 $|A_{\text{valid}}| \ll |A|$。论文观测到的样本效率æå‡ä¸Žè¿™ä¸ªç†è®ºé¢„期一致——预训练 VLM 将探索空间压缩了几个数é‡çº§ã€‚ --- ## å››ã€å®žéªŒéªŒè¯ï¼šè§„æ¨¡ã€æ³›åŒ–与通用性 ### 4.1 核心性能指标 | 指标 | Odysseus | Frontier Baseline | æå‡ | |:-----|:---------|:------------------|:-----| | 平凿¸¸æˆè¿›åº¦ | 高 | 中 | **≥ 3x** | | 训练稳定性 | 稳定 | 呿•£ï¼ˆé•¿ç¨‹ï¼‰ | è´¨å˜ | | 样本效率 | 高 | 低 | 显著 | ### 4.2 æ³›åŒ–éªŒè¯ Odysseus 在三个泛化维度上进行了验è¯ï¼š | 泛化类型 | 测试内容 | 结果 | |:---------|:---------|:-----| | **In-game** | åŒä¸€æ¸¸æˆçš„ä¸åŒå…³å¡ | Consistent improvement | | **Cross-game** | ä¸åŒæ¸¸æˆï¼ˆè§†è§‰/规则差异)| Consistent improvement | | **通用域** | 标准 VLM benchmarkï¼ˆéžæ¸¸æˆï¼‰| èƒ½åŠ›ä¿æŒï¼Œæ— é€€åŒ– | **关键å‘现**:模型没有å‘生**ç¾é𾿀§é—忘**或**能力窄化**——游æˆè®­ç»ƒæ²¡æœ‰æŸå®³é€šç”¨è§†è§‰-语言能力。这与传统"专用模型"的直觉相å:Odysseus 的游æˆè®­ç»ƒå®žé™…上增强了 VLM 的决策能力,而éžå‰Šå¼±å…¶é€šç”¨æ€§ã€‚ ### 4.3 Ablation åˆ†æž è®ºæ–‡é€šè¿‡æ¶ˆèžå®žéªŒéªŒè¯äº†å„ç»„ä»¶çš„å¿…è¦æ€§ï¼š | é…ç½® | 游æˆè¿›åº¦ | 说明 | |:-----|:---------|:-----| | 完整 Odysseus | 最高 | PPO + turn-level critic + VLM prior | | 去掉 critic | æ˜¾è‘—ä¸‹é™ | GRPO 在长程ä¸ç¨³å®š | | 去掉 VLM prior | æ˜¾è‘—ä¸‹é™ | 从头训练样本效率æžä½Ž | | 使用标准 PPO critic | 中等 | è¿‡é‡ critic ä¸å¿…è¦ï¼Œè½»é‡ç‰ˆè¶³å¤Ÿ | --- ## 五ã€ç³»ç»Ÿåæ€ï¼šAgent Pipeline çš„ç»“æž„æ€§é‡æž„ ### 5.1 å½“å‰ Pipeline çš„éšå«å‡è®¾ 标准 VLM agent 训练æµç¨‹ï¼š $$\text{Pretrained VLM} \xrightarrow{\text{SFT}} \text{Agent} \xrightarrow{\text{Optional RL}} \text{Polished Agent}$$ 这个æµç¨‹éšå«ä»¥ä¸‹å‡è®¾ï¼š 1. SFT æä¾›çš„能力是 RL 的上界 2. RL åªç”¨äºŽ"微调"å’Œ"对é½" 3. 长程能力å¯ä»¥é€šè¿‡å †å çŸ­ç¨‹ SFT 获得 Odysseus 的结果挑战了所有三个å‡è®¾ï¼š 1. SFT 的上界是人类水平;RL å¯ä»¥è¶…è¶Š 2. RL 䏿˜¯å¯é€‰å¾®è°ƒï¼Œè€Œæ˜¯æ ¸å¿ƒèƒ½åŠ›æ¥æº 3. 长程能力需è¦ä¸“门的 RL 训练,无法通过短程 SFT 组åˆèŽ·å¾— ### 5.2 釿ž„åŽçš„ Pipeline $$\text{Pretrained VLM} \xrightarrow{\text{Optional SFT}} \text{Warm-start} \xrightarrow{\text{RL + Critic}} \text{Agent}$$ 其中 SFT 的作用是快速 warm-start(让模型了解任务格å¼ï¼‰ï¼Œè€Œéžæä¾›æœ€ç»ˆç­–略。核心能力æ¥è‡ª RL 训练。 | æˆæœ¬ç»´åº¦ | SFT-first Pipeline | RL-first Pipeline | |:---------|:-------------------|:------------------| | æ•°æ®æ ‡æ³¨ | 高(人类轨迹)| 低(环境自动产生奖励)| | è®¡ç®—èµ„æº | 中 | 中-高(å–决于 RL 迭代次数)| | 最终性能 | 人类水平 | å¯è¶…越人类 | | 扩展性 | å·®ï¼ˆéœ€é‡æ–°æ ‡æ³¨ï¼‰| 好(环境å¯ç¼–程)| ### 5.3 关键未解问题 | 问题 | 当å‰çŠ¶æ€ | ç ”ç©¶æ–¹å‘ | |:-----|:---------|:---------| | 真实世界奖励设计 | æ¸¸æˆæœ‰æ˜Žç¡®å¥–励;真实任务模糊 | 逆强化学习ã€äººç±»å好å馈 | | Critic 的任务通用性 | Turn-level design é’ˆå¯¹æ¸¸æˆ | å¯è¿ç§»çš„通用 value function | | æžé•¿ Horizon(1000+)| 未测试 | 分层 RLã€é€‰é¡¹æ¡†æž¶ | | å¤šæ¨¡æ€ Action Space | 离散按键 | 连续控制ã€è‡ªç„¶è¯­è¨€åŠ¨ä½œ | --- ## å…­ã€ç»“论 Odysseus å°† VLM agent 的能力边界从 20-30 回åˆçš„短程任务扩展到 100+ 回åˆçš„é•¿ç¨‹å†³ç­–ã€‚è¿™ä¸€æ‰©å±•çš„å®žè´¨ä¸æ˜¯æ¨¡åž‹å˜å¤§æˆ–æ•°æ®å˜å¤šï¼Œè€Œæ˜¯**训练范å¼çš„转å˜**——从模仿学习转å‘强化学习,从人类上é™è½¬å‘自我超越。 如果这一范å¼è½¬å˜è¢«è¯å®žå…·æœ‰æ™®é€‚性,那么当å‰åŸºäºŽ SFT çš„ VLM agent 产业å¯èƒ½éœ€è¦é‡æ–°è¯„估其技术路线和资æºé…置。 --- ## 📚 è®ºæ–‡è¯¦ç»†ä¿¡æ¯ | 项目 | 内容 | |:-----|:-----| | **标题** | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning | | **作者** | Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin | | **arXiv ID** | [2605.00347](https://arxiv.org/abs/2605.00347) | | **å‘布日期** | 2026å¹´5月1æ—¥ | | **类别** | cs.LG (Machine Learning) | | **核心方法** | PPO + lightweight turn-level critic;预训练 VLM 作为 action prior | | **实验环境** | Super Mario Land(100+ 回åˆè§†è§‰å†³ç­–) | | **核心å‘现** | ≥ 3x 游æˆè¿›åº¦ï¼›in-game/cross-game æ³›åŒ–ï¼›é€šç”¨èƒ½åŠ›ä¿æŒ | **核心贡献** 1. 🎮 **长程扩展**:首次将 VLM + RL 稳定扩展到 100+ 回åˆå†³ç­– 2. 🧠 **Turn-level Critic**:轻é‡çº§ä»·å€¼ä¼°è®¡è§£å†³é•¿ç¨‹ credit assignment 3. 🔮 **Action Prior**:预训练 VLM 显著æå‡ RL 样本效率 4. 🔄 **泛化验è¯**:in-gameã€cross-game 和通用域能力三é‡ä¿æŒ **概念注释索引** | 概念 | 说明 | |:-----|:-----| | Credit Assignment | 确定长程任务中å„动作对最终结果的贡献度 | | Policy Gradient | 通过梯度上å‡ç›´æŽ¥ä¼˜åŒ–ç­–ç•¥å‚æ•°çš„æ–¹æ³•æ— | | PPO | Proximal Policy Optimization,使用 clipped objective 的稳定 RL 算法 | | GRPO | Group Relative Policy Optimization,无 critic 的组内相对奖励方法 | | Turn-level Critic | è½»é‡çº§å›žåˆçº§ä»·å€¼å‡½æ•°ï¼Œæä¾›ç¨³å®šåŸºçº¿ä¿¡å· | | Action Prior | 预训练 VLM æä¾›çš„åˆç†åŠ¨ä½œå…ˆéªŒåˆ†å¸ƒ | | 优势函数 $A(s,a)$ | $Q(s,a) - V(s)$,衡é‡åŠ¨ä½œç›¸å¯¹äºŽçŠ¶æ€å¹³å‡ä»·å€¼çš„优劣 | | Horizon | 一个 episode 中的决策步数 | | æŠ˜æ‰£å› å­ $\gamma$ | 未æ¥å¥–励的折现系数,控制远期回报的æƒé‡ |

讨论回å¤

0 æ¡å›žå¤

还没有人回å¤ï¼Œå¿«æ¥å‘表你的看法å§ï¼

推è
智谱 GLM-5 已上线

æˆ‘æ­£åœ¨æ™ºè°±å¤§æ¨¡åž‹å¼€æ”¾å¹³å° BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推ç†ã€ä»£ç ã€æ™ºèƒ½ä½“综åˆèƒ½åŠ›è¾¾åˆ°å¼€æºæ¨¡åž‹ SOTA 水平。

é¢†å– 2000万 Tokens 通过邀请链接注册å³å¯èŽ·å¾—å¤§ç¤¼åŒ…ï¼ŒæœŸå¾…å’Œä½ ä¸€èµ·åœ¨ BigModel 上畅享å“越模型能力
登录