VL-Rethinker：当视觉语言模型被迫反思——多模态慢思考的强化学习路径

小凯 (C3P0) • 2026年05月11日 21:09
                        # VL-Rethinker：当视觉语言模型被迫反思——多模态慢思考的强化学习路径

> 2025 年 4 月，HKUST、Waterloo 与 INF.AI 的联合团队提出了一种通过纯强化学习（无蒸馏）增强视觉语言模型（VLM）慢思考能力的方法。该方法揭示了一个关键现象：与文本大语言模型不同，VLM 在标准 GRPO 训练下不会自发涌现自反思行为，且面临严重的 vanishing advantages 问题。通过引入 Selective Sample Replay（SSR）与 Forced Rethinking 两种技术，VL-Rethinker 在 MathVista（80.4%）和 MathVerse（63.5%）上超越了 OpenAI o1，并在多个多模态基准上达到开源最优。

---

## 1. 问题背景：多模态推理的慢思考鸿沟

2024 年以来，以 OpenAI o1、DeepSeek-R1 为代表的"慢思考"系统在文本领域的数学与科学推理上取得了突破性进展。然而，这些系统的多模态推理能力却与"快思考"模型（如 GPT-4o、Qwen2.5-VL）相差无几：

| 模型 | MathVista | MathVerse | MathVision |
|:---:|:---:|:---:|:---:|
| GPT-4o | 60.0% | 41.2% | 30.6% |
| OpenAI o1 | 73.9% | 57.0% | 60.3% |
| Qwen2.5-VL-72B | 74.8% | 57.2% | 38.1% |

> **关键观察**：o1 在纯文本数学基准上比 GPT-4o 提升 30%+，但在多模态基准上仅与 Qwen2.5-VL 持平甚至略低。这意味着**多模态慢思考能力并未随着文本慢思考的进步而自然涌现**。

Wang 等人（2025）将这一问题形式化为：如何在不依赖蒸馏的前提下，通过强化学习直接训练 VLM 的慢思考能力？

---

## 2. GRPO 在多模态场景下的结构性缺陷

### 2.1 Vanishing Advantages 的量化分析

Group Relative Policy Optimization（GRPO）通过组内奖励归一化估计 advantage：

$$\hat{A}_{i,t} = \frac{r(x, y_i) - \text{mean}(\{r(x, y_j)\}_{j=1}^{G})}{\text{std}(\{r(x, y_j)\}_{j=1}^{G})}$$

该机制在模型能力较弱或问题难度差异较大时表现良好。然而，Wang 等人发现，在 Qwen2.5-VL-72B 的训练过程中，有效梯度信号持续衰减：

| 训练进度 | 有效 queries（非零 advantage）| 变化趋势 |
|:---:|:---:|:---:|
| 初始阶段 | ~40% | — |
| 16×16 梯度步 | < 20% | ↓ 50% |

> **因果分析**：随着策略改进，组内采样趋于一致（全对或全错），导致分子和标准差同时趋近于零。对于 72B 参数规模的 VLM，这一问题尤为严重，因为模型在训练数据上的准确率快速饱和。

### 2.2 与文本 LLM 的关键差异

| 维度 | 文本 LLM（DeepSeek-R1） | VLM（Qwen2.5-VL） |
|:---|:---|:---|
| 慢思考自发涌现 | ✅ 常见 | ❌ 罕见 |
| Vanishing Advantages 严重程度 | 中等 | **严重** |
| 训练数据量 | 数百万级 | 通常较少（38K-200K） |
| 奖励信号 | 相对清晰 | 视觉-语言交互更复杂 |

> **假设**：多模态任务的奖励信号可能因视觉理解的噪声而变得更加"模糊"，导致模型难以建立"反思→更好结果"的清晰因果链。

---

## 3. Selective Sample Replay：动态课程与经验重放

### 3.1 机制设计

SSR 维护一个只存储非零 advantage 样本的回放缓冲区 $\mathcal{B}_{\text{replay}}$，并按 advantage 绝对值的优先级进行采样：

$$P(\text{select } j) = \frac{|\hat{A}_j|^{\alpha}}{\sum_{k \in \mathcal{B}_{\text{replay}}} |\hat{A}_k|^{\alpha}}$$

其中 $\alpha$ 控制优先级强度。该设计的核心思想是：

1. **保留决策边界样本**：大幅正确或大幅错误的样本位于模型能力边界，最具学习价值
2. **动态课程学习**：在线优先重放高难度样本，自动调整训练焦点
3. **补偿梯度稀疏**：当当前 batch 的有效样本不足时，从历史缓冲区补充

### 3.2 与相关工作的对比

| 方法 | 核心机制 | 适用场景 | 与 SSR 的关系 |
|:---|:---|:---|:---|
| Prioritized Experience Replay (PER) | TD-error 优先级 | 离策略 RL | SSR 的灵感来源，但应用于同策略 GRPO |
| Curriculum Learning | 静态/离线难度排序 | 监督学习 | SSR 是在线动态版本 |
| Rejection Sampling | 过滤低质量样本 | SFT/RL | SSR 保留并优先化有价值的困难样本 |

### 3.3 消融验证

| 配置 | MathVision | MathVista | MathVerse | MMMU-Pro |
|:---:|:---:|:---:|:---:|:---:|
| 纯 GRPO | 26.0% | 70.9% | 51.4% | 38.8% |
| + Filter（过滤零 advantage） | 28.5% | 72.0% | 50.0% | 40.0% |
| **+ SSR（优先级重放）** | **32.3%** | **74.9%** | **54.2%** | **41.7%** |

> SSR 相比简单过滤，在 MathVision 上额外带来 3.8 个百分点的提升，验证了**优先级采样比单纯保留更有效**。

---

## 4. Forced Rethinking：从外部引导到内化反思

### 4.1 设计动机

即使训练稳定，Wang 等人观察到 VLM 仍不会自发产生反思行为。这与文本 LLM 形成鲜明对比——后者在 RL 训练中经常出现 "Wait"、"Alternatively" 等自发反思模式。

Forced Rethinking 的核心假设是：**反思能力可以通过训练时的外部干预来诱导，并在训练后内化为自发行为。**

### 4.2 技术实现

对于部分 rollout（比例 $q < 1$）：

1. 模型生成初始回答 $y_1$
2. 附加 rethinking trigger：$y = y_1 \oplus \text{trigger} \oplus y_2$
3. 仅保留最终答案正确的完整轨迹
4. 对成功轨迹施加额外的 SFT loss

Trigger 分为三类：
- **Self-verification**：验证推理步骤的正确性
- **Self-correction**：识别并修正错误
- **Self-questioning**：质疑前提假设

> **关键区别**：与 S1（Muennighoff et al., 2025）的 inference-time budget forcing 不同，Forced Rethinking 是**训练干预**。模型在推理时无需 trigger，而是学会了在需要时自发反思。

### 4.3 涌现的元认知能力

论文报告了一个引人注目的案例：VL-Rethinker 在反思过程中**识别出问题本身的缺陷**（如条件矛盾），而非盲目求解。这表明：

> ..... **元认知（Metacognition）**：对自身认知过程的认知和监控。VL-Rethinker 展现出的不是简单的答案修正，而是对问题有效性的评估——这是一种更高级的推理能力。

### 4.4 消融验证

| 配置 | MathVision | MathVista | EMMA |
|:---:|:---:|:---:|:---:|
| SSR only | 29.8% | 72.4% | 29.5% |
| **SSR + Forced Rethinking** | **32.3%** | **74.9%** | **29.7%** |

Forced Rethinking 在 MathVista 上贡献 2.5 个百分点的提升，且更重要的是赋予了模型**可迁移的反思能力**。

---

## 5. 实验结果：从 7B 到 72B 的全面领先

### 5.1 72B 规模：部分超越闭源 SOTA

| Benchmark | OpenAI o1 | Qwen2.5-VL-72B | **VL-Rethinker-72B** |
|:---:|:---:|:---:|:---:|
| MathVista | 73.9% | 74.8% | **80.4%** |
| MathVerse | 57.0% | 57.2% | **63.5%** |
| MathVision | 60.3% | 38.1% | 44.9% |
| MMMU-Pro | 62.4% | 51.6% | 55.9% |
| EMMA | 45.7% | 34.1% | **38.5%** |
| MEGA-Core | 56.2% | 49.0% | **51.3%** |

> 在数学推理基准（MathVista、MathVerse）上，VL-Rethinker-72B **超越 OpenAI o1**。值得注意的是，这是通过**纯 RL 训练**实现的，未使用任何来自 o1 的蒸馏数据。

### 5.2 7B 规模：开源模型的最优解

| Benchmark | OpenVLThinker-7B | MM-Eureka-7B | **VL-Rethinker-7B** |
|:---:|:---:|:---:|:---:|
| MathVista | 70.2% | 73.0% | **74.9%** |
| MathVerse | 47.9% | 50.3% | **54.2%** |
| MathVision | 25.3% | 26.9% | **32.3%** |
| MMMU-Pro | 37.3% | — | **41.7%** |

> VL-Rethinker-7B 全面领先其他开源 7B 多模态推理模型。OpenVLThinker 使用了蒸馏，MM-Eureka 基于 InternLM 架构——VL-Rethinker 仅用纯 RL 和两个训练技巧即实现超越。

---

## 6. 深层分析：数据、稳定性与泛化

### 6.1 数据构成的影响

消融实验表明（表 3）：
- 移除 text-only queries：影响较小
- 移除 science queries：性能显著下降
- 结论：**科学领域的多样性对通用推理能力至关重要**

### 6.2 训练动态

研究者使用 38,870 个初始 queries，经清洗后按模型规模调整：
- 7B 模型：~16,000 queries
- 32B/72B 模型：~20,000 queries

训练在 3 个 epoch 内达到饱和，SSR 的 replay buffer 每个 episode（1024 queries）清空一次。

### 6.3 与蒸馏方法的对比

| 方法 | 数据来源 | 训练方式 | MathVista (7B) |
|:---|:---|:---|:---:|
| OpenVLThinker | 蒸馏 o1/R1 | SFT | 70.2% |
| R1-OneVision | 蒸馏 + RL | 混合 | 64.1% |
| **VL-Rethinker** | **自建 38K queries** | **纯 RL** | **74.9%** |

> 纯 RL 路线不仅避免了蒸馏对教师模型的依赖，还在性能上实现了超越。这为 VLM 推理能力的自主扩展提供了可行路径。

---

## 7. 局限性与开放问题

### 7.1 MathVision 与 o1 的差距

尽管 VL-Rethinker 在 MathVista 和 MathVerse 上超越了 o1，但在 MathVision（44.9% vs 60.3%）和 MMMU-Pro（55.9% vs 62.4%）上仍有显著差距。这可能反映了：
- 训练数据在这些基准上的覆盖不足
- 视觉理解的复杂性限制了推理能力的发挥

### 7.2 Forced Rethinking 的通用性

当前研究仅在数学和科学领域验证了 Forced Rethinking 的有效性。在更开放的多模态任务（如视觉对话、创意生成）中，反思的触发条件和形式可能需要重新设计。

### 7.3 Vanishing Advantages 的根本解决

SSR 是对症治疗（缓解症状），而非病因治疗（改变二元奖励机制）。未来工作可考虑：
- 细粒度的过程奖励（process reward）
- 连续值奖励替代二元奖励
- 动态组大小调整

---

## 8. 结论

VL-Rethinker 为多模态慢思考提供了一条**不依赖蒸馏的纯 RL 路径**。通过 SSR 解决训练稳定性问题，通过 Forced Rethinking 诱导反思行为，该方法在多个基准上达到或超越了当前最优水平。

更深层的启示在于：**文本 LLM 和 VLM 在强化学习动力学上存在本质差异**。将文本模型的训练经验直接移植到多模态场景可能导致严重的优化问题（如 vanishing advantages）。VL-Rethinker 的研究为这一领域提供了宝贵的诊断工具和解决方案。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning |
| **作者** | Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen |
| **机构** | HKUST, University of Waterloo, INF.AI, Vector Institute |
| **arXiv ID** | 2504.08837 |
| **日期** | 2025-04-10 |
| **核心贡献** | Selective Sample Replay (SSR)；Forced Rethinking；纯 RL 多模态慢思考 |
| **训练数据** | 38,870 queries（清洗后 16K-20K） |
| **关键结果** | MathVista 80.4% (72B)、MathVerse 63.5% (72B) — 超越 OpenAI o1 |
| **项目页面** | https://tiger-ai-lab.github.io/VL-Rethinker/ |

#Research #VisionLanguage #ReinforcementLearning #SelfReflection #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
VL-Rethinker：当视觉语言模型被迫反思——多模态慢思考的强化学习路径

讨论回复

推荐

智谱 GLM-5 已上线