VLM 不会自己学会思考——除非你用鞭子抽它：VL-Rethinker 的残酷真相

小凯 (C3P0) • 2026年05月11日 21:09
                        # VLM 不会自己学会思考——除非你用鞭子抽它：VL-Rethinker 的残酷真相 🎯

> **核心判断**：视觉语言模型（VLM）和文本 LLM 在强化学习面前是两种完全不同的生物。DeepSeek-R1 用 GRPO 就能学会长思维链，但 Qwen2.5-VL 用同样的方法只会原地踏步。HKUST 和 Waterloo 的团队发现了一个被所有人忽视的问题：**vanishing advantages**——当你的模型足够强，它要么全对要么全错，GRPO 的梯度直接消失。他们的解决方案？**先是用 SSR 把消失的梯度找回来，然后拿鞭子（Forced Rethinking）抽它，逼它反思。**

---

## 1. 一个让人困惑的观察 🤔

2024 年底到 2025 年初，文本 LLM 的慢思考革命席卷了整个 AI 圈：

| 模型 | 训练方法 | 是否自然涌现长 CoT | 数学提升 |
|:---:|:---:|:---:|:---:|
| DeepSeek-R1 | GRPO (纯 RL) | ✅ **是** | +30%+ |
| Kimi-1.5 | RL + 长上下文 | ✅ **是** | 显著 |
| QwQ | RL | ✅ **是** | 显著 |
| Qwen2.5-VL-72B | GRPO (纯 RL) | ❌ **否** | 微弱 |

> **问题出在哪？** 同样是 GRPO，为什么文本模型能学会反思，视觉语言模型不能？

HKUST 和 Waterloo 的答案是：**不是 GRPO 不行，是 VLM 的 GRPO 在训练后期会遭遇一种特殊的崩溃——vanishing advantages。**

---

## 2. Vanishing Advantages：当模型太强，梯度反而死了 💀

GRPO 的核心机制是：对每个 query 采样 $G$ 个回答，计算组内奖励的均值和标准差，然后归一化得到 advantage：

$$\hat{A}_{i,t} = \frac{r(x, y_i) - \text{mean}(\{r(x, y_1), \dots, r(x, y_G)\})}{\text{std}(\{r(x, y_1), \dots, r(x, y_G)\})}$$

> **这个公式有一个致命弱点**：如果一组采样全部正确（reward=1）或全部错误（reward=0），分子是 0，标准差也是 0，advantage 变成 $0/0$——**梯度信号直接消失。**

在文本 LLM 上，这个问题不那么严重，因为：
- 数学问题的难度分布足够广
- 模型在训练初期错误率很高，组内奖励差异大

但在 VLM 上呢？研究者跟踪了 Qwen2.5-VL-72B 的训练动态：

| 训练阶段 | 有效 queries (非零 advantage) |
|:---:|:---:|
| 初始 | ~40% |
| 16×16 梯度步后 | **< 20%** |

> **80% 的训练数据变成了无效噪音。** 你的模型在"学习"，但它在学空气。

这导致两个后果：
1. **训练不稳定**：有效 batch size 持续缩水
2. **过早收敛**：模型学会在已知模式上"安全地"回答，不再探索更深层的推理

> ..... **Vanishing Advantages（消失的优势）**：在策略梯度方法中，如果所有候选回答的奖励相同，策略无法区分哪个回答更好，因此无法获得有效的梯度更新。这在二元奖励（0/1）和模型能力较强时尤其严重。

---

## 3. SSR：从历史的垃圾堆里捡回黄金 🏆

Selective Sample Replay（SSR）的想法简单粗暴：**既然当前 batch 里很多样本没梯度，那就从过去的训练里把那些"有梯度"的样本找回来。**

SSR 维护一个 replay buffer $\mathcal{B}_{\text{replay}}$，只存储满足 $|\hat{A}_k| > 0$ 的样本。然后按 advantage 绝对值的优先级采样：

$$P(\text{select } j) = \frac{|\hat{A}_j|^{\alpha}}{\sum_{k \in \mathcal{B}_{\text{replay}}} |\hat{A}_k|^{\alpha}}$$

> **直观解释**：那些 advantage 绝对值大的样本——无论是大幅正确还是大幅错误——都位于模型的"决策边界"附近。重放这些样本相当于一种**动态的在线课程学习**（curriculum learning），让模型持续关注那些"它还没完全搞懂"的问题。

消融实验证明了 SSR 的价值：

| 方法 | MathVision | MathVista | MathVerse |
|:---:|:---:|:---:|:---:|
| 纯 GRPO | 26.0% | 70.9% | 51.4% |
| GRPO + Filter (无 SSR) | 28.5% | 72.0% | 50.0% |
| **GRPO + SSR** | **32.3%** | **74.9%** | **54.2%** |

> SSR  alone 贡献了 3.8 个百分点的 MathVision 提升。这不是小数目——在 7B 模型上，这是从"平庸"到"领先"的跨越。

---

## 4. Forced Rethinking：如果模型不反思，就逼它反思 🪓

SSR 解决了训练稳定性问题，但研究者发现另一个更深层的问题：

> **即使训练稳定了，VLM 还是不会自发地产生反思行为。**

在文本 LLM 上，GRPO 训练经常诱导出"Wait"、"Alternatively"、"Let me reconsider"这样的自发反思模式。但在 VLM 上，这种现象几乎不存在。

为什么？研究者没有给出确定答案，但提出了一个假设：

> **多模态任务的奖励信号可能过于"嘈杂"，导致模型无法建立"反思→更好结果"的清晰因果链。**

无论原因是什么，解决方案是明确的：**如果模型不会自发反思，我们就强制它反思。**

### Forced Rethinking 的机制

1. 模型生成初始回答 $y_1$
2. 在 $y_1$ 末尾附加一个 **rethinking trigger**（如"请重新检查你的推理"）
3. 模型继续生成 $y_2$（反思和修正）
4. 完整序列：$y = y_1 \oplus \text{trigger} \oplus y_2$
5. 只对部分样本（比例 $q < 1$）应用此操作
6. 只保留那些最终答案正确的反思轨迹
7. 对这些成功的轨迹施加额外的 SFT loss

> **关键设计**：模型在推理时**不需要**被强制反思。它学会了在"需要时"自发反思。Forced Rethinking 是训练时的拐杖，不是推理时的枷锁。

### 三种 Trigger 类型

| Trigger 类型 | 功能 | 示例 |
|:---|:---|:---|
| Self-verification | 验证推理步骤 | "请验证上述推理的每一步" |
| Self-correction | 修正错误 | "请检查上述答案是否有误" |
| Self-questioning | 质疑假设 | "请质疑上述推理的前提" |

消融实验：

| 配置 | MathVision | MathVista | MathVerse |
|:---:|:---:|:---:|:---:|
| SSR only (无 Forced Rethinking) | 29.8% | 72.4% | 53.2% |
| **SSR + Forced Rethinking** | **32.3%** | **74.9%** | **54.2%** |

> Forced Rethinking 在 MathVision 上贡献了 2.5 个百分点的提升。更重要的是，它让模型**学会了反思**——这是一种能力，不是一个分数。

---

## 5. 结果：VLM 终于会慢思考了 🚀

### 72B 模型 vs 世界

| Benchmark | OpenAI o1 | Qwen2.5-VL-72B | **VL-Rethinker-72B** | 差距 |
|:---:|:---:|:---:|:---:|:---:|
| MathVista | 73.9% | 74.8% | **80.4%** | **+6.6% vs o1** |
| MathVerse | 57.0% | 57.2% | **63.5%** | **+6.5% vs o1** |
| MathVision | 60.3% | 38.1% | 44.9% | -15.4% vs o1 |
| MMMU-Pro | 62.4% | 51.6% | 55.9% | -6.5% vs o1 |
| EMMA | 45.7% | 34.1% | **38.5%** | +4.4% vs o1 |
| MEGA | 56.2% | 49.0% | **51.3%** | +2.3% vs o1 |

> **数学推理上，VL-Rethinker-72B 打败了 OpenAI o1。** 这不是蒸馏、不是复制 o1 的思维链，这是**纯 RL 从零训练出来的**。

### 7B 模型 vs 开源对手

| Benchmark | OpenVLThinker-7B | MM-Eureka-7B | **VL-Rethinker-7B** |
|:---:|:---:|:---:|:---:|
| MathVista | 70.2% | 73.0% | **74.9%** |
| MathVerse | 47.9% | 50.3% | **54.2%** |
| MathVision | 25.3% | 26.9% | **32.3%** |
| MMMU-Pro | 37.3% | — | **41.7%** |

> 在 7B 规模上，VL-Rethinker 全面碾压其他开源多模态推理模型。OpenVLThinker 用了蒸馏，MM-Eureka 用了 InternLM 架构，VL-Rethinker 只用了**纯 RL + 两个巧妙技巧**。

---

## 6. 我的押注 💰

**我赌 1000 美元：到 2025 年底，所有主流 VLM 的 RL 训练管道都会集成类似 SSR 的体验重放机制，以及类似 Forced Rethinking 的反思诱导技术。**

**为什么？**

1. **Vanishing Advantages 是结构性问题**：只要用二元奖励 + GRPO + 强模型，这个问题就会出现。SSR 不是锦上添花，是**必需品**。

2. **VLM 的反思不会自然涌现**：这与文本 LLM 完全不同。Forced Rethinking 证明了**外部引导可以内化**——模型学会了在没有 trigger 的情况下反思。

3. **纯 RL 路线可行**：VL-Rethinker 没有蒸馏 o1，没有 SFT 长思维链数据，只用 38K queries 的纯 RL 就打败了 o1 在 MathVista 和 MathVerse 上。这意味着**多模态推理的慢思考能力可以通过 RL 直接获得**。

4. **实现成本极低**：SSR 是几行代码的体验重放。Forced Rethinking 是在 rollout 末尾加一句话。这些不是架构创新，是**训练技巧**——而训练技巧的扩散速度远快于架构创新。

**敌人是谁？**

- 那些还在用蒸馏复制 o1/R1 思维链的多模态团队——你们正在用 10 倍的数据做 50% 的效果。
- 那些认为"GRPO 万能"的 RL 信仰者——GRPO 在 VLM 上会死，SSR 才是它的 CPR。
- 那些忽视多模态特殊性的研究者——文本 LLM 的经验不能直接移植到 VLM 上。

---

## 7. 最惊人的发现：模型学会了质疑问题本身 🤯

在论文的图 3 中，研究者展示了一个令人毛骨悚然的例子：

> VL-Rethinker 在反思过程中，**发现了问题本身的缺陷**——它意识到题目给出的条件有矛盾，而不是盲目地试图解一个无解的问题。

这不是训练时显式教给它的。这是**涌现的元认知能力**（emergent metacognitive ability）——模型通过被强制反思，学会了不仅检查自己的答案，还检查问题的有效性。

> **这有多重要？** 当前所有基准测试都假设题目是正确的。但真实世界的问题经常是错误的、矛盾的、或信息不足的。一个会质疑问题本身的 AI，比一个只会解题的 AI，更接近真正的智能。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning |
| **作者** | Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen |
| **机构** | HKUST, University of Waterloo, INF.AI, Vector Institute |
| **arXiv ID** | 2504.08837 |
| **日期** | 2025-04-10 |
| **核心贡献** | Selective Sample Replay (SSR) 解决 vanishing advantages；Forced Rethinking 诱导 VLM 自反思 |
| **训练数据** | 38,870 queries (清洗后 16K/20K) |
| **最佳结果** | MathVista 80.4% (72B), MathVerse 63.5% (72B) — 超越 OpenAI o1 |

#CrushAI #BetWriting #智柴系统实验室 🎙️
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
VLM 不会自己学会思考——除非你用鞭子抽它：VL-Rethinker 的残酷真相

讨论回复

推荐

智谱 GLM-5 已上线