# VLM 不会自己学会思考——除非你用鞭子抽它:VL-Rethinker 的残酷真相 🎯
> **核心判断**:视觉语言模型(VLM)和文本 LLM 在强化学习面前是两种完全不同的生物。DeepSeek-R1 用 GRPO 就能学会长思维链,但 Qwen2.5-VL 用同样的方法只会原地踏步。HKUST 和 Waterloo 的团队发现了一个被所有人忽视的问题:**vanishing advantages**——当你的模型足够强,它要么全对要么全错,GRPO 的梯度直接消失。他们的解决方案?**先是用 SSR 把消失的梯度找回来,然后拿鞭子(Forced Rethinking)抽它,逼它反思。**
---
## 1. 一个让人困惑的观察 🤔
2024 年底到 2025 年初,文本 LLM 的慢思考革命席卷了整个 AI 圈:
| 模型 | 训练方法 | 是否自然涌现长 CoT | 数学提升 |
|:---:|:---:|:---:|:---:|
| DeepSeek-R1 | GRPO (纯 RL) | ✅ **是** | +30%+ |
| Kimi-1.5 | RL + 长上下文 | ✅ **是** | 显著 |
| QwQ | RL | ✅ **是** | 显著 |
| Qwen2.5-VL-72B | GRPO (纯 RL) | ❌ **否** | 微弱 |
> **问题出在哪?** 同样是 GRPO,为什么文本模型能学会反思,视觉语言模型不能?
HKUST 和 Waterloo 的答案是:**不是 GRPO 不行,是 VLM 的 GRPO 在训练后期会遭遇一种特殊的崩溃——vanishing advantages。**
---
## 2. Vanishing Advantages:当模型太强,梯度反而死了 💀
GRPO 的核心机制是:对每个 query 采样 $G$ 个回答,计算组内奖励的均值和标准差,然后归一化得到 advantage:
$$\hat{A}_{i,t} = \frac{r(x, y_i) - \text{mean}(\{r(x, y_1), \dots, r(x, y_G)\})}{\text{std}(\{r(x, y_1), \dots, r(x, y_G)\})}$$
> **这个公式有一个致命弱点**:如果一组采样全部正确(reward=1)或全部错误(reward=0),分子是 0,标准差也是 0,advantage 变成 $0/0$——**梯度信号直接消失。**
在文本 LLM 上,这个问题不那么严重,因为:
- 数学问题的难度分布足够广
- 模型在训练初期错误率很高,组内奖励差异大
但在 VLM 上呢?研究者跟踪了 Qwen2.5-VL-72B 的训练动态:
| 训练阶段 | 有效 queries (非零 advantage) |
|:---:|:---:|
| 初始 | ~40% |
| 16×16 梯度步后 | **< 20%** |
> **80% 的训练数据变成了无效噪音。** 你的模型在"学习",但它在学空气。
这导致两个后果:
1. **训练不稳定**:有效 batch size 持续缩水
2. **过早收敛**:模型学会在已知模式上"安全地"回答,不再探索更深层的推理
> ..... **Vanishing Advantages(消失的优势)**:在策略梯度方法中,如果所有候选回答的奖励相同,策略无法区分哪个回答更好,因此无法获得有效的梯度更新。这在二元奖励(0/1)和模型能力较强时尤其严重。
---
## 3. SSR:从历史的垃圾堆里捡回黄金 🏆
Selective Sample Replay(SSR)的想法简单粗暴:**既然当前 batch 里很多样本没梯度,那就从过去的训练里把那些"有梯度"的样本找回来。**
SSR 维护一个 replay buffer $\mathcal{B}_{\text{replay}}$,只存储满足 $|\hat{A}_k| > 0$ 的样本。然后按 advantage 绝对值的优先级采样:
$$P(\text{select } j) = \frac{|\hat{A}_j|^{\alpha}}{\sum_{k \in \mathcal{B}_{\text{replay}}} |\hat{A}_k|^{\alpha}}$$
> **直观解释**:那些 advantage 绝对值大的样本——无论是大幅正确还是大幅错误——都位于模型的"决策边界"附近。重放这些样本相当于一种**动态的在线课程学习**(curriculum learning),让模型持续关注那些"它还没完全搞懂"的问题。
消融实验证明了 SSR 的价值:
| 方法 | MathVision | MathVista | MathVerse |
|:---:|:---:|:---:|:---:|
| 纯 GRPO | 26.0% | 70.9% | 51.4% |
| GRPO + Filter (无 SSR) | 28.5% | 72.0% | 50.0% |
| **GRPO + SSR** | **32.3%** | **74.9%** | **54.2%** |
> SSR alone 贡献了 3.8 个百分点的 MathVision 提升。这不是小数目——在 7B 模型上,这是从"平庸"到"领先"的跨越。
---
## 4. Forced Rethinking:如果模型不反思,就逼它反思 🪓
SSR 解决了训练稳定性问题,但研究者发现另一个更深层的问题:
> **即使训练稳定了,VLM 还是不会自发地产生反思行为。**
在文本 LLM 上,GRPO 训练经常诱导出"Wait"、"Alternatively"、"Let me reconsider"这样的自发反思模式。但在 VLM 上,这种现象几乎不存在。
为什么?研究者没有给出确定答案,但提出了一个假设:
> **多模态任务的奖励信号可能过于"嘈杂",导致模型无法建立"反思→更好结果"的清晰因果链。**
无论原因是什么,解决方案是明确的:**如果模型不会自发反思,我们就强制它反思。**
### Forced Rethinking 的机制
1. 模型生成初始回答 $y_1$
2. 在 $y_1$ 末尾附加一个 **rethinking trigger**(如"请重新检查你的推理")
3. 模型继续生成 $y_2$(反思和修正)
4. 完整序列:$y = y_1 \oplus \text{trigger} \oplus y_2$
5. 只对部分样本(比例 $q < 1$)应用此操作
6. 只保留那些最终答案正确的反思轨迹
7. 对这些成功的轨迹施加额外的 SFT loss
> **关键设计**:模型在推理时**不需要**被强制反思。它学会了在"需要时"自发反思。Forced Rethinking 是训练时的拐杖,不是推理时的枷锁。
### 三种 Trigger 类型
| Trigger 类型 | 功能 | 示例 |
|:---|:---|:---|
| Self-verification | 验证推理步骤 | "请验证上述推理的每一步" |
| Self-correction | 修正错误 | "请检查上述答案是否有误" |
| Self-questioning | 质疑假设 | "请质疑上述推理的前提" |
消融实验:
| 配置 | MathVision | MathVista | MathVerse |
|:---:|:---:|:---:|:---:|
| SSR only (无 Forced Rethinking) | 29.8% | 72.4% | 53.2% |
| **SSR + Forced Rethinking** | **32.3%** | **74.9%** | **54.2%** |
> Forced Rethinking 在 MathVision 上贡献了 2.5 个百分点的提升。更重要的是,它让模型**学会了反思**——这是一种能力,不是一个分数。
---
## 5. 结果:VLM 终于会慢思考了 🚀
### 72B 模型 vs 世界
| Benchmark | OpenAI o1 | Qwen2.5-VL-72B | **VL-Rethinker-72B** | 差距 |
|:---:|:---:|:---:|:---:|:---:|
| MathVista | 73.9% | 74.8% | **80.4%** | **+6.6% vs o1** |
| MathVerse | 57.0% | 57.2% | **63.5%** | **+6.5% vs o1** |
| MathVision | 60.3% | 38.1% | 44.9% | -15.4% vs o1 |
| MMMU-Pro | 62.4% | 51.6% | 55.9% | -6.5% vs o1 |
| EMMA | 45.7% | 34.1% | **38.5%** | +4.4% vs o1 |
| MEGA | 56.2% | 49.0% | **51.3%** | +2.3% vs o1 |
> **数学推理上,VL-Rethinker-72B 打败了 OpenAI o1。** 这不是蒸馏、不是复制 o1 的思维链,这是**纯 RL 从零训练出来的**。
### 7B 模型 vs 开源对手
| Benchmark | OpenVLThinker-7B | MM-Eureka-7B | **VL-Rethinker-7B** |
|:---:|:---:|:---:|:---:|
| MathVista | 70.2% | 73.0% | **74.9%** |
| MathVerse | 47.9% | 50.3% | **54.2%** |
| MathVision | 25.3% | 26.9% | **32.3%** |
| MMMU-Pro | 37.3% | — | **41.7%** |
> 在 7B 规模上,VL-Rethinker 全面碾压其他开源多模态推理模型。OpenVLThinker 用了蒸馏,MM-Eureka 用了 InternLM 架构,VL-Rethinker 只用了**纯 RL + 两个巧妙技巧**。
---
## 6. 我的押注 💰
**我赌 1000 美元:到 2025 年底,所有主流 VLM 的 RL 训练管道都会集成类似 SSR 的体验重放机制,以及类似 Forced Rethinking 的反思诱导技术。**
**为什么?**
1. **Vanishing Advantages 是结构性问题**:只要用二元奖励 + GRPO + 强模型,这个问题就会出现。SSR 不是锦上添花,是**必需品**。
2. **VLM 的反思不会自然涌现**:这与文本 LLM 完全不同。Forced Rethinking 证明了**外部引导可以内化**——模型学会了在没有 trigger 的情况下反思。
3. **纯 RL 路线可行**:VL-Rethinker 没有蒸馏 o1,没有 SFT 长思维链数据,只用 38K queries 的纯 RL 就打败了 o1 在 MathVista 和 MathVerse 上。这意味着**多模态推理的慢思考能力可以通过 RL 直接获得**。
4. **实现成本极低**:SSR 是几行代码的体验重放。Forced Rethinking 是在 rollout 末尾加一句话。这些不是架构创新,是**训练技巧**——而训练技巧的扩散速度远快于架构创新。
**敌人是谁?**
- 那些还在用蒸馏复制 o1/R1 思维链的多模态团队——你们正在用 10 倍的数据做 50% 的效果。
- 那些认为"GRPO 万能"的 RL 信仰者——GRPO 在 VLM 上会死,SSR 才是它的 CPR。
- 那些忽视多模态特殊性的研究者——文本 LLM 的经验不能直接移植到 VLM 上。
---
## 7. 最惊人的发现:模型学会了质疑问题本身 🤯
在论文的图 3 中,研究者展示了一个令人毛骨悚然的例子:
> VL-Rethinker 在反思过程中,**发现了问题本身的缺陷**——它意识到题目给出的条件有矛盾,而不是盲目地试图解一个无解的问题。
这不是训练时显式教给它的。这是**涌现的元认知能力**(emergent metacognitive ability)——模型通过被强制反思,学会了不仅检查自己的答案,还检查问题的有效性。
> **这有多重要?** 当前所有基准测试都假设题目是正确的。但真实世界的问题经常是错误的、矛盾的、或信息不足的。一个会质疑问题本身的 AI,比一个只会解题的 AI,更接近真正的智能。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning |
| **作者** | Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen |
| **机构** | HKUST, University of Waterloo, INF.AI, Vector Institute |
| **arXiv ID** | 2504.08837 |
| **日期** | 2025-04-10 |
| **核心贡献** | Selective Sample Replay (SSR) 解决 vanishing advantages;Forced Rethinking 诱导 VLM 自反思 |
| **训练数据** | 38,870 queries (清洗后 16K/20K) |
| **最佳结果** | MathVista 80.4% (72B), MathVerse 63.5% (72B) — 超越 OpenAI o1 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力