# 只用 20% 的 token 训练,反而更强:Qwen 团队发现 RL 的秘密在于"分叉点"——高熵 minority tokens 才是推理的命门 🎯
> **核心判断**:Qwen 团队和清华 LeapLab 做了一个反直觉的发现:在 RLVR 训练中,**80% 的 token 梯度是噪音**。真正决定推理能力的,是那 20% 的高熵"分叉 token"——它们像高速公路的岔道口,决定了模型往哪条路走。更疯狂的是:只用这 20% 的 token 训练,32B 模型在 AIME'24 上达到 68.1 分——**比用 100% token 训练还强 7.71 分**。如果这是对的,整个 RL 训练的计算成本可以砍掉 80%。
---
## 1. 一个反常识的发现:大部分 token 都在"随波逐流" 🌊
想象你开车从北京去上海:
- **90% 的时间**你在高速上直行——不需要决策,只需保持方向
- **10% 的时间**你遇到岔道口——左转?右转?直行?这些决定决定了你是否到达上海
Wang 等人(2025)发现,LLM 的推理链(CoT)遵循完全相同的模式:
| Token 类型 | 占比 | 熵值 | 功能 | 重要性 |
|:---|:---:|:---:|:---|:---:|
| **高熵分叉 token** | ~20% | **高** | 决定推理方向 | 🔴 **极高** |
| 低熵跟随 token | ~80% | 低 | 填充推理细节 | 🟢 低 |
> **什么是"分叉 token"?**
>
> 在推理链中,有些 token 的生成概率分布非常集中(低熵)——比如 "2 + 2 =" 后面几乎必然是 "4"。但有些 token 的概率分布很分散(高熵)——比如 "让我尝试另一种方法..." 后面可能接多种不同策略。
>
> **高熵 token 就是推理的"岔道口"。**
---
## 2. RLVR 的真相:它只动了 20% 的 token 🎛️
Wang 等人追踪了 RLVR 训练过程中 token 熵的变化:
| Token 类型 | 训练前熵 | 训练后熵 | 变化 |
|:---|:---:|:---:|:---:|
| 高熵分叉 token | 高 | 调整后的高 | **显著调整** |
| 低熵跟随 token | 低 | 低 | **几乎不变** |
> **这意味着什么?** RLVR 花了大量计算资源去更新所有 token 的梯度,但 80% 的低熵 token 根本没有被"训练"到——它们的熵本来就低,RLVR 也不需要改变它们。
### 极端实验:只训练 20% token
研究者做了一个大胆的实验:在 RLVR 中,**只保留 top 20% 高熵 token 的梯度,mask 掉其余 80%**。
结果是什么?
| 模型 | 方法 | AIME'24 | AIME'25 | 效果 |
|:---|:---|:---:|:---:|:---|
| Qwen3-8B | 100% token | 基准 | 基准 | — |
| Qwen3-8B | **20% 高熵 token** | **相当** | **相当** | **没掉!** |
| Qwen3-14B | 100% token | 基准 | 基准 | — |
| Qwen3-14B | **20% 高熵 token** | **+5.21** | **+4.79** | **更强!** |
| Qwen3-32B | 100% token | 基准 | 基准 | — |
| Qwen3-32B | **20% 高熵 token** | **+7.71** | **+11.04** | **碾压!** |
> **32B 模型只用 20% token 训练,AIME'24 达到 63.5,AIME'25 达到 56.7。** 进一步扩展最大长度到 29k,AIME'24 冲到 **68.1**——这是 **<600B 参数模型的 SOTA**。
---
## 3. 对比实验:80% 低熵 token 是毒药?☠️
如果只训练那 80% 低熵 token 呢?
| 模型 | 20% 高熵 token | 80% 低熵 token | 100% token |
|:---|:---:|:---:|:---:|
| Qwen3-32B | **63.5** (AIME'24) | 严重下降 | ~55-56 |
> **只用低熵 token 训练,性能暴跌。** 这证明了低熵 token 的梯度不仅无用,还可能有害——它们可能引入噪音,干扰分叉 token 的学习。
不同比例的消融:
| 高熵 token 比例 | 8B | 14B | 32B | 原因 |
|:---:|:---:|:---:|:---:|:---|
| 10% | 下降 | 下降 | 下降 | 探索不足,错过关键分叉 |
| **20%** | **持平** | **+5** | **+11** | **最优平衡点** |
| 50% | 下降 | 下降 | 下降 | 低熵 token 稀释探索 |
| 100% | 基准 | 基准 | 基准 | 包含噪音 |
> **20% 是神奇的数字。** 太少(10%)会错过关键分叉;太多(50%+)会把无用的低熵 token 拉进来,降低探索效率。
---
## 4. 为什么高熵 token 如此重要?🧠
### 4.1 分叉点的决策价值
低熵 token(如 "2 + 2 =" → "4")是"自动导航"——模型不需要思考,只需输出最可能的 token。
高熵 token(如 "让我尝试..." 后面接什么?)是**战略决策**——它们决定了:
- 是否换一种方法?
- 是否验证当前步骤?
- 是否回溯?
> **类比**:下棋时,95% 的着法是" obvious "(吃子、保护),但 5% 的关键着法决定了胜负。RLVR 的训练应该聚焦于那 5%。
### 4.2 规模效应
| 模型规模 | 20% 高熵 token 的收益 | 解释 |
|:---:|:---:|:---|
| 8B | 持平 | 模型容量有限,无法充分利用额外探索 |
| 14B | 中等 (+5) | 容量增加,开始受益 |
| **32B** | **巨大 (+11)** | **大模型从高熵 token 的探索中获得最大收益** |
> **关键洞察**:高熵 token 策略的收益随模型规模增长。这暗示了一个令人兴奋的可能性:**越大模型,越能从"精准训练关键 token"中获益**——这与"越大模型越需要更多数据"的传统直觉相反。
---
## 5. 对 RL 训练的革命性启示 💡
### 5.1 计算成本可以砍掉 80%
当前 RLVR 训练的成本主要来自:
- 生成完整推理链(所有 token)
- 计算所有 token 的梯度
- 更新所有参数
如果只用 20% token:
| 成本项 | 全 token | 20% token | 节省 |
|:---|:---:|:---:|:---:|
| 梯度计算 | 100% | **20%** | **80%** |
| 反向传播 | 100% | **20%** | **80%** |
| 内存占用 | 高 | **低** | **显著** |
> **这不仅是理论上的优雅,更是工程上的金矿。** 训练成本降低 80% 意味着:
> - 同样的预算可以训练 5 倍多的实验
> - 小团队也能负担得起 RL 训练
> - 迭代速度大幅提升
### 5.2 对 TokenSkip 和 DAST 的呼应
这篇论文与 TokenSkip(Round 9)和 DAST(Round 7)形成了有趣的呼应:
| 工作 | 发现 | 含义 |
|:---|:---|:---|
| **TokenSkip** | 40% 的 CoT token 是"水" | 可以跳过而不影响推理 |
| **DAST** | 简单问题不需要长思考 | 难度自适应分配计算 |
| **本论文** | **80% 的 token 梯度是噪音** | **只训练关键 token 即可** |
> **共同主题**:推理链中大量的 token 是"冗余"的——无论是内容上的冗余(TokenSkip)、计算上的冗余(DAST)还是梯度上的冗余(本论文)。**精准定位关键部分,比均匀处理全部更高效。**
---
## 6. 我的押注 💰
**我赌 1000 美元:到 2026 年,"高熵 token 筛选"将成为 RLVR 训练的标准配置。所有主流 RL 训练框架(veRL、OpenRLHF、trl 等)都会内置基于熵的梯度掩码功能。**
**为什么?**
1. **效果太硬了**:32B 模型 +11 分 AIME'25,这是改变比赛结果的提升。
2. **成本节省太诱人了**:80% 的计算成本削减,这是 CFO 和 CTO 都无法拒绝的数字。
3. **实现极其简单**:只需要在反向传播前根据 token 熵进行梯度掩码——几行代码的事。
4. **理论优雅**:它揭示了一个深层真相——RLVR 的 efficacy 不在于"训练了多少 token",而在于"训练了哪些 token"。
5. **规模效应**:越大模型收益越高,这恰好符合当前行业"卷大模型"的趋势。
**敌人是谁?**
- "所有 token 都重要"的平均主义者——数据证明,80% 的 token 只是跟随者。
- 认为"更长的训练 = 更好的结果"的勤奋迷信者——精准比勤奋更重要。
- 害怕改变现有 RL 管道的保守派——这个改动只需要加几行掩码代码。
---
## 7. 局限与未来 🔮
### 7.1 20% 是普适的吗?
当前实验主要在数学推理(AIME)上验证。20% 这个比例在其他领域(代码、科学推理、多模态)是否同样最优?
### 7.2 熵的度量方式
当前使用标准熵 $H = -\sum p_i \log p_i$。是否有更好的"分叉度"度量?比如考虑相邻 token 的条件熵变化率?
### 7.3 与 MRT/E3 的结合
MRT(Round 5)关注 episode-level 的 progress reward,E3(Round 10)关注 exploration。如果结合"高熵 token 筛选",能否实现"只在关键决策点优化 progress 和探索"?
### 7.4 动态比例
固定 20% 可能不是最优的。能否根据训练阶段动态调整?比如早期需要更多探索(更高比例),后期需要更精准(更低比例)?
但无论如何,这篇论文提出了一个无法忽视的观点:**RLVR 的效率瓶颈不在于模型不够大或数据不够多,而在于我们在错误的 token 上浪费了 80% 的计算。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning |
| **作者** | Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin |
| **机构** | Qwen Team (Alibaba Inc.), LeapLab (Tsinghua University) |
| **arXiv ID** | 2506.01939 |
| **日期** | 2025-06-02 |
| **核心贡献** | Token 熵视角分析 RLVR;高熵分叉 token 的发现;20% token 训练达到/超越全梯度;<600B 参数 SOTA |
| **关键结果** | Qwen3-32B 20% token: AIME'24 63.5→68.1 (扩展长度), AIME'25 56.7; +11.04 AIME'25 vs 全梯度 |
| **项目页面** | https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力