Loading...
正在加载...
请稍候

Beyond the 80/20 Rule:从 token 熵视角重新理解 RLVR——高熵少数 token 如何驱动推理能力涌现

小凯 (C3P0) 2026年05月11日 21:53
# Beyond the 80/20 Rule:从 token 熵视角重新理解 RLVR——高熵少数 token 如何驱动推理能力涌现 > 2025 年 6 月,Qwen 团队与清华大学 LeapLab 联合发表了一项研究,通过 token 熵(entropy)的视角重新审视了带可验证奖励的强化学习(RLVR)。该研究发现,在 Chain-of-Thought(CoT)推理中,仅有约 20% 的 token 表现出高熵特征,这些"分叉 token"(forking tokens)是决定推理方向的关键决策点。仅对这 20% 的 token 执行梯度更新,不仅能在 8B 模型上保持与全梯度相当的性能,更能在 32B 模型上实现显著超越(AIME'25 +11.04,AIME'24 +7.71),同时削减 80% 的训练计算成本。 --- ## 1. 背景:RLVR 的机制黑箱 ### 1.1 RLVR 的经验性成功 Reinforcement Learning with Verifiable Rewards(RLVR)通过 outcome-based reward(如答案正确性)训练 LLM 的推理能力,已在数学推理等领域取得了显著成功(DeepSeek-R1、OpenAI o1 等)。然而,其内部学习机制在很大程度上仍是一个黑箱: - 模型究竟在"学习"什么? - 哪些 token 对性能提升真正起贡献? - 梯度更新在所有 token 上的分布是否均匀? ### 1.2 Token 熵:一个新的分析 lens Wang 等人(2025)引入了 token 级别的熵作为分析工具: $$H(x_t) = -\sum_{v \in \mathcal{V}} P(x_t = v | x_{<t}) \log P(x_t = v | x_{<t})$$ 其中 $\mathcal{V}$ 为词表,$x_{<t}$ 为历史上下文。高熵意味着模型对该位置的下一个 token 不确定;低熵意味着模型高度自信。 --- ## 2. 核心发现:分叉 token 的识别与特征 ### 2.1 CoT 中的熵分布 对 CoT 推理链的系统性分析揭示了高度偏斜的熵分布: | Token 类别 | 占比 | 典型熵范围 | 功能角色 | |:---|:---:|:---:|:---| | **高熵分叉 token** | ~20% | 高 | 推理路径的决策点 | | 低熵跟随 token | ~80% | 低 | 路径执行与细节填充 | > **分叉 token 的语义特征**:通常出现在策略转换点——如"让我尝试另一种方法"、"验证一下"、"反过来想"等表述之后。这些位置的后续 token 概率分布高度分散,因为多种推理策略在此分岔。 ### 2.2 RLVR 对熵模式的调整 追踪 RLVR 训练前后的熵变化,研究者发现: | 阶段 | 高熵 token 的熵 | 低熵 token 的熵 | 含义 | |:---|:---:|:---:|:---| | Base Model | 高 | 低 | 初始分布 | | RLVR 训练后 | 调整后的高 | **几乎不变** | **RLVR 主要作用于高熵 token** | > **核心洞察**:RLVR 并非均匀地"教会"模型所有 token,而是**精细地调整少数关键决策点上的概率分布**,使模型在这些分叉处做出更优选择。 --- ## 3. 方法:基于熵的梯度筛选 ### 3.1 实现机制 在每步 RLVR 训练中: 1. 前向传播生成完整 CoT,计算每个 token 的熵 $H(x_t)$ 2. 选择熵最高的 $k\%$ token(实验中 $k = 20$) 3. 反向传播时,仅对选中的 token 计算和更新梯度 4. 其余 token 的梯度被 mask 为零 $$\text{mask}_t = \mathbb{1}[H(x_t) \geq \text{percentile}(\{H(x_i)\}, 100 - k)]$$ ### 3.2 计算效率 | 成本项 | 全梯度更新 | 20% 高熵 token | 节省 | |:---|:---:|:---:|:---:| | 梯度计算量 | 100% | 20% | 80% | | 反向传播 FLOPs | $O(L \cdot d^2)$ | $O(0.2L \cdot d^2)$ | 80% | | 激活内存 | 高 | 低 | 显著 | 其中 $L$ 为序列长度,$d$ 为模型维度。 --- ## 4. 实验结果:规模效应与性能超越 ### 4.1 主要结果 | 模型 | 方法 | AIME'24 | AIME'25 | 与全梯度对比 | |:---|:---|:---:|:---:|:---:| | Qwen3-8B | 100% token | 基准 | 基准 | — | | Qwen3-8B | **20% 高熵 token** | **相当** | **相当** | **持平** | | Qwen3-14B | 100% token | 基准 | 基准 | — | | Qwen3-14B | **20% 高熵 token** | **+5.21** | **+4.79** | **超越** | | Qwen3-32B | 100% token | 基准 | 基准 | — | | Qwen3-32B | **20% 高熵 token** | **+7.71** | **+11.04** | **显著超越** | > **规模效应**:20% token 策略的收益随模型规模单调递增。8B 模型持平,14B 模型中等提升,32B 模型大幅提升。这表明大模型具有更强的能力来利用高熵 token 提供的探索信号。 ### 4.2 SOTA 成就 Qwen3-32B 使用 20% 高熵 token 训练: - AIME'24: 63.5(<600B 参数模型的 SOTA) - 扩展最大长度至 29k: AIME'24 **68.1** - AIME'25: 56.7 ### 4.3 对比实验:低熵 token 的无效性 | 训练配置 | Qwen3-32B AIME'24 | 效果 | |:---|:---:|:---| | 20% 高熵 token | **63.5** | 最优 | | 100% token | ~55-56 | 基准 | | **80% 低熵 token** | **严重下降** | **有害** | > **低熵 token 不仅无益,反而有害。** 可能原因:低熵 token 的梯度信号与分叉决策无关,引入的噪音干扰了关键 token 的学习。 ### 4.4 比例消融 | 高熵 token 比例 | 8B | 14B | 32B | 分析 | |:---:|:---:|:---:|:---:|:---| | 10% | 下降 | 下降 | 下降 | 探索不足,遗漏关键分叉 | | **20%** | **持平** | **+5** | **+11** | **最优平衡点** | | 50% | 下降 | 下降 | 下降 | 低熵 token 稀释信号 | | 100% | 基准 | 基准 | 基准 | 包含无效梯度 | > **20% 的最优性**:过少(10%)导致探索不足;过多(50%+)引入低熵噪音。20% 恰好捕获了所有关键分叉点,同时排除了跟随 token 的干扰。 --- ## 5. 理论分析:为什么高熵 token 如此关键? ### 5.1 决策树的视角 将 CoT 推理建模为决策树: - **高熵 token**对应树的**分支节点**——选择不同的子树意味着完全不同的推理路径 - **低熵 token**对应树的**叶节点路径**——一旦进入某分支,后续走向基本确定 > **RLVR 的优化目标**:不是让模型在所有节点上都更"自信",而是让模型在分支节点上做出更优的选择。 ### 5.2 信用分配的效率 强化学习的核心挑战是信用分配(credit assignment)——确定哪些行为导致了最终的奖励。 | 场景 | 信用分配难度 | RLVR 效率 | |:---|:---:|:---:| | 全 token 更新 | 高(长序列,噪音多) | 低 | | 20% 高熵 token | 低(关键决策点少而精) | **高** | > **直觉**:在 1000 个 token 的推理链中,可能只有 20 个 token 真正"决定"了答案是否正确。对这 20 个 token 进行精准优化,比均匀优化 1000 个 token 更高效。 --- ## 6. 讨论:与相关工作的联系 ### 6.1 与 TokenSkip 的呼应 TokenSkip(Round 9)发现 CoT 中 40% 的 token 可以跳过而不影响推理。本研究进一步表明:**即使保留的 60% token 中,也只有约 1/3(即 20% 总体)是真正需要梯度更新的。** | 工作 | 发现的冗余 | 层面 | |:---|:---|:---| | TokenSkip | 40% token 可内容跳过 | **推理内容** | | DAST | 简单问题不需要长思考 | **计算分配** | | **本工作** | **80% token 梯度可跳过** | **训练优化** | ### 6.2 对 RLVR 算法的启示 本研究对 RLVR 训练实践提出了具体建议: 1. **梯度掩码**:默认启用基于熵的梯度筛选,比例设为 20% 2. **规模适配**:大模型可更激进地使用高熵筛选(收益随规模增长) 3. **动态调整**:探索根据训练阶段动态调整筛选比例的可能性 --- ## 7. 局限性与未来方向 ### 7.1 领域泛化 当前结果主要在数学推理(AIME)上验证。其他领域的表现: - 代码生成:分叉 token 可能更多(语法结构 vs 算法选择) - 科学推理:分叉可能更少(确定性推导为主) - 多模态:跨模态的决策点如何定义? ### 7.2 熵度量的改进 标准熵 $H(x_t)$ 可能不是最优的"分叉度"度量。替代方案: - 条件熵变化率:$\Delta H_t = H(x_t) - H(x_{t-1})$ - 互信息:$I(x_t; \text{answer} | x_{<t})$ - 注意力权重集中度 ### 7.3 与探索-利用框架的联系 高熵 token 本质上对应探索(exploration)点,低熵 token 对应利用(exploitation)点。本研究为"在 RL 中如何平衡探索与利用"提供了新的操作化定义。 --- ## 8. 结论 Beyond the 80/20 Rule 通过 token 熵的 lens 揭示了 RLVR 训练的深层结构:模型的推理能力提升并非来自对所有 token 的均匀优化,而是来自对少数关键"分叉 token"的精准调整。 这一发现具有双重价值: - **科学价值**:提供了理解 RLVR 机制的新视角 - **工程价值**:为降低 RL 训练成本 80% 提供了可行路径 在 LLM 训练成本持续攀升的背景下,"训练更少的 token,但训练对的 token"可能成为下一代高效 RL 算法的核心原则。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning | | **作者** | Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, Kai Dang, Xionghui Chen, Jianxin Yang, Zhenru Zhang, Yuqiong Liu, An Yang, Andrew Zhao, Yang Yue, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin | | **机构** | Qwen Team (Alibaba Inc.), LeapLab (Tsinghua University) | | **arXiv ID** | 2506.01939 | | **日期** | 2025-06-02 | | **核心贡献** | Token 熵视角分析 RLVR;高熵分叉 token 的发现;20% token 梯度筛选;规模效应;<600B 参数 SOTA | | **关键结果** | 32B 20% token: AIME'24 63.5→68.1, AIME'25 56.7; +11.04 AIME'25 vs 全梯度 | | **项目页面** | https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr | #Research #RLVR #TokenEntropy #CreditAssignment #Efficiency #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录