# Token 熵 vs 注意力熵:两篇论文同时发现"20% token 就够了",但对"关键 token"的定义截然相反——谁是错的?🤔⚔️
> **核心判断**:Li 等人(2026)用**注意力熵**(attention entropy)重新审视了 token-level RL 的学习信号,发现了一个与 Round 14 的 "80/20 Rule" 既呼应又矛盾的画面。两者都发现 20% 的 token 子集可以保留大部分性能——但 Round 14 说**高 token 熵**(预测不确定)的 token 是关键,而本论文说**低注意力熵**(上下文集中)的 token 才是"锚点"(anchors),提供稳定优化骨架;**高注意力熵**的 token 是"探索者"(explorers),虽然 volatile 但可能包含 hard-reasoning 信号。更关键的是,本论文提出了**动态熵感知软重加权**,让 Qwen3-8B 从 34.39 冲到 37.40。如果这是对的,token 筛选策略不是"一刀切",而是需要**根据训练阶段和任务难度动态平衡 anchors 和 explorers**。
---
## 1. 两派发现:20% 都够,但选哪 20%?🔍
### 1.1 Round 14 的 "80/20 Rule"
Wang 等人(Round 14)用 **token 熵**(预测概率分布的熵)分析:
| Token 类型 | 定义 | 角色 | 筛选策略 |
|:---|:---|:---|:---|
| 高 token 熵 | 预测分布分散 | **分叉点/决策点** | **保留这 20%** |
| 低 token 熵 | 预测分布集中 | 跟随 token/填充 | Mask 掉 |
> **结论**:只用 top 20% 高 token 熵 token 训练,32B 模型 AIME'25 +11.04。
### 1.2 本论文的 "Anchor-Explorer" 光谱
Li 等人用 **注意力熵**(attention entropy,衡量上下文支持的集中/分散程度)分析:
| Token 类型 | 定义 | 角色 | 梯度特征 |
|:---|:---|:---|:---|
| **低注意力熵 Anchors** | 上下文支持集中 | **稳定骨架** | 稳定、与全梯度对齐 |
| **高注意力熵 Explorers** | 上下文支持分散 | **Hard-reasoning 信号** | Volatile、大但不稳定 |
> **关键发现**:
> - Anchors-only 训练 = 稳定但 plateau(在难任务上卡住)
> - Explorers-only 训练 = 平均不稳定,但**少数成功运行显示 hard-reasoning 突破**
> - 两者都是必需的,但需要**动态平衡**
### 1.3 两种熵的对比
| 维度 | Token 熵(Round 14) | 注意力熵(本论文) |
|:---|:---|:---|
| **衡量什么** | 模型对下一个 token 的预测不确定度 | 模型"看"上下文时的关注分散度 |
| **高熵含义** | "下一个 token 有多种可能" | "依赖广泛的上下文信息" |
| **低熵含义** | "下一个 token 几乎确定" | "依赖集中的局部信息" |
| **关键 token** | 高 token 熵 = 决策点 | 低注意力熵 = 稳定锚点 |
| **20% 策略** | 保留高 token 熵 | **两者都需要,动态平衡** |
> **这不是矛盾,而是互补**:Token 熵告诉模型"在哪里决策",注意力熵告诉模型"如何稳定优化"。
---
## 2. Anchors:模型的"安全网" 🪝
### 2.1 什么是 Anchors?
低注意力熵的 token 是"锚点":
- 它们依赖**集中的上下文支持**(比如刚提到的数字、公式)
- 产生**稳定的梯度**,与全 token 更新的方向一致
- 构成优化的**可靠骨架**
```
推理链: "首先计算 2+2=4,然后..."
↑
"4" 是 anchor——注意力集中在 "2+2=" 上
```
### 2.2 Anchors-Only 训练
| 特性 | 表现 |
|:---|:---|
| 训练稳定性 | **高** |
| 收敛速度 | 快 |
| 简单任务 | 好 |
| **困难任务** | **Plateau(卡住)** |
> **为什么 plateau?** Anchors 提供的是"安全"信号——模型学会了跟着已知模式走,但缺乏突破舒适区的动力。
---
## 3. Explorers:模型的"冒险家" 🧗
### 3.1 什么是 Explorers?
高注意力熵的 token 是"探索者":
- 它们依赖**分散的上下文支持**(需要综合多个 distant 信息)
- 产生**更大但更 volatile 的梯度**
- 可能包含**hard-reasoning 信号**
```
推理链: "让我尝试另一种方法..."
↑
"另一种方法" 是 explorer——注意力分散在多个策略上
```
### 3.2 Explorers-Only 训练
| 特性 | 表现 |
|:---|:---|
| 训练稳定性 | **低**(平均不稳定) |
| 梯度大小 | 大 |
| 简单任务 | 可能过拟合或震荡 |
| **困难任务** | **少数成功运行显示突破** |
> **关键发现**:虽然平均不稳定,但"少数成功运行"表明 explorers 确实包含通往 hard-reasoning 的路径——只是优化过程太 volatile,大多数运行都失败了。
---
## 4. 动态平衡:Entropy-Aware Soft-Reweighting ⚖️
### 4.1 核心洞察
不是"选 anchors 还是 explorers",而是**根据情况动态调整两者的权重**:
| 阶段/场景 | Anchors 权重 | Explorers 权重 | 原因 |
|:---|:---:|:---:|:---|
| 训练早期 | 高 | 低 | 建立稳定基础 |
| 训练中期 | 中 | 中 | 逐步引入探索 |
| 训练晚期 | 低 | 高 | 突破 plateau |
| 简单任务 | 高 | 低 | 不需要冒险 |
| 困难任务 | 低 | 高 | 需要 hard-reasoning |
### 4.2 实验结果
动态熵感知软重加权在 Qwen3-8B-Base 上:
| 配置 | Held-out 平均 |
|:---:|:---:|
| 基线(全 token) | 34.39 |
| **动态熵感知重加权** | **37.40** |
| 提升 | **+3.01** |
> **+3.01 的提升来自什么?** 不是增加计算,而是**更聪明地分配 token 权重**——让 anchors 稳定训练,让 explorers 在关键时刻提供突破信号。
---
## 5. 与 Round 14 的深层对话 🗣️
### 5.1 表面矛盾,深层互补
| Round 14 | 本论文 | 统一视角 |
|:---|:---|:---|
| 高 token 熵是关键 | 低注意力熵 anchors 稳定训练 | **两者衡量不同维度的"关键性"** |
| 只用 20% 高熵 token | 20% 子集足够,但需要动态组合 | **20% 是稀疏性阈值,但组合策略不同** |
| 32B +11 AIME'25 | Qwen3-8B +3 held-out | **不同规模、不同度量,但都有效** |
### 5.2 统一解释
$$\text{Token 重要性} = f(\text{Token 熵}, \text{注意力熵}, \text{训练阶段}, \text{任务难度})$$
| Token 类型 | Token 熵 | 注意力熵 | 最优策略 |
|:---|:---:|:---:|:---|
| "4"(2+2=) | 低 | **低** | **Anchor——稳定骨架** |
| "另一种方法" | **高** | **高** | **Explorer——hard-reasoning** |
| "因为" | 低 | 中 | 跟随 token——权重低 |
| "验证" | **高** | 中 | 决策点——Round 14 的关键 token |
> **关键洞察**:高 token 熵 + 高注意力熵 = 最 volatile 但最有潜力的 token。高 token 熵 + 低注意力熵 = 决策点但上下文集中 = Round 14 的"分叉 token"。
---
## 6. 为什么两种熵都重要?🧠
### 6.1 Token 熵 = "下一步有多不确定"
$$H_{\text{token}} = -\sum_v p(v|x_{<t}) \log p(v|x_{<t})$$
> 告诉模型:这个位置是不是"决策点"?
### 6.2 注意力熵 = "我看上下文时有多分散"
$$H_{\text{attention}} = -\sum_i \alpha_i \log \alpha_i$$
其中 $\alpha_i$ 是注意力权重。
> 告诉模型:这个 token 的生成依赖的是**集中的局部信息**(anchor)还是**分散的全局信息**(explorer)?
### 6.3 两者结合 = 完整的 token "身份卡"
| | 低 Token 熵 | 高 Token 熵 |
|:---:|:---:|:---:|
| **低注意力熵** | 确定 + 局部 = **跟随 token** | 不确定 + 局部 = **分叉 token**(Round 14) |
| **高注意力熵** | 确定 + 全局 = **综合 token** | 不确定 + 全局 = **Explorer**(本论文) |
---
## 7. 我的押注 💰
**我赌 1000 美元:到 2026 年底,"双熵动态平衡"将成为 RL 训练的标准配置。所有主流框架都会同时监控 token 熵和注意力熵,并根据训练阶段动态调整 token 权重。**
**为什么?**
1. **两种熵都揭示了真实结构**:token 熵和注意力熵从不同角度刻画了 token 的"角色",两者结合比单一度量更全面。
2. **动态平衡比固定筛选更优**:Round 14 的固定 20% 筛选在特定条件下有效,但本论文显示动态调整可以进一步提升。
3. **实现成本低**:注意力熵在 transformer 的前向传播中已经可以免费获得(就是注意力权重)。
4. **理论优雅**:它把 token 筛选从"一刀切"提升为"情境感知"——简单任务多 anchors,困难任务多 explorers。
5. **与所有 RL 算法兼容**:无论是 GRPO、PPO 还是 DAPO,都可以加入双熵动态重加权。
**敌人是谁?**
- "只用一种熵就够了"的简化主义者——数据证明两者提供互补信息。
- 害怕增加复杂度的工程团队——注意力熵几乎零额外成本。
- 认为"固定策略更稳定"的保守派——动态重加权有更强的实验结果支撑。
---
## 8. 局限与未来 🔮
### 8.1 两种熵的交互
当前研究分别分析 token 熵和注意力熵。它们的联合分布是什么?是否存在"双高"或"双低" token 的特殊角色?
### 8.2 层间差异
注意力熵在不同 transformer 层是否有不同模式?浅层的 explorers 和深层的 explorers 是否承担不同功能?
### 8.3 头间差异
不同注意力头的熵分布是否不同?是否存在专门负责"探索"的注意力头?
### 8.4 与不确定性轮廓的整合
Round 17 的不确定性轮廓描述了整条轨迹的动态。能否将双熵分析扩展到轨迹级别——"anchor-dominated 轨迹" vs "explorer-dominated 轨迹"?
但无论如何,这篇论文与 Round 14 一起,为 token-level RL 的理解提供了**双重视角**——不是"哪个对哪个错",而是"两者都是对的,只是看到了不同的侧面"。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning |
| **作者** | Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu |
| **机构** | (待确认,中国研究机构) |
| **arXiv ID** | 2605.07660 |
| **日期** | 2026-05-08 |
| **核心贡献** | 注意力熵分析 token-level RL 异构性;Anchors vs Explorers 光谱;20% 子集稀疏性;动态熵感知软重加权;Qwen3-8B-Base 34.39→37.40 |
| **关键结果** | 均匀随机 20% 保留大部分性能;Anchors 稳定但 plateau;Explorers volatile 但含 hard-reasoning 信号;动态重加权 +3.01 held-out 平均 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力