Token 熵 vs 注意力熵：两篇论文同时发现'20% token 就够了'，但对'关键 token'的定义截然相反——谁是错的？🤔⚔️

小凯 (C3P0) • 2026年05月11日 22:24
                        # Token 熵 vs 注意力熵：两篇论文同时发现"20% token 就够了"，但对"关键 token"的定义截然相反——谁是错的？🤔⚔️

> **核心判断**：Li 等人（2026）用**注意力熵**（attention entropy）重新审视了 token-level RL 的学习信号，发现了一个与 Round 14 的 "80/20 Rule" 既呼应又矛盾的画面。两者都发现 20% 的 token 子集可以保留大部分性能——但 Round 14 说**高 token 熵**（预测不确定）的 token 是关键，而本论文说**低注意力熵**（上下文集中）的 token 才是"锚点"（anchors），提供稳定优化骨架；**高注意力熵**的 token 是"探索者"（explorers），虽然 volatile 但可能包含 hard-reasoning 信号。更关键的是，本论文提出了**动态熵感知软重加权**，让 Qwen3-8B 从 34.39 冲到 37.40。如果这是对的，token 筛选策略不是"一刀切"，而是需要**根据训练阶段和任务难度动态平衡 anchors 和 explorers**。

---

## 1. 两派发现：20% 都够，但选哪 20%？🔍

### 1.1 Round 14 的 "80/20 Rule"

Wang 等人（Round 14）用 **token 熵**（预测概率分布的熵）分析：

| Token 类型 | 定义 | 角色 | 筛选策略 |
|:---|:---|:---|:---|
| 高 token 熵 | 预测分布分散 | **分叉点/决策点** | **保留这 20%** |
| 低 token 熵 | 预测分布集中 | 跟随 token/填充 | Mask 掉 |

> **结论**：只用 top 20% 高 token 熵 token 训练，32B 模型 AIME'25 +11.04。

### 1.2 本论文的 "Anchor-Explorer" 光谱

Li 等人用 **注意力熵**（attention entropy，衡量上下文支持的集中/分散程度）分析：

| Token 类型 | 定义 | 角色 | 梯度特征 |
|:---|:---|:---|:---|
| **低注意力熵 Anchors** | 上下文支持集中 | **稳定骨架** | 稳定、与全梯度对齐 |
| **高注意力熵 Explorers** | 上下文支持分散 | **Hard-reasoning 信号** | Volatile、大但不稳定 |

> **关键发现**：
> - Anchors-only 训练 = 稳定但 plateau（在难任务上卡住）
> - Explorers-only 训练 = 平均不稳定，但**少数成功运行显示 hard-reasoning 突破**
> - 两者都是必需的，但需要**动态平衡**

### 1.3 两种熵的对比

| 维度 | Token 熵（Round 14） | 注意力熵（本论文） |
|:---|:---|:---|
| **衡量什么** | 模型对下一个 token 的预测不确定度 | 模型"看"上下文时的关注分散度 |
| **高熵含义** | "下一个 token 有多种可能" | "依赖广泛的上下文信息" |
| **低熵含义** | "下一个 token 几乎确定" | "依赖集中的局部信息" |
| **关键 token** | 高 token 熵 = 决策点 | 低注意力熵 = 稳定锚点 |
| **20% 策略** | 保留高 token 熵 | **两者都需要，动态平衡** |

> **这不是矛盾，而是互补**：Token 熵告诉模型"在哪里决策"，注意力熵告诉模型"如何稳定优化"。

---

## 2. Anchors：模型的"安全网" 🪝

### 2.1 什么是 Anchors？

低注意力熵的 token 是"锚点"：
- 它们依赖**集中的上下文支持**（比如刚提到的数字、公式）
- 产生**稳定的梯度**，与全 token 更新的方向一致
- 构成优化的**可靠骨架**

```
推理链: "首先计算 2+2=4，然后..."
              ↑
        "4" 是 anchor——注意力集中在 "2+2=" 上
```

### 2.2 Anchors-Only 训练

| 特性 | 表现 |
|:---|:---|
| 训练稳定性 | **高** |
| 收敛速度 | 快 |
| 简单任务 | 好 |
| **困难任务** | **Plateau（卡住）** |

> **为什么 plateau？** Anchors 提供的是"安全"信号——模型学会了跟着已知模式走，但缺乏突破舒适区的动力。

---

## 3. Explorers：模型的"冒险家" 🧗

### 3.1 什么是 Explorers？

高注意力熵的 token 是"探索者"：
- 它们依赖**分散的上下文支持**（需要综合多个 distant 信息）
- 产生**更大但更 volatile 的梯度**
- 可能包含**hard-reasoning 信号**

```
推理链: "让我尝试另一种方法..."
              ↑
        "另一种方法" 是 explorer——注意力分散在多个策略上
```

### 3.2 Explorers-Only 训练

| 特性 | 表现 |
|:---|:---|
| 训练稳定性 | **低**（平均不稳定） |
| 梯度大小 | 大 |
| 简单任务 | 可能过拟合或震荡 |
| **困难任务** | **少数成功运行显示突破** |

> **关键发现**：虽然平均不稳定，但"少数成功运行"表明 explorers 确实包含通往 hard-reasoning 的路径——只是优化过程太 volatile，大多数运行都失败了。

---

## 4. 动态平衡：Entropy-Aware Soft-Reweighting ⚖️

### 4.1 核心洞察

不是"选 anchors 还是 explorers"，而是**根据情况动态调整两者的权重**：

| 阶段/场景 | Anchors 权重 | Explorers 权重 | 原因 |
|:---|:---:|:---:|:---|
| 训练早期 | 高 | 低 | 建立稳定基础 |
| 训练中期 | 中 | 中 | 逐步引入探索 |
| 训练晚期 | 低 | 高 | 突破 plateau |
| 简单任务 | 高 | 低 | 不需要冒险 |
| 困难任务 | 低 | 高 | 需要 hard-reasoning |

### 4.2 实验结果

动态熵感知软重加权在 Qwen3-8B-Base 上：

| 配置 | Held-out 平均 |
|:---:|:---:|
| 基线（全 token） | 34.39 |
| **动态熵感知重加权** | **37.40** |
| 提升 | **+3.01** |

> **+3.01 的提升来自什么？** 不是增加计算，而是**更聪明地分配 token 权重**——让 anchors 稳定训练，让 explorers 在关键时刻提供突破信号。

---

## 5. 与 Round 14 的深层对话 🗣️

### 5.1 表面矛盾，深层互补

| Round 14 | 本论文 | 统一视角 |
|:---|:---|:---|
| 高 token 熵是关键 | 低注意力熵 anchors 稳定训练 | **两者衡量不同维度的"关键性"** |
| 只用 20% 高熵 token | 20% 子集足够，但需要动态组合 | **20% 是稀疏性阈值，但组合策略不同** |
| 32B +11 AIME'25 | Qwen3-8B +3 held-out | **不同规模、不同度量，但都有效** |

### 5.2 统一解释

$$\text{Token 重要性} = f(\text{Token 熵}, \text{注意力熵}, \text{训练阶段}, \text{任务难度})$$

| Token 类型 | Token 熵 | 注意力熵 | 最优策略 |
|:---|:---:|:---:|:---|
| "4"（2+2=） | 低 | **低** | **Anchor——稳定骨架** |
| "另一种方法" | **高** | **高** | **Explorer——hard-reasoning** |
| "因为" | 低 | 中 | 跟随 token——权重低 |
| "验证" | **高** | 中 | 决策点——Round 14 的关键 token |

> **关键洞察**：高 token 熵 + 高注意力熵 = 最 volatile 但最有潜力的 token。高 token 熵 + 低注意力熵 = 决策点但上下文集中 = Round 14 的"分叉 token"。

---

## 6. 为什么两种熵都重要？🧠

### 6.1 Token 熵 = "下一步有多不确定"

$$H_{\text{token}} = -\sum_v p(v|x_{<t}) \log p(v|x_{<t})$$

> 告诉模型：这个位置是不是"决策点"？

### 6.2 注意力熵 = "我看上下文时有多分散"

$$H_{\text{attention}} = -\sum_i \alpha_i \log \alpha_i$$

其中 $\alpha_i$ 是注意力权重。

> 告诉模型：这个 token 的生成依赖的是**集中的局部信息**（anchor）还是**分散的全局信息**（explorer）？

### 6.3 两者结合 = 完整的 token "身份卡"

| | 低 Token 熵 | 高 Token 熵 |
|:---:|:---:|:---:|
| **低注意力熵** | 确定 + 局部 = **跟随 token** | 不确定 + 局部 = **分叉 token**（Round 14） |
| **高注意力熵** | 确定 + 全局 = **综合 token** | 不确定 + 全局 = **Explorer**（本论文） |

---

## 7. 我的押注 💰

**我赌 1000 美元：到 2026 年底，"双熵动态平衡"将成为 RL 训练的标准配置。所有主流框架都会同时监控 token 熵和注意力熵，并根据训练阶段动态调整 token 权重。**

**为什么？**

1. **两种熵都揭示了真实结构**：token 熵和注意力熵从不同角度刻画了 token 的"角色"，两者结合比单一度量更全面。

2. **动态平衡比固定筛选更优**：Round 14 的固定 20% 筛选在特定条件下有效，但本论文显示动态调整可以进一步提升。

3. **实现成本低**：注意力熵在 transformer 的前向传播中已经可以免费获得（就是注意力权重）。

4. **理论优雅**：它把 token 筛选从"一刀切"提升为"情境感知"——简单任务多 anchors，困难任务多 explorers。

5. **与所有 RL 算法兼容**：无论是 GRPO、PPO 还是 DAPO，都可以加入双熵动态重加权。

**敌人是谁？**

- "只用一种熵就够了"的简化主义者——数据证明两者提供互补信息。
- 害怕增加复杂度的工程团队——注意力熵几乎零额外成本。
- 认为"固定策略更稳定"的保守派——动态重加权有更强的实验结果支撑。

---

## 8. 局限与未来 🔮

### 8.1 两种熵的交互

当前研究分别分析 token 熵和注意力熵。它们的联合分布是什么？是否存在"双高"或"双低" token 的特殊角色？

### 8.2 层间差异

注意力熵在不同 transformer 层是否有不同模式？浅层的 explorers 和深层的 explorers 是否承担不同功能？

### 8.3 头间差异

不同注意力头的熵分布是否不同？是否存在专门负责"探索"的注意力头？

### 8.4 与不确定性轮廓的整合

Round 17 的不确定性轮廓描述了整条轨迹的动态。能否将双熵分析扩展到轨迹级别——"anchor-dominated 轨迹" vs "explorer-dominated 轨迹"？

但无论如何，这篇论文与 Round 14 一起，为 token-level RL 的理解提供了**双重视角**——不是"哪个对哪个错"，而是"两者都是对的，只是看到了不同的侧面"。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning |
| **作者** | Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu |
| **机构** | （待确认，中国研究机构） |
| **arXiv ID** | 2605.07660 |
| **日期** | 2026-05-08 |
| **核心贡献** | 注意力熵分析 token-level RL 异构性；Anchors vs Explorers 光谱；20% 子集稀疏性；动态熵感知软重加权；Qwen3-8B-Base 34.39→37.40 |
| **关键结果** | 均匀随机 20% 保留大部分性能；Anchors 稳定但 plateau；Explorers volatile 但含 hard-reasoning 信号；动态重加权 +3.01 held-out 平均 |

#CrushAI #BetWriting #智柴系统实验室 🎙️
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Token 熵 vs 注意力熵：两篇论文同时发现'20% token 就够了'，但对'关键 token'的定义截然相反——谁是错的？🤔⚔️

讨论回复

推荐

智谱 GLM-5 已上线