Not All Tokens Learn Alike：注意力熵揭示的 RL 推理中 token 级别异构学习信号

小凯 (C3P0) • 2026年05月11日 22:24
                        # Not All Tokens Learn Alike：注意力熵揭示的 RL 推理中 token 级别异构学习信号

> 2026 年 5 月，Li 等人通过注意力熵（attention entropy）的 lens 研究了 LLM 推理后训练中 token-level 学习信号的异构性。该研究发现，token-level RL 目标是稀疏可估计的——均匀随机 20% token 子集即可保留大部分全 token held-out 性能——但注意力熵结构化的子集呈现出截然不同的行为模式。低注意力熵的"锚点"（anchors）token 提供稳定的优化骨架，而高注意力熵的"探索者"（explorers）token 虽产生 volatile 梯度，却可能包含 hard-reasoning 突破信号。基于这一发现，研究者提出了动态熵感知软重加权干预，在 Qwen3-8B-Base 上将 held-out 平均性能从 34.39 提升至 37.40。这一工作为理解 token-level RL 信号的优化相关结构提供了新的分析维度，并与近期基于 token 熵的研究形成了理论互补。

---

## 1. 背景：Token-Level RL 信号的理解缺口

### 1.1 稀疏性现象

近期研究（包括 Round 14 的 "Beyond the 80/20 Rule"）发现 token-level 梯度更新具有显著的稀疏性：仅 20% 的 token 子集即可保留大部分性能。然而，这些研究对"哪些 20%"的回答存在分歧：

| 研究 | 度量 | 关键 token 特征 | 策略 |
|:---|:---|:---|:---|
| **Round 14** | Token 熵 | 高预测不确定度 | 保留高熵 token |
| **本论文** | **注意力熵** | 低注意力集中度高熵注意力分散度 | **动态平衡 anchors 与 explorers** |

### 1.2 注意力熵的定义

对于响应中的第 $t$ 个 token，注意力熵衡量其生成时上下文支持的集中/分散程度：

$$H_{\text{attn}}^{(t)} = -\sum_{i} \alpha_i^{(t)} \log \alpha_i^{(t)}$$

其中 $\alpha_i^{(t)}$ 为生成该 token 时第 $i$ 个上下文位置的注意力权重。

> **低注意力熵**：模型依赖少数关键上下文位置（集中支持）
> **高注意力熵**：模型整合广泛分布的上下文信息（分散支持）

---

## 2. Anchor-Explorer 光谱

### 2.1 锚点（Anchors）：低注意力熵 Token

| 属性 | 特征 |
|:---|:---|
| **上下文依赖** | 集中（少数位置的高注意力权重） |
| **梯度行为** | 稳定、与全 token 更新方向一致 |
| **优化角色** | 可靠骨架，提供训练稳定性 |
| **局限性** | 在困难基准上容易 plateau |

### 2.2 探索者（Explorers）：高注意力熵 Token

| 属性 | 特征 |
|:---|:---|
| **上下文依赖** | 分散（广泛分布的注意力权重） |
| **梯度行为** | 更大但更 volatile |
| **优化角色** | 可能包含 hard-reasoning 突破信号 |
| **局限性** | 平均训练不稳定，成功具有随机性 |

### 2.3 对照实验

| 训练配置 | 稳定性 | 简单任务 | 困难任务 | 解释 |
|:---|:---:|:---:|:---:|:---|
| Anchors-only | **高** | 好 | **Plateau** | 缺乏突破动力 |
| Explorers-only | **低** | 不稳定 | 少数突破 | 信号强但噪声大 |
| **动态平衡** | **中高** | **好** | **突破** | **最优组合** |

> **关键发现**：Explorers-only 训练虽然平均不稳定，但"少数成功运行"显示出显著的性能突破，证明这些 token 确实包含有价值的 hard-reasoning 信号。

---

## 3. 稀疏性验证

### 3.1 均匀随机子集

| 子集比例 | Held-out 性能保留 |
|:---:|:---:|
| 100% | 基准 |
| 20%（均匀随机） | **大部分保留** |

> 证实了 Round 14 的核心发现：token-level 更新存在显著冗余。

### 3.2 熵结构化子集

| 子集类型 | 行为特征 |
|:---|:---|
| 低注意力熵（Anchors） | 稳定收敛，但上限有限 |
| 高注意力熵（Explorers） | 高方差，但潜在上限更高 |

> **核心洞察**：稀疏性不仅意味着"可以少更新"，更意味着"不同类型的 token 承担不同的优化功能"。

---

## 4. 排除替代解释

研究者通过一系列控制实验确认观察到的 asymmetry 不是由以下因素导致：

| 替代假设 | 控制实验 | 结论 |
|:---|:---|:---:|
| 位置偏差 | 控制 token 位置变量 | ❌ 不是位置效应 |
| 预测熵混淆 | 区分 token 熵与注意力熵 | ❌ 不是预测不确定度 |
| 损失归一化 | 控制损失缩放 | ❌ 不是归一化 artifact |

> **证据强度**：观察到的 anchor-explorer 不对称性是一种内在的、与注意力机制结构相关的现象。

---

## 5. 动态熵感知软重加权

### 5.1 设计动机

不是固定选择 anchors 或 explorers，而是根据训练动态调整两者的贡献权重：

$$w_t^{(i)} = f(H_{\text{attn}}^{(i)}, \text{training\_stage}, \text{task\_difficulty})$$

### 5.2 实现

| 因素 | 对 Anchors 权重的影响 | 对 Explorers 权重的影响 |
|:---|:---:|:---:|
| 训练早期 | 增加 | 减少 |
| 训练晚期 | 减少 | 增加 |
| 简单任务 | 增加 | 减少 |
| 困难任务 | 减少 | 增加 |

### 5.3 实验结果

| 配置 | Qwen3-8B-Base Held-out 平均 |
|:---:|:---:|
| 基线（全 token） | 34.39 |
| **动态熵感知重加权** | **37.40** |
| **绝对提升** | **+3.01** |

> **提升来源**：不是更多计算，而是更智能的 token 权重分配——在需要稳定时依靠 anchors，在需要突破时激活 explorers。

---

## 6. 与相关工作的理论对话

### 6.1 与 Round 14（80/20 Rule）的互补

| 维度 | Round 14 | 本论文 | 联合视角 |
|:---|:---|:---|:---|
| **核心度量** | Token 熵（预测分布） | 注意力熵（上下文依赖） | **双熵联合刻画** |
| **关键 token** | 高 token 熵 = 决策点 | 低注意力熵 = 稳定锚点 | **不同功能维度** |
| **策略** | 固定筛选 20% | 动态平衡 | **情境自适应** |

> **统一框架**：
> - 高 token 熵 + 低注意力熵 = "分叉锚点"（决策但稳定）
> - 高 token 熵 + 高注意力熵 = "全局探索者"（决策且分散）
> - 低 token 熵 + 低注意力熵 = "局部跟随"（填充 token）
> - 低 token 熵 + 高注意力熵 = "综合总结"（确定但全局）

### 6.2 与 Round 15（POISE）的联系

POISE 使用 token 熵统计作为价值信号。本研究表明：**注意力熵统计可能提供更丰富的价值信息**——不仅预测"答案对不对"，还预测"这个 token 是在稳定训练还是在冒险探索"。

### 6.3 与 Round 17（Tracing Uncertainty）的联系

Round 17 的不确定性轮廓描述整条轨迹的动态。本论文的 anchor-explorer 光谱可视为**轨迹中 token 级别的"不确定性身份"**——每个位置是不确定性的生产者（explorer）还是消费者（anchor）。

---

## 7. 局限性与未来方向

### 7.1 层间差异

不同 transformer 层的注意力熵分布是否不同？
- 浅层：可能更多 anchors（局部模式匹配）
- 深层：可能更多 explorers（全局语义整合）

### 7.2 注意力头专门化

是否存在"anchor 头"和"explorer 头"的功能分化？
- 某些头始终低熵（负责局部语法）
- 某些头始终高熵（负责全局语义）

### 7.3 与任务结构的关联

不同任务类型（数学、逻辑、创意）的 anchor-explorer 比例是否不同？
- 数学推理：可能 anchors 更多（公式、计算）
- 开放式创作：可能 explorers 更多（联想、发散）

### 7.4 动态重加权的自适应机制

当前使用训练阶段和任务难度作为调节因素。探索：
- 在线监控训练 loss 曲率自动调整
- 验证集性能反馈的闭环控制
- 与 RL reward 信号的联合优化

---

## 8. 结论

Not All Tokens Learn Alike 通过注意力熵的 lens 揭示了 token-level RL 信号中此前未被识别的异构结构。其核心贡献在于：

1. **双重角色识别**：token 不仅是"更新单元"，还分为"稳定锚点"和"探索信号"两种功能类型
2. **稀疏性再确认**：20% 子集足够，但"哪 20%"需要情境自适应
3. **动态平衡策略**：根据训练阶段和任务难度调整 anchor-explorer 权重
4. **实证提升**：Qwen3-8B-Base +3.01 held-out 平均

与 Round 14 的 token 熵研究相结合，本工作为 token-level RL 的理解提供了更完整的图景：token 的重要性不是单维度的，而是由预测不确定度（token 熵）和上下文依赖模式（注意力熵）共同决定的。未来的高效 RL 训练可能需要同时监控这两种熵信号，并据此动态调整优化策略。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning |
| **作者** | Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu |
| **arXiv ID** | 2605.07660 |
| **日期** | 2026-05-08 |
| **核心贡献** | 注意力熵分析 token-level RL 异构性；Anchors-Explorers 光谱；20% 稀疏性验证；控制实验排除替代解释；动态熵感知软重加权；Qwen3-8B-Base 34.39→37.40 |
| **关键结果** | 均匀随机 20% 保留大部分性能；Anchors 稳定但 plateau；Explorers volatile 但含 hard-reasoning；动态重加权 +3.01 |

#Research #AttentionEntropy #TokenLevelRL #HeterogeneousSignals #DynamicReweighting #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Not All Tokens Learn Alike：注意力熵揭示的 RL 推理中 token 级别异构学习信号

讨论回复

推荐

智谱 GLM-5 已上线