# Not All Tokens Learn Alike:注意力熵揭示的 RL 推理中 token 级别异构学习信号
> 2026 年 5 月,Li 等人通过注意力熵(attention entropy)的 lens 研究了 LLM 推理后训练中 token-level 学习信号的异构性。该研究发现,token-level RL 目标是稀疏可估计的——均匀随机 20% token 子集即可保留大部分全 token held-out 性能——但注意力熵结构化的子集呈现出截然不同的行为模式。低注意力熵的"锚点"(anchors)token 提供稳定的优化骨架,而高注意力熵的"探索者"(explorers)token 虽产生 volatile 梯度,却可能包含 hard-reasoning 突破信号。基于这一发现,研究者提出了动态熵感知软重加权干预,在 Qwen3-8B-Base 上将 held-out 平均性能从 34.39 提升至 37.40。这一工作为理解 token-level RL 信号的优化相关结构提供了新的分析维度,并与近期基于 token 熵的研究形成了理论互补。
---
## 1. 背景:Token-Level RL 信号的理解缺口
### 1.1 稀疏性现象
近期研究(包括 Round 14 的 "Beyond the 80/20 Rule")发现 token-level 梯度更新具有显著的稀疏性:仅 20% 的 token 子集即可保留大部分性能。然而,这些研究对"哪些 20%"的回答存在分歧:
| 研究 | 度量 | 关键 token 特征 | 策略 |
|:---|:---|:---|:---|
| **Round 14** | Token 熵 | 高预测不确定度 | 保留高熵 token |
| **本论文** | **注意力熵** | 低注意力集中度高熵注意力分散度 | **动态平衡 anchors 与 explorers** |
### 1.2 注意力熵的定义
对于响应中的第 $t$ 个 token,注意力熵衡量其生成时上下文支持的集中/分散程度:
$$H_{\text{attn}}^{(t)} = -\sum_{i} \alpha_i^{(t)} \log \alpha_i^{(t)}$$
其中 $\alpha_i^{(t)}$ 为生成该 token 时第 $i$ 个上下文位置的注意力权重。
> **低注意力熵**:模型依赖少数关键上下文位置(集中支持)
> **高注意力熵**:模型整合广泛分布的上下文信息(分散支持)
---
## 2. Anchor-Explorer 光谱
### 2.1 锚点(Anchors):低注意力熵 Token
| 属性 | 特征 |
|:---|:---|
| **上下文依赖** | 集中(少数位置的高注意力权重) |
| **梯度行为** | 稳定、与全 token 更新方向一致 |
| **优化角色** | 可靠骨架,提供训练稳定性 |
| **局限性** | 在困难基准上容易 plateau |
### 2.2 探索者(Explorers):高注意力熵 Token
| 属性 | 特征 |
|:---|:---|
| **上下文依赖** | 分散(广泛分布的注意力权重) |
| **梯度行为** | 更大但更 volatile |
| **优化角色** | 可能包含 hard-reasoning 突破信号 |
| **局限性** | 平均训练不稳定,成功具有随机性 |
### 2.3 对照实验
| 训练配置 | 稳定性 | 简单任务 | 困难任务 | 解释 |
|:---|:---:|:---:|:---:|:---|
| Anchors-only | **高** | 好 | **Plateau** | 缺乏突破动力 |
| Explorers-only | **低** | 不稳定 | 少数突破 | 信号强但噪声大 |
| **动态平衡** | **中高** | **好** | **突破** | **最优组合** |
> **关键发现**:Explorers-only 训练虽然平均不稳定,但"少数成功运行"显示出显著的性能突破,证明这些 token 确实包含有价值的 hard-reasoning 信号。
---
## 3. 稀疏性验证
### 3.1 均匀随机子集
| 子集比例 | Held-out 性能保留 |
|:---:|:---:|
| 100% | 基准 |
| 20%(均匀随机) | **大部分保留** |
> 证实了 Round 14 的核心发现:token-level 更新存在显著冗余。
### 3.2 熵结构化子集
| 子集类型 | 行为特征 |
|:---|:---|
| 低注意力熵(Anchors) | 稳定收敛,但上限有限 |
| 高注意力熵(Explorers) | 高方差,但潜在上限更高 |
> **核心洞察**:稀疏性不仅意味着"可以少更新",更意味着"不同类型的 token 承担不同的优化功能"。
---
## 4. 排除替代解释
研究者通过一系列控制实验确认观察到的 asymmetry 不是由以下因素导致:
| 替代假设 | 控制实验 | 结论 |
|:---|:---|:---:|
| 位置偏差 | 控制 token 位置变量 | ❌ 不是位置效应 |
| 预测熵混淆 | 区分 token 熵与注意力熵 | ❌ 不是预测不确定度 |
| 损失归一化 | 控制损失缩放 | ❌ 不是归一化 artifact |
> **证据强度**:观察到的 anchor-explorer 不对称性是一种内在的、与注意力机制结构相关的现象。
---
## 5. 动态熵感知软重加权
### 5.1 设计动机
不是固定选择 anchors 或 explorers,而是根据训练动态调整两者的贡献权重:
$$w_t^{(i)} = f(H_{\text{attn}}^{(i)}, \text{training\_stage}, \text{task\_difficulty})$$
### 5.2 实现
| 因素 | 对 Anchors 权重的影响 | 对 Explorers 权重的影响 |
|:---|:---:|:---:|
| 训练早期 | 增加 | 减少 |
| 训练晚期 | 减少 | 增加 |
| 简单任务 | 增加 | 减少 |
| 困难任务 | 减少 | 增加 |
### 5.3 实验结果
| 配置 | Qwen3-8B-Base Held-out 平均 |
|:---:|:---:|
| 基线(全 token) | 34.39 |
| **动态熵感知重加权** | **37.40** |
| **绝对提升** | **+3.01** |
> **提升来源**:不是更多计算,而是更智能的 token 权重分配——在需要稳定时依靠 anchors,在需要突破时激活 explorers。
---
## 6. 与相关工作的理论对话
### 6.1 与 Round 14(80/20 Rule)的互补
| 维度 | Round 14 | 本论文 | 联合视角 |
|:---|:---|:---|:---|
| **核心度量** | Token 熵(预测分布) | 注意力熵(上下文依赖) | **双熵联合刻画** |
| **关键 token** | 高 token 熵 = 决策点 | 低注意力熵 = 稳定锚点 | **不同功能维度** |
| **策略** | 固定筛选 20% | 动态平衡 | **情境自适应** |
> **统一框架**:
> - 高 token 熵 + 低注意力熵 = "分叉锚点"(决策但稳定)
> - 高 token 熵 + 高注意力熵 = "全局探索者"(决策且分散)
> - 低 token 熵 + 低注意力熵 = "局部跟随"(填充 token)
> - 低 token 熵 + 高注意力熵 = "综合总结"(确定但全局)
### 6.2 与 Round 15(POISE)的联系
POISE 使用 token 熵统计作为价值信号。本研究表明:**注意力熵统计可能提供更丰富的价值信息**——不仅预测"答案对不对",还预测"这个 token 是在稳定训练还是在冒险探索"。
### 6.3 与 Round 17(Tracing Uncertainty)的联系
Round 17 的不确定性轮廓描述整条轨迹的动态。本论文的 anchor-explorer 光谱可视为**轨迹中 token 级别的"不确定性身份"**——每个位置是不确定性的生产者(explorer)还是消费者(anchor)。
---
## 7. 局限性与未来方向
### 7.1 层间差异
不同 transformer 层的注意力熵分布是否不同?
- 浅层:可能更多 anchors(局部模式匹配)
- 深层:可能更多 explorers(全局语义整合)
### 7.2 注意力头专门化
是否存在"anchor 头"和"explorer 头"的功能分化?
- 某些头始终低熵(负责局部语法)
- 某些头始终高熵(负责全局语义)
### 7.3 与任务结构的关联
不同任务类型(数学、逻辑、创意)的 anchor-explorer 比例是否不同?
- 数学推理:可能 anchors 更多(公式、计算)
- 开放式创作:可能 explorers 更多(联想、发散)
### 7.4 动态重加权的自适应机制
当前使用训练阶段和任务难度作为调节因素。探索:
- 在线监控训练 loss 曲率自动调整
- 验证集性能反馈的闭环控制
- 与 RL reward 信号的联合优化
---
## 8. 结论
Not All Tokens Learn Alike 通过注意力熵的 lens 揭示了 token-level RL 信号中此前未被识别的异构结构。其核心贡献在于:
1. **双重角色识别**:token 不仅是"更新单元",还分为"稳定锚点"和"探索信号"两种功能类型
2. **稀疏性再确认**:20% 子集足够,但"哪 20%"需要情境自适应
3. **动态平衡策略**:根据训练阶段和任务难度调整 anchor-explorer 权重
4. **实证提升**:Qwen3-8B-Base +3.01 held-out 平均
与 Round 14 的 token 熵研究相结合,本工作为 token-level RL 的理解提供了更完整的图景:token 的重要性不是单维度的,而是由预测不确定度(token 熵)和上下文依赖模式(注意力熵)共同决定的。未来的高效 RL 训练可能需要同时监控这两种熵信号,并据此动态调整优化策略。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning |
| **作者** | Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu |
| **arXiv ID** | 2605.07660 |
| **日期** | 2026-05-08 |
| **核心贡献** | 注意力熵分析 token-level RL 异构性;Anchors-Explorers 光谱;20% 稀疏性验证;控制实验排除替代解释;动态熵感知软重加权;Qwen3-8B-Base 34.39→37.40 |
| **关键结果** | 均匀随机 20% 保留大部分性能;Anchors 稳定但 plateau;Explorers volatile 但含 hard-reasoning;动态重加权 +3.01 |
#Research #AttentionEntropy #TokenLevelRL #HeterogeneousSignals #DynamicReweighting #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力