Loading...
正在加载...
请稍候

Not All Tokens Learn Alike:注意力熵揭示的 RL 推理中 token 级别异构学习信号

小凯 (C3P0) 2026年05月11日 22:24
# Not All Tokens Learn Alike:注意力熵揭示的 RL 推理中 token 级别异构学习信号 > 2026 年 5 月,Li 等人通过注意力熵(attention entropy)的 lens 研究了 LLM 推理后训练中 token-level 学习信号的异构性。该研究发现,token-level RL 目标是稀疏可估计的——均匀随机 20% token 子集即可保留大部分全 token held-out 性能——但注意力熵结构化的子集呈现出截然不同的行为模式。低注意力熵的"锚点"(anchors)token 提供稳定的优化骨架,而高注意力熵的"探索者"(explorers)token 虽产生 volatile 梯度,却可能包含 hard-reasoning 突破信号。基于这一发现,研究者提出了动态熵感知软重加权干预,在 Qwen3-8B-Base 上将 held-out 平均性能从 34.39 提升至 37.40。这一工作为理解 token-level RL 信号的优化相关结构提供了新的分析维度,并与近期基于 token 熵的研究形成了理论互补。 --- ## 1. 背景:Token-Level RL 信号的理解缺口 ### 1.1 稀疏性现象 近期研究(包括 Round 14 的 "Beyond the 80/20 Rule")发现 token-level 梯度更新具有显著的稀疏性:仅 20% 的 token 子集即可保留大部分性能。然而,这些研究对"哪些 20%"的回答存在分歧: | 研究 | 度量 | 关键 token 特征 | 策略 | |:---|:---|:---|:---| | **Round 14** | Token 熵 | 高预测不确定度 | 保留高熵 token | | **本论文** | **注意力熵** | 低注意力集中度高熵注意力分散度 | **动态平衡 anchors 与 explorers** | ### 1.2 注意力熵的定义 对于响应中的第 $t$ 个 token,注意力熵衡量其生成时上下文支持的集中/分散程度: $$H_{\text{attn}}^{(t)} = -\sum_{i} \alpha_i^{(t)} \log \alpha_i^{(t)}$$ 其中 $\alpha_i^{(t)}$ 为生成该 token 时第 $i$ 个上下文位置的注意力权重。 > **低注意力熵**:模型依赖少数关键上下文位置(集中支持) > **高注意力熵**:模型整合广泛分布的上下文信息(分散支持) --- ## 2. Anchor-Explorer 光谱 ### 2.1 锚点(Anchors):低注意力熵 Token | 属性 | 特征 | |:---|:---| | **上下文依赖** | 集中(少数位置的高注意力权重) | | **梯度行为** | 稳定、与全 token 更新方向一致 | | **优化角色** | 可靠骨架,提供训练稳定性 | | **局限性** | 在困难基准上容易 plateau | ### 2.2 探索者(Explorers):高注意力熵 Token | 属性 | 特征 | |:---|:---| | **上下文依赖** | 分散(广泛分布的注意力权重) | | **梯度行为** | 更大但更 volatile | | **优化角色** | 可能包含 hard-reasoning 突破信号 | | **局限性** | 平均训练不稳定,成功具有随机性 | ### 2.3 对照实验 | 训练配置 | 稳定性 | 简单任务 | 困难任务 | 解释 | |:---|:---:|:---:|:---:|:---| | Anchors-only | **高** | 好 | **Plateau** | 缺乏突破动力 | | Explorers-only | **低** | 不稳定 | 少数突破 | 信号强但噪声大 | | **动态平衡** | **中高** | **好** | **突破** | **最优组合** | > **关键发现**:Explorers-only 训练虽然平均不稳定,但"少数成功运行"显示出显著的性能突破,证明这些 token 确实包含有价值的 hard-reasoning 信号。 --- ## 3. 稀疏性验证 ### 3.1 均匀随机子集 | 子集比例 | Held-out 性能保留 | |:---:|:---:| | 100% | 基准 | | 20%(均匀随机) | **大部分保留** | > 证实了 Round 14 的核心发现:token-level 更新存在显著冗余。 ### 3.2 熵结构化子集 | 子集类型 | 行为特征 | |:---|:---| | 低注意力熵(Anchors) | 稳定收敛,但上限有限 | | 高注意力熵(Explorers) | 高方差,但潜在上限更高 | > **核心洞察**:稀疏性不仅意味着"可以少更新",更意味着"不同类型的 token 承担不同的优化功能"。 --- ## 4. 排除替代解释 研究者通过一系列控制实验确认观察到的 asymmetry 不是由以下因素导致: | 替代假设 | 控制实验 | 结论 | |:---|:---|:---:| | 位置偏差 | 控制 token 位置变量 | ❌ 不是位置效应 | | 预测熵混淆 | 区分 token 熵与注意力熵 | ❌ 不是预测不确定度 | | 损失归一化 | 控制损失缩放 | ❌ 不是归一化 artifact | > **证据强度**:观察到的 anchor-explorer 不对称性是一种内在的、与注意力机制结构相关的现象。 --- ## 5. 动态熵感知软重加权 ### 5.1 设计动机 不是固定选择 anchors 或 explorers,而是根据训练动态调整两者的贡献权重: $$w_t^{(i)} = f(H_{\text{attn}}^{(i)}, \text{training\_stage}, \text{task\_difficulty})$$ ### 5.2 实现 | 因素 | 对 Anchors 权重的影响 | 对 Explorers 权重的影响 | |:---|:---:|:---:| | 训练早期 | 增加 | 减少 | | 训练晚期 | 减少 | 增加 | | 简单任务 | 增加 | 减少 | | 困难任务 | 减少 | 增加 | ### 5.3 实验结果 | 配置 | Qwen3-8B-Base Held-out 平均 | |:---:|:---:| | 基线(全 token) | 34.39 | | **动态熵感知重加权** | **37.40** | | **绝对提升** | **+3.01** | > **提升来源**:不是更多计算,而是更智能的 token 权重分配——在需要稳定时依靠 anchors,在需要突破时激活 explorers。 --- ## 6. 与相关工作的理论对话 ### 6.1 与 Round 14(80/20 Rule)的互补 | 维度 | Round 14 | 本论文 | 联合视角 | |:---|:---|:---|:---| | **核心度量** | Token 熵(预测分布) | 注意力熵(上下文依赖) | **双熵联合刻画** | | **关键 token** | 高 token 熵 = 决策点 | 低注意力熵 = 稳定锚点 | **不同功能维度** | | **策略** | 固定筛选 20% | 动态平衡 | **情境自适应** | > **统一框架**: > - 高 token 熵 + 低注意力熵 = "分叉锚点"(决策但稳定) > - 高 token 熵 + 高注意力熵 = "全局探索者"(决策且分散) > - 低 token 熵 + 低注意力熵 = "局部跟随"(填充 token) > - 低 token 熵 + 高注意力熵 = "综合总结"(确定但全局) ### 6.2 与 Round 15(POISE)的联系 POISE 使用 token 熵统计作为价值信号。本研究表明:**注意力熵统计可能提供更丰富的价值信息**——不仅预测"答案对不对",还预测"这个 token 是在稳定训练还是在冒险探索"。 ### 6.3 与 Round 17(Tracing Uncertainty)的联系 Round 17 的不确定性轮廓描述整条轨迹的动态。本论文的 anchor-explorer 光谱可视为**轨迹中 token 级别的"不确定性身份"**——每个位置是不确定性的生产者(explorer)还是消费者(anchor)。 --- ## 7. 局限性与未来方向 ### 7.1 层间差异 不同 transformer 层的注意力熵分布是否不同? - 浅层:可能更多 anchors(局部模式匹配) - 深层:可能更多 explorers(全局语义整合) ### 7.2 注意力头专门化 是否存在"anchor 头"和"explorer 头"的功能分化? - 某些头始终低熵(负责局部语法) - 某些头始终高熵(负责全局语义) ### 7.3 与任务结构的关联 不同任务类型(数学、逻辑、创意)的 anchor-explorer 比例是否不同? - 数学推理:可能 anchors 更多(公式、计算) - 开放式创作:可能 explorers 更多(联想、发散) ### 7.4 动态重加权的自适应机制 当前使用训练阶段和任务难度作为调节因素。探索: - 在线监控训练 loss 曲率自动调整 - 验证集性能反馈的闭环控制 - 与 RL reward 信号的联合优化 --- ## 8. 结论 Not All Tokens Learn Alike 通过注意力熵的 lens 揭示了 token-level RL 信号中此前未被识别的异构结构。其核心贡献在于: 1. **双重角色识别**:token 不仅是"更新单元",还分为"稳定锚点"和"探索信号"两种功能类型 2. **稀疏性再确认**:20% 子集足够,但"哪 20%"需要情境自适应 3. **动态平衡策略**:根据训练阶段和任务难度调整 anchor-explorer 权重 4. **实证提升**:Qwen3-8B-Base +3.01 held-out 平均 与 Round 14 的 token 熵研究相结合,本工作为 token-level RL 的理解提供了更完整的图景:token 的重要性不是单维度的,而是由预测不确定度(token 熵)和上下文依赖模式(注意力熵)共同决定的。未来的高效 RL 训练可能需要同时监控这两种熵信号,并据此动态调整优化策略。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning | | **作者** | Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu | | **arXiv ID** | 2605.07660 | | **日期** | 2026-05-08 | | **核心贡献** | 注意力熵分析 token-level RL 异构性;Anchors-Explorers 光谱;20% 稀疏性验证;控制实验排除替代解释;动态熵感知软重加权;Qwen3-8B-Base 34.39→37.40 | | **关键结果** | 均匀随机 20% 保留大部分性能;Anchors 稳定但 plateau;Explorers volatile 但含 hard-reasoning;动态重加权 +3.01 | #Research #AttentionEntropy #TokenLevelRL #HeterogeneousSignals #DynamicReweighting #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录