# ExpThink:基于经验引导奖励塑造与难度自适应优势的 CoT 压缩强化学习框架
> 2026 年 5 月,Bian 等人提出了 ExpThink,一种通过双重机制实现自适应 Chain-of-Thought 压缩的 RL 框架。该框架针对现有方法中统一静态长度惩罚的局限,引入了经验引导的奖励塑造——追踪每个问题的最短正确解并应用动态三级奖励,形成自进化的课程;以及难度自适应优势——用正确计数归一化替代标准差归一化,实现单调难度缩放的梯度分配。在多个数学推理基准上,ExpThink 将平均响应长度减少最多 77%,同时提升准确率,实现高达 3 倍的准确率-效率比。
---
## 1. 背景:CoT 压缩的 RL 方法局限
### 1.1 现有方法的统一惩罚问题
当前 RL-based CoT 压缩通常采用统一的长度惩罚:
$$R = R_{\text{correct}} - \lambda \cdot \text{length}$$
该设计存在三个结构性缺陷:
| 缺陷 | 具体表现 | 后果 |
|:---|:---|:---|
| **统一性** | 简单题与难题用相同惩罚系数 | 简单题过度压缩,难题压缩不足 |
| **静态性** | $\lambda$ 训练前固定 | 模型能力提升后标准未跟进 |
| **无记忆性** | 不利用历史最优解信息 | 重复探索已知可行解空间 |
### 1.2 需要自适应的两个维度
| 维度 | 变化来源 | 现有方法的处理 |
|:---|:---|:---:|
| **模型能力动态** | 训练过程中模型逐渐变强 | ❌ 静态标准 |
| **问题难度差异** | 不同问题固有难度不同 | ❌ 统一惩罚 |
---
## 2. 方法:双重机制
### 2.1 机制一:经验引导的奖励塑造
#### 个人最佳追踪
为每个问题 $q$ 维护动态记录:
$$B_q = \min\{\text{length}(r) : r \text{ is correct for } q\}$$
#### 三级奖励函数
| 响应类型 | 条件 | 奖励 |
|:---|:---|:---:|
| 正确 + 创纪录简洁 | $\text{length} < B_q$ | **$R_{\max}$** |
| 正确 + verbose | $\text{length} \geq B_q$ | $R_{\max} \cdot \frac{B_q}{\text{length}}$ |
| 错误 | — | **0** |
#### 自进化课程
| 训练阶段 | 模型能力 | $B_q$ 演变 | 有效标准 |
|:---|:---|:---|:---|
| 早期 | 弱 | 较长(如 100 token) | 宽松 |
| 中期 | 中 | 中等(如 50 token) | 中等 |
| 晚期 | 强 | 较短(如 20 token) | 严格 |
> **核心特性**:无需手动课程调度,标准随模型成长自动收紧。
### 2.2 机制二:难度自适应优势
#### 标准归一化的局限
$$A_i = \frac{R_i - \bar{R}}{\sigma_R}$$
所有问题共享同一统计量,忽视了难度差异。
#### 正确计数归一化
$$A_i^{\text{adaptive}} = \frac{R_i - \bar{R}_d}{C_d}$$
其中 $d$ 为问题难度级别,$C_d$ 为该难度上的累积正确计数。
| 难度级别 | $C_d$ | 梯度缩放 | 训练效果 |
|:---|:---:|:---:|:---|
| 简单 | 高 | **抑制** | 鼓励简洁 |
| 困难 | 低 | **放大** | 保持准确率 |
> **理论保证**:正确计数 $C_d$ 与难度单调相关,确保梯度缩放与难度正相关。
---
## 3. 实验结果
### 3.1 核心指标
| 指标 | 基线 | ExpThink | 变化 |
|:---|:---:|:---:|:---:|
| 平均响应长度 | 100% | **23%** | **-77%** |
| 准确率 | 基准 | **提升** | **正向** |
| **准确率-效率比** | 1× | **3×** | **+200%** |
### 3.2 与现有方法对比
| 方法 | 压缩率 | 准确率变化 | 效率比 |
|:---|:---:|:---:|:---:|
| 基线 | — | 基准 | 1× |
| 固定惩罚 | 中等 | 下降 | 1.5× |
| TokenSkip | 高 | 保持 | 2× |
| **ExpThink** | **最高** | **提升** | **3×** |
> **双重优势**:在压缩率和准确率两个维度上同时优于现有方法。
### 3.3 跨基准一致性
在多个数学推理基准上的验证显示结果具有领域一致性。
---
## 4. 理论分析
### 4.1 奖励塑造的激励结构
经验引导奖励创造了一个"竞赛"机制:
$$\text{激励} \propto \frac{\partial R}{\partial \text{length}} = -\frac{R_{\max} \cdot B_q}{\text{length}^2}$$
> 长度越长,边际奖励越低,形成天然的压缩激励。
### 4.2 难度自适应的收敛性
正确计数归一化确保:
- 简单问题:高 $C_d$ → 小梯度 → 模型聚焦于压缩
- 困难问题:低 $C_d$ → 大梯度 → 模型聚焦于正确性
这种分离使得准确率优化和压缩优化在不同难度上分别主导。
---
## 5. 与相关工作的联系
### 5.1 与 TokenSkip(Round 9)
TokenSkip 通过后处理压缩 CoT。ExpThink 在**训练阶段**内化压缩行为——从源头生成更短的推理链。
### 5.2 与 DAST(Round 7)
DAST 在推理阶段根据难度分配计算。ExpThink 在**训练阶段**根据难度调整梯度——两者从正交维度实现难度自适应。
### 5.3 与 80/20 Rule(Round 14)
Round 14 识别了 20% 关键 token。ExpThink 训练模型自动聚焦关键 token,减少低价值跟随 token 的生成。
### 5.4 与 Rubric-Grounded RL(Round 19)
Rubric-Grounded RL 用多维评分替代二元奖励。ExpThink 的三级奖励(满分/折扣/零分)是类似的 partial-credit 思想在压缩场景的具体化。
### 5.5 与 Coupling Tax(Round 16)
Coupling Tax 揭示了长推理链对答案空间的挤占。ExpThink 从训练层面预防该问题——模型天生生成紧凑推理链。
---
## 6. 局限性与未来方向
### 6.1 个人最佳初始化
新问题无历史记录时的策略:
- 领域统计初始化(使用该难度级别的平均最短解)
- 渐进式收紧(首次正确解作为初始 $B_q$,后续逐步优化)
### 6.2 难度度量选择
当前隐式通过正确计数反映难度。探索显式难度模型:
- 基于问题特征的监督难度预测
- 在线难度估计(基于训练过程中的正确率动态更新)
### 6.3 跨领域迁移
数学推理上的成功能否迁移至:
- 代码生成(语法正确性 vs 算法效率)
- 科学推理(事实准确性 vs 推导简洁性)
- 创意任务(表达丰富度 vs 信息密度)
### 6.4 与推理阶段优化的结合
训练阶段压缩与推理阶段优化的协同:
- ExpThink 训练 + VecCISC(Round 24)评估去重
- 训练压缩生成能力 + 推理动态路由(Round 23)
---
## 7. 结论
ExpThink 通过经验引导奖励塑造和难度自适应优势,为 CoT 压缩提供了一个自适应、自进化的 RL 框架。其核心贡献在于:
1. **动态标准**:个人最佳追踪替代静态惩罚
2. **难度感知**:正确计数归一化替代统一归一化
3. **双赢结果**:-77% 长度 + 准确率提升
4. **即插即用**:可叠加到任何现有 RL 算法
在推理效率和模型性能同样重要的背景下,ExpThink 代表了从"外部惩罚压缩"向"内在动力压缩"的范式转变。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression |
| **作者** | Tingcheng Bian, Yuzhe Zhang, Jing Jin, Jinchang Luo, MingQuan Cheng, Haiwei Wang, Wenyuan Jiang, Miaohui Wang |
| **arXiv ID** | 2605.07501 |
| **日期** | 2026-05-08 |
| **核心贡献** | 经验引导奖励塑造(个人最佳 + 三级奖励 + 自进化课程);难度自适应优势(正确计数归一化);准确率-效率比 3× |
| **关键结果** | 响应长度 -77%;准确率提升;准确率-效率比 3×;优于现有 RL 压缩方法 |
#Research #CoTCompression #RL #RewardShaping #DifficultyAdaptive #Efficiency #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力