# CoT 压缩的新范式:"经验引导奖励 + 难度自适应梯度"双管齐下,响应长度砍掉 77%,准确率反而提升——准确率-效率比飙升 3 倍 🚀📉
> **核心判断**:Bian 等人(2026)给 CoT 压缩领域带来了两个核弹级创新。第一,**经验引导的奖励塑造**:模型记住每个问题迄今找到的最短正确解,用这个"个人最佳"作为动态标准——答对了但比最佳长?扣分。答对了且比最佳短?满分。这个标准还会随着模型变强自动收紧。第二,**难度自适应优势**:难题给大梯度(必须学会),简单题给小梯度(不要啰嗦)。结果是:响应长度最多砍掉 **77%**,准确率**不降反升**,准确率-效率比飙升 **3 倍**。如果这是对的,当前所有用"固定长度惩罚"做 CoT 压缩的 RL 方法都是古董。
---
## 1. 现有 CoT 压缩的幼稚病:一刀切的惩罚 🪓
### 1.1 当前做法的问题
现有 RL-based CoT 压缩方法通常这样做:
$$R = R_{\text{correct}} - \lambda \cdot \text{length}$$
| 问题 | 影响 |
|:---|:---|
| **统一惩罚** | 简单题和难题用同样的长度惩罚——简单题被过度惩罚,难题被惩罚不足 |
| **静态标准** | 训练前设定好 $\lambda$,整个训练过程不变——模型变强了,标准却没变 |
| **忽视历史** | 模型不知道"这个问题我以前 50 token 就解对了"——每次都从零开始 |
> **类比**:就像一个教练对所有运动员说"不管你是谁,100 米必须跑 12 秒"——博尔特被过度要求,新手被放得太松。
---
## 2. ExpThink 的双引擎:经验 + 难度 🎯
### 2.1 引擎一:经验引导的奖励塑造
#### 核心机制
为每个问题维护一个"个人最佳"记录:
| 状态 | 奖励 |
|:---|:---:|
| 正确 + 比个人最佳**更短** | **满分** |
| 正确 + 比个人最佳**长** | **折扣分**(越接近满分,越长折扣越大) |
| 错误 | **零分** |
```
问题: "2+2=?"
个人最佳: 10 token
当前回答: 8 token, 正确 → 满分!更新个人最佳为 8
当前回答: 15 token, 正确 → 折扣分(15/10 = 1.5x 长度,折扣 50%)
当前回答: 错误 → 零分
```
#### 自进化课程
| 训练阶段 | 模型能力 | 个人最佳变化 | 效果 |
|:---|:---|:---|:---|
| 早期 | 弱 | 个人最佳较长(如 100 token) | 容易获得满分 |
| 中期 | 中 | 个人最佳缩短(如 50 token) | 需要更简洁 |
| 晚期 | 强 | 个人最佳很短(如 20 token) | 必须极度精简 |
> **关键**:**不需要手动调度课程**。个人最佳自动记录模型的成长轨迹,标准自动收紧。
### 2.2 引擎二:难度自适应优势
#### 核心问题
标准 RL 的优势归一化:
$$A_i = \frac{R_i - \bar{R}}{\sigma_R}$$
**问题**:所有问题用同一批统计量归一化——简单题和难题被同等对待。
#### 解决方案:正确计数归一化
$$A_i^{\text{adaptive}} = \frac{R_i - \bar{R}_d}{\text{correct\_count}_d}$$
其中 $d$ 为问题难度,$\text{correct\_count}_d$ 为该难度级别上的正确解答数。
| 难度 | 正确计数 | 梯度缩放 | 效果 |
|:---|:---:|:---:|:---|
| **简单题** | 高 | **梯度被抑制** | 鼓励简洁,不要啰嗦 |
| **难题** | 低 | **梯度被放大** | 必须学会,保持准确率 |
> **直觉**:简单题大家都做对了,所以"做对"不值得夸——重要的是"做快"。难题很少人做对,所以"做对"本身就值得大奖励。
---
## 3. 实验:长度-77%,准确率+,效率比×3 📊
### 3.1 核心结果
| 指标 | 基线 | ExpThink | 变化 |
|:---|:---:|:---:|:---:|
| 平均响应长度 | 100% | **23%** | **-77%** |
| 准确率 | 基准 | **提升** | **正向** |
| **准确率-效率比** | 基准 | **3×** | **+200%** |
> **不是权衡,是双赢**:长度大幅压缩的同时,准确率不降反升。这是因为模型学会了"说到点子上"——去掉冗余后,核心逻辑更清晰。
### 3.2 与现有方法的对比
| 方法 | 长度压缩 | 准确率 | 效率比 |
|:---|:---:|:---:|:---:|
| 基线 | — | 基准 | 基准 |
| 固定长度惩罚 | 中等 | 下降 | 一般 |
| TokenSkip(Round 9) | 高 | 保持 | 好 |
| **ExpThink** | **最高** | **提升** | **最优** |
> **ExpThink 在两个维度上都优于现有 RL 压缩方法**:压缩更狠,准确率更高。
### 3.3 跨基准验证
在多个数学推理基准上的验证表明结果具有一致性。
---
## 4. 与之前主题的联动 🔗
### 4.1 与 TokenSkip(Round 9)
TokenSkip 静态压缩 CoT 中的冗余 token。ExpThink 在**训练阶段**就让模型学会生成更短的 CoT——从源头解决问题。
### 4.2 与 DAST(Round 7)
DAST 根据问题难度分配计算。ExpThink 的"难度自适应优势"是 DAST 思想在**RL 奖励设计**层面的实现。
### 4.3 与 80/20 Rule(Round 14)
Round 14 发现 20% 高熵 token 是关键。ExpThink 训练模型自动聚焦于这 20%——学会不在低熵跟随 token 上浪费笔墨。
### 4.4 与 Rubric-Grounded RL(Round 19)
Rubric-Grounded RL 用多维评分替代二元奖励。ExpThink 的"三级奖励"(满分/折扣/零分)是类似的 partial-credit 思想在压缩场景的应用。
### 4.5 与 Coupling Tax(Round 16)
Coupling Tax 揭示了长推理链挤占答案空间。ExpThink 从训练层面解决这个问题——让模型天生生成更紧凑的推理链。
---
## 5. 我的押注 💰
**我赌 1000 美元:到 2026 年底,"经验引导的奖励塑造"将成为 RL-based CoT 压缩的标准配置。所有主流 RL 训练框架都会内置"个人最佳追踪"和"难度自适应归一化"功能。**
**为什么?**
1. **效果太硬了**:-77% 长度 + 准确率提升 + 3× 效率比,这是改变游戏规则的提升。
2. **实现简单**:个人最佳是一个字典,难度归一化是一个统计量——没有复杂的架构改动。
3. **与现有算法兼容**:可以叠加到 GRPO、PPO、REINFORCE++ 等任何 RL 算法上。
4. **理论优雅**:它把"压缩"从一个外部惩罚变成了模型内在的竞争动力——"我能比上次更简洁吗?"
5. **自进化**:不需要人工调参,标准随模型成长自动收紧。
**敌人是谁?**
- "固定惩罚最简单"的懒惰派——动态标准效果更好。
- 认为"压缩必然牺牲准确率"的零和思维者——数据证明双赢可能。
- 害怕"个人最佳字典"占用内存的工程团队——只需要存储每个问题的最短正确解长度,不是解本身。
---
## 6. 局限与未来 🔮
### 6.1 个人最佳的初始化
新问题没有历史记录时,个人最佳如何初始化?
- 用领域平均值?
- 用第一次正确解的长度?
- 用一个宽松的初始上限?
### 6.2 难度度量
当前如何定义"问题难度"?是用正确率、平均尝试次数,还是其他指标?
### 6.3 与多轮推理的结合
在多轮对话或交互式推理中,个人最佳是否需要跨轮更新?
### 6.4 泛化到其他领域
数学推理上的成功能否迁移到代码生成、科学推理、创意写作?
但无论如何,ExpThink 提出了一个无法忽视的工程原则:**最好的压缩不是惩罚长度,而是让模型自发地追求"更短、更对"的个人最佳。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression |
| **作者** | Tingcheng Bian, Yuzhe Zhang, Jing Jin, Jinchang Luo, MingQuan Cheng, Haiwei Wang, Wenyuan Jiang, Miaohui Wang |
| **机构** | (待确认) |
| **arXiv ID** | 2605.07501 |
| **日期** | 2026-05-08 |
| **核心贡献** | 经验引导的奖励塑造(个人最佳追踪 + 三级奖励 + 自进化课程);难度自适应优势(正确计数归一化);准确率-效率比 3× |
| **关键结果** | 响应长度 -77%;准确率提升;准确率-效率比 3×;优于现有 RL 压缩方法 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力