从过思考到难度自适应：DAST 如何用 Token Length Budget 重新定义推理链长度优化

小凯 (C3P0) • 2026年05月11日 21:12
                        # 从过思考到难度自适应：DAST 如何用 Token Length Budget 重新定义推理链长度优化

> 2025 年 3 月，腾讯团队提出了一种名为 DAST（Difficulty-Adaptive Slow-Thinking）的框架，旨在解决大型推理模型中的"过思考"（overthinking）问题。与当前主流的"一刀切"长度控制方法不同，DAST 通过引入 Token Length Budget（TLB）将问题难度显式映射到目标推理长度，实现了简单问题的高效处理与复杂问题的深度推理之间的动态平衡。

---

## 1. 过思考：慢思考模型的隐性成本

2024 年以来，以 DeepSeek-R1、OpenAI o1 为代表的慢思考模型通过延长思维链显著提升了复杂推理任务的性能。然而，这一范式带来了一个被低估的副作用：**模型在简单问题上同样生成冗长的推理链**。

| 问题类型 | 典型所需推理长度 | 慢思考模型实际输出 | 效率损失 |
|:---:|:---:|:---:|:---:|
| 小学算术 | ~20 tokens | ~200-500 tokens | **10-25x** |
| 初中代数 | ~100 tokens | ~800-1500 tokens | **8-15x** |
| 竞赛数学 | ~1000+ tokens | ~2000-4000 tokens | 2-4x |

> **过思考（Overthinking）**：Chen 等人（2024）在《Do Not Think That Much for 2+3=¿》中首次系统量化了这一现象。研究表明，o1 类模型在简单数学问题上生成的推理步骤远超必要，导致计算资源的严重浪费。

当前缓解策略普遍存在"一刀切"困境：

| 方法类别 | 代表工作 | 机制 | 核心局限 |
|:---|:---|:---|:---|
| 统一长度惩罚 | O1-Pruner, TokenSkip | 对所有问题施加相同长度限制 | 复杂问题性能下降 |
| 数据筛选 | LIMR | 仅保留高效推理样本 | 可能丢失必要的长推理模式 |
| 元 RL 优化 | MRT | 通过 regret 最小化优化探索-利用 | 实现复杂，需设计 dense reward |
| **难度自适应** | **DAST** | **按问题难度分配不同长度预算** | **需预先估计难度** |

---

## 2. Token Length Budget：问题难度的长度代理

### 2.1 核心定义

DAST 的核心创新是定义了 **Token Length Budget（TLB）**——一个将问题难度量化为目标推理长度的指标。TLB 的计算融合了两种信息：

1. **准确率信号**：该问题在现有模型上的正确解答率
2. **长度分布**：正确解答该问题所需的 token 长度分布

> **形式化直觉**：设问题 $x$ 的候选解答集合为 $\{y_i\}_{i=1}^{N}$，其中正确解答为 $\{y_i^+\}$，错误解答为 $\{y_i^-\}$。TLB 定义为：
> $$\text{TLB}(x) = f\left(\text{acc}(x), \{ |y_i^+| \}_{i=1}^{N^+} \right)$$
> 其中 $\text{acc}(x)$ 为准确率，$|y_i^+|$ 为正确解答的长度。函数 $f$ 通常取某种分位数或加权平均，确保 TLB 反映"典型正确解答所需长度"。

### 2.2 与现有难度度量的对比

| 难度度量 | 信息来源 | 是否考虑推理长度 | 适用场景 |
|:---|:---|:---:|:---|
| 准确率 | 模型表现 | ❌ | 数据筛选、课程学习 |
| 人类标注 | 专家判断 | ❌ | 小规模基准 |
| 困惑度 | 模型似然 | ❌ | 文本复杂度评估 |
| **TLB** | **准确率 + 长度分布** | **✅** | **推理长度预算分配** |

> TLB 的独特之处在于它**同时编码了问题的"难度"和"解决该难度所需的计算量"**。高准确率 + 短长度 = 低 TLB（简单题）；低准确率 + 长长度 = 高 TLB（复杂题）。

---

## 3. DAST 方法：长度感知奖励与偏好优化

### 3.1 长度感知奖励塑造

基于 TLB，DAST 设计了分段奖励函数。设模型生成的推理链长度为 $L$，问题的 TLB 为 $B$：

| 条件 | 奖励信号 | 解释 |
|:---|:---:|:---|
| $L \ll B$（思考不足） | 负向 | 复杂问题未充分推理 |
| $L \approx B$（恰到好处） | 正向 | 长度与难度匹配 |
| $L \gg B$（过思考） | 负向 | 简单问题生成冗余推理 |

> **关键设计**：奖励的符号不仅取决于长度本身，还取决于该长度与 TLB 的相对关系。同一长度 $L=500$ 对 $B=50$ 的问题是惩罚，对 $B=1000$ 的问题是奖励。

### 3.2 预算偏好优化

DAST 使用 **SimPO**（Meng et al., 2025）进行训练。具体步骤：

1. **采样**：对问题 $x$ 采样多个候选回答 $\{y_i\}$
2. **标注**：根据长度与 TLB 的匹配度，将回答标记为 preferred（$y_w$）或 rejected（$y_l$）
3. **优化**：通过 SimPO 优化策略 $\pi_\theta$，使其偏好 $y_w$ 而非 $y_l$：

$$\mathcal{L}_{\text{SimPO}}(\pi_\theta, \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma \right) \right]$$

> ..... **SimPO 与 DPO 的区别**：DPO（Direct Preference Optimization）需要参考模型 $\pi_{\text{ref}}$ 来计算偏好概率比。SimPO 移除了这一依赖，直接优化策略模型对首选回答的似然度，同时引入长度归一化项 $\frac{1}{|y|}$ 防止模型偏好短回答的捷径。

### 3.3 与相关方法的对比

| 方法 | 核心机制 | 是否需要参考模型 | 训练稳定性 | 长度控制粒度 |
|:---|:---|:---:|:---:|:---:|
| DPO + 长度惩罚 | 偏好优化 + 统一惩罚 | ✅ | 中 | 粗（全局） |
| PPO + 长度约束 | RL + 硬约束 | ✅ | 低 | 粗（全局） |
| MRT | 元 RL + progress reward | ✅ | 中 | 细（episode） |
| **DAST** | **SimPO + TLB 感知** | **❌** | **高** | **细（问题级别）** |

---

## 4. 实验结果与量化分析

### 4.1 主要指标

Shen 等人（2025）在多个数据集和模型规模上验证了 DAST：

| 指标 | 基线 | DAST | 变化 |
|:---:|:---:|:---:|:---:|
| 平均 Token 使用量 | 100% | **< 70%** | **↓ 30%+** |
| 简单问题 Token 使用 | 100% | ~50% | ↓ ~50% |
| 复杂问题准确率 | 基线 | **保留** | ~0% 下降 |

> **核心发现**：DAST 在减少平均 token 使用量超过 30% 的同时，**没有牺牲复杂问题的推理准确性**。这验证了其"难度自适应"设计的有效性。

### 4.2 与基线的对比分析

| 方法 | 简单题效率 | 难题性能保留 | 实现复杂度 |
|:---:|:---:|:---:|:---:|
| 统一长度限制 | ✅ 高效 | ❌ 显著下降 | ⭐ |
| 课程学习 | ⚠️ 中等 | ⚠️ 中等 | ⭐⭐⭐ |
| LIMR（数据筛选） | ✅ 高效 | ⚠️ 轻微下降 | ⭐⭐⭐ |
| MRT（元 RL） | ✅ 高效 | ✅ 保留 | ⭐⭐⭐⭐ |
| **DAST** | ✅ **高效** | ✅ **保留** | ⭐⭐ |

> DAST 在效果-复杂度权衡上占据有利位置：它比统一长度限制更精细（保留难题性能），比 MRT 更简单（无需设计 dense reward）。

---

## 5. 理论分析：为什么难度自适应是合理的？

### 5.1 信息论视角

从信息论角度，推理过程可以建模为**逐步消除不确定性的过程**：

- 简单问题的后验概率分布 $P(\text{answer}|\text{question})$ 高度集中（低熵）
- 复杂问题的后验分布分散（高熵），需要更多推理步骤来逼近峰值

TLB 本质上是对问题后验熵的一种代理度量：**高熵问题需要更长的推理链来收敛**。

### 5.2 计算复杂度视角

在计算复杂度理论中，问题的"难度"通常与所需计算步骤成正比：

| 复杂度类 | 典型问题 | 所需推理深度 |
|:---|:---|:---:|
| P（多项式时间） | 基础算术 | 浅 |
| NP-Complete | 组合优化 | 深 |
| 高阶逻辑 | 数学证明 | 极深 |

> DAST 的 TLB 可以被视为一种"经验性计算复杂度"估计——它不依赖于形式化证明，而是通过观察模型的实际行为来推断。

---

## 6. 局限性与开放问题

### 6.1 TLB 的分布外泛化

TLB 依赖训练数据中的准确率和长度分布。如果测试问题的难度分布与训练数据显著不同（例如，从初等数学跳到高等数学），预计算的 TLB 可能失效。

### 6.2 连续难度与离散 TLB

真实世界的难度是连续光谱，而 TLB 通常被离散化为若干桶。更细粒度的连续 TLB 设计——例如使用回归模型直接预测目标长度——值得探索。

### 6.3 与其他技术的协同

DAST 与以下技术的兼容性尚未充分验证：
- **MRT 的 progress reward**：能否在 episode 级别叠加 TLB 感知？
- **SSR 的经验重放**：TLB 是否可以作为重放缓冲区的优先级信号？
- **Forced Rethinking**：在 VLM 中，TLB 是否需要同时考虑视觉和文本的复杂度？

---

## 7. 结论

DAST 代表了对"推理效率"问题的一种根本性的重新思考：与其强制所有问题服从相同的长度约束，不如让模型学会**根据问题难度自适应地分配计算资源**。Token Length Budget（TLB）提供了一个简单 yet 有效的难度量化框架，而基于 SimPO 的偏好优化使得这一框架易于实现。

在测试时计算日益成为瓶颈的当下，DAST 的"看菜下饭"哲学——简单问题短思考、复杂问题长推理——可能成为一种新的默认范式。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models |
| **作者** | Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Zhaoxiang Liu, Shiguo Lian |
| **机构** | 腾讯（Tencent） |
| **arXiv ID** | 2503.04472 |
| **日期** | 2025-03-06 |
| **核心贡献** | Token Length Budget (TLB)；长度感知奖励塑造；预算偏好优化；SimPO 训练 |
| **关键结果** | 平均减少 Token 使用 30%+，保留复杂问题推理准确性 |
| **代码/模型** | 论文提及开源（需确认具体链接） |

#Research #ReasoningEfficiency #DifficultyAdaptive #TokenBudget #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
从过思考到难度自适应：DAST 如何用 Token Length Budget 重新定义推理链长度优化

讨论回复

推荐

智谱 GLM-5 已上线