# 别再一刀切了!DAST 让推理模型学会"看菜下饭"——简单问题短思考,复杂问题长推理 🍽️
> **核心判断**:当前所有"推理效率"方法都在犯同一个错误——**把简单问题和复杂问题当成一回事来治**。要么一刀切地限制长度(牺牲难题性能),要么一刀切地鼓励长思考(浪费简单题的 token)。腾讯团队的 DAST 说:不对,模型应该像老厨师一样,**看菜下饭**——简单题快炒,复杂题慢炖。如果 DAST 是对的,整个"推理压缩"领域需要重写教科书。
---
## 1. 过思考:一个被低估的瘟疫 🦠
想象你问一个推理模型:"2 + 3 等于几?"
它的回答可能是:
> "让我仔细思考一下。2 是一个正整数,3 也是一个正整数。根据加法交换律,2 + 3 = 3 + 2。让我验证一下:从 2 开始数 3 个数字,3、4、5。所以答案是 5。为了确保正确,我用另一种方法验证:5 - 2 = 3,5 - 3 = 2。因此我确认 2 + 3 = 5。"
**300 个 token,解决了一个 5 个 token 就能回答的问题。**
这就是 **overthinking(过思考)**——慢思考模型在简单问题上生成冗余推理步骤的现象。
但当前的解决方案是什么?
| 方案 | 做法 | 问题 |
|:---|:---|:---|
| 统一长度惩罚 | 所有回答超过 X token 就罚 | ❌ 简单题解决了,难题被误杀 |
| 多阶段课程 | 先练短思考,再练长思考 | ❌ 训练复杂,需要人工设计课程 |
| 蒸馏短链 | 用短答案训练模型 | ❌ 丢失复杂推理能力 |
> **核心矛盾**:我们需要模型在简单问题上**短**,在复杂问题上**长**。但现有方法都是"一刀切"。
---
## 2. DAST 的核心洞察:难度 = 长度预算 💡
腾讯团队(Yi Shen 等)提出了一个优雅的解决方案:**Difficulty-Adaptive Slow-Thinking(DAST)**。
他们的 insight 简单到让人拍大腿:
> **不同难度的问题,天然需要不同长度的推理链。为什么不把"问题难度"直接映射到"目标长度"?**
### 2.1 Token Length Budget (TLB)
DAST 首先定义了一个问题难度量化指标:**Token Length Budget(TLB)**。
TLB 结合了两个信息:
1. **Accuracy**:该问题被正确解答的频率
2. **Length distribution**:正确解答该问题所需的 token 长度分布
> **直觉**:如果一个问题所有人都用 50 token 就能做对,那它的 TLB 就是 50。如果另一个问题只有高手才能用 500 token 做对,那它的 TLB 就是 500。
### 2.2 长度感知奖励塑造
有了 TLB,DAST 设计了一个精巧的奖励机制:
| 场景 | 实际长度 vs TLB | 奖励信号 |
|:---|:---|:---:|
| 简单问题 | 实际 >> TLB | 🔴 **惩罚**(过思考) |
| 简单问题 | 实际 ≈ TLB | 🟢 **奖励**(高效) |
| 复杂问题 | 实际 >> TLB | 🟢 **奖励**(深入推理) |
| 复杂问题 | 实际 << TLB | 🔴 **惩罚**(思考不足) |
> **关键**:同一个"长回答",对简单题是惩罚,对复杂题是奖励。模型学会了**根据问题难度调整推理深度**。
### 2.3 预算偏好优化
DAST 使用 **SimPO**(Simple Preference Optimization)进行训练。它构建了一个成对的偏好数据集:
- **Preferred**:长度接近 TLB、答案正确的回答
- **Rejected**:长度过长(简单题)或过短(复杂题)的回答
通过偏好优化,模型逐渐学会"看菜下饭"——简单题自动压缩,复杂题自动展开。
> ..... **SimPO(Simple Preference Optimization)**:一种无需参考模型的偏好优化算法。与 DPO 不同,SimPO 直接优化策略模型,使其对首选回答的似然度高于被拒绝的回答,同时保持与 Bradley-Terry 模型的理论一致性。
---
## 3. 数据说话:DAST 有多聪明?📊
### 核心指标
| 指标 | 基线 (标准长 CoT) | DAST | 改进 |
|:---:|:---:|:---:|:---:|
| **平均 Token 使用量** | 100% | **< 70%** | **↓ 30%+** |
| 简单问题 Token 使用 | 100% | ~50% | ↓ 50% |
| 复杂问题准确率 | 100% | **~100%** | **保留** |
> **注意**:DAST 在减少 token 使用的同时,**保留了复杂问题的推理准确性**。这不是"用准确率换效率"的零和博弈——这是真正的双赢。
### 与同类方法的对比
| 方法 | 简单题效率 | 难题性能 | 训练复杂度 |
|:---|:---:|:---:|:---:|
| 统一长度惩罚 | ✅ 好 | ❌ 差 | 低 |
| LIMR(数据筛选) | ✅ 好 | ⚠️ 中等 | 高 |
| MRT(元 RL) | ✅ 好 | ✅ 好 | 高 |
| **DAST(难度自适应)** | ✅ **好** | ✅ **好** | **中** |
> DAST 的训练复杂度低于 MRT(不需要设计 dense reward),但效果同样显著。它是一种**更轻量、更直接**的解决方案。
---
## 4. 为什么 DAST 比一刀切更合理?🧠
让我用一个比喻来说明:
> **一刀切的长度惩罚**,就像是给所有员工规定"每天必须工作 8 小时,不准多也不准少"。结果是什么?简单任务的人磨洋工,复杂任务的人加班到半夜还没做完。
>
> **DAST 的难度自适应**,就像是"按项目难度分配工时"——简单项目 2 小时搞定,复杂项目给你 2 周。每个人都恰到好处地投入。
### 从第一性原理看 DAST
DAST 的正确性可以从信息论角度理解:
- **简单问题**的信息熵低,所需的"计算步骤"少
- **复杂问题**的信息熵高,需要更多步骤来降低不确定性
一刀切的方法无视了这种信息熵差异。DAST 通过 TLB 显式建模了它。
> ..... **信息熵(Information Entropy)**:度量随机变量不确定性的指标。在推理中,简单问题的后验概率分布更集中(低熵),复杂问题更分散(高熵)。DAST 的 TLB 本质上是对问题熵的一种代理度量。
---
## 5. 我的押注 💰
**我赌 500 美元:到 2025 年底,至少两个主流推理模型(DeepSeek、Qwen、Kimi 或 OpenAI 的下一代产品)会集成类似 DAST 的难度自适应机制。**
**为什么?**
1. **需求真实存在**:过思考不是理论问题,是每天烧掉数百万美元 API 费用的实际问题。
2. **实现成本低**:TLB 可以在训练前离线计算,DAST 只需要在现有偏好优化框架上加一个长度感知的奖励项。不需要新架构、不需要新数据。
3. **用户价值明确**:简单问题响应更快(用户体验↑),复杂问题答案更准(准确率↑)。这是产品经理最爱的"既要又要"。
4. **理论优雅**:TLB 把"难度"和"长度"两个概念统一起来,符合人类直觉——我们不会用证明费马大定理的篇幅来解释 2+3=5。
**敌人是谁?**
- "推理越长越聪明"的迷思信奉者——你的模型在简单题上写小说,不是聪明,是浪费。
- 盲目跟风 MRT/LIMR 的研究者——DAST 证明了,有时候简单的方法比复杂的框架更有效。
- 认为"所有问题都值得同样多思考"的哲学家——不,你的时间(token)有限,请花在刀刃上。
---
## 6. 局限性与未来 🔮
DAST 不是银弹:
1. **TLB 的计算依赖训练数据**:如果训练数据的难度分布与测试数据不匹配,TLB 可能失效。
2. **难度是连续的,TLB 是离散的**:真实世界的难度是光谱,不是几个桶。更细粒度的 TLB 设计值得探索。
3. **与其他技术的兼容性**:DAST + MRT 的 progress reward 能否叠加?DAST + SSR 能否联合使用?这些都是开放问题。
但无论如何,DAST 提出了一个被忽视的根本问题:**推理效率不应该是一刀切的,而应该是难度自适应的。** 这个问题一旦被提出,就再也无法被忽视。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models |
| **作者** | Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Zhaoxiang Liu, Shiguo Lian |
| **机构** | 腾讯(Tencent) |
| **arXiv ID** | 2503.04472 |
| **日期** | 2025-03-06 |
| **核心贡献** | Token Length Budget (TLB) 难度量化;长度感知奖励塑造;预算偏好优化;难度自适应慢思考 |
| **关键结果** | 平均减少 Token 使用 30%+,保留复杂问题推理准确性 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力