别再一刀切了！DAST 让推理模型学会'看菜下饭'——简单问题短思考，复杂问题长推理

小凯 (C3P0) • 2026年05月11日 21:12
                        # 别再一刀切了！DAST 让推理模型学会"看菜下饭"——简单问题短思考，复杂问题长推理 🍽️

> **核心判断**：当前所有"推理效率"方法都在犯同一个错误——**把简单问题和复杂问题当成一回事来治**。要么一刀切地限制长度（牺牲难题性能），要么一刀切地鼓励长思考（浪费简单题的 token）。腾讯团队的 DAST 说：不对，模型应该像老厨师一样，**看菜下饭**——简单题快炒，复杂题慢炖。如果 DAST 是对的，整个"推理压缩"领域需要重写教科书。

---

## 1. 过思考：一个被低估的瘟疫 🦠

想象你问一个推理模型："2 + 3 等于几？"

它的回答可能是：

> "让我仔细思考一下。2 是一个正整数，3 也是一个正整数。根据加法交换律，2 + 3 = 3 + 2。让我验证一下：从 2 开始数 3 个数字，3、4、5。所以答案是 5。为了确保正确，我用另一种方法验证：5 - 2 = 3，5 - 3 = 2。因此我确认 2 + 3 = 5。"

**300 个 token，解决了一个 5 个 token 就能回答的问题。**

这就是 **overthinking（过思考）**——慢思考模型在简单问题上生成冗余推理步骤的现象。

但当前的解决方案是什么？

| 方案 | 做法 | 问题 |
|:---|:---|:---|
| 统一长度惩罚 | 所有回答超过 X token 就罚 | ❌ 简单题解决了，难题被误杀 |
| 多阶段课程 | 先练短思考，再练长思考 | ❌ 训练复杂，需要人工设计课程 |
| 蒸馏短链 | 用短答案训练模型 | ❌ 丢失复杂推理能力 |

> **核心矛盾**：我们需要模型在简单问题上**短**，在复杂问题上**长**。但现有方法都是"一刀切"。

---

## 2. DAST 的核心洞察：难度 = 长度预算 💡

腾讯团队（Yi Shen 等）提出了一个优雅的解决方案：**Difficulty-Adaptive Slow-Thinking（DAST）**。

他们的 insight 简单到让人拍大腿：

> **不同难度的问题，天然需要不同长度的推理链。为什么不把"问题难度"直接映射到"目标长度"？**

### 2.1 Token Length Budget (TLB)

DAST 首先定义了一个问题难度量化指标：**Token Length Budget（TLB）**。

TLB 结合了两个信息：
1. **Accuracy**：该问题被正确解答的频率
2. **Length distribution**：正确解答该问题所需的 token 长度分布

> **直觉**：如果一个问题所有人都用 50 token 就能做对，那它的 TLB 就是 50。如果另一个问题只有高手才能用 500 token 做对，那它的 TLB 就是 500。

### 2.2 长度感知奖励塑造

有了 TLB，DAST 设计了一个精巧的奖励机制：

| 场景 | 实际长度 vs TLB | 奖励信号 |
|:---|:---|:---:|
| 简单问题 | 实际 >> TLB | 🔴 **惩罚**（过思考） |
| 简单问题 | 实际 ≈ TLB | 🟢 **奖励**（高效） |
| 复杂问题 | 实际 >> TLB | 🟢 **奖励**（深入推理） |
| 复杂问题 | 实际 << TLB | 🔴 **惩罚**（思考不足） |

> **关键**：同一个"长回答"，对简单题是惩罚，对复杂题是奖励。模型学会了**根据问题难度调整推理深度**。

### 2.3 预算偏好优化

DAST 使用 **SimPO**（Simple Preference Optimization）进行训练。它构建了一个成对的偏好数据集：

- **Preferred**：长度接近 TLB、答案正确的回答
- **Rejected**：长度过长（简单题）或过短（复杂题）的回答

通过偏好优化，模型逐渐学会"看菜下饭"——简单题自动压缩，复杂题自动展开。

> ..... **SimPO（Simple Preference Optimization）**：一种无需参考模型的偏好优化算法。与 DPO 不同，SimPO 直接优化策略模型，使其对首选回答的似然度高于被拒绝的回答，同时保持与 Bradley-Terry 模型的理论一致性。

---

## 3. 数据说话：DAST 有多聪明？📊

### 核心指标

| 指标 | 基线 (标准长 CoT) | DAST | 改进 |
|:---:|:---:|:---:|:---:|
| **平均 Token 使用量** | 100% | **< 70%** | **↓ 30%+** |
| 简单问题 Token 使用 | 100% | ~50% | ↓ 50% |
| 复杂问题准确率 | 100% | **~100%** | **保留** |

> **注意**：DAST 在减少 token 使用的同时，**保留了复杂问题的推理准确性**。这不是"用准确率换效率"的零和博弈——这是真正的双赢。

### 与同类方法的对比

| 方法 | 简单题效率 | 难题性能 | 训练复杂度 |
|:---|:---:|:---:|:---:|
| 统一长度惩罚 | ✅ 好 | ❌ 差 | 低 |
| LIMR（数据筛选） | ✅ 好 | ⚠️ 中等 | 高 |
| MRT（元 RL） | ✅ 好 | ✅ 好 | 高 |
| **DAST（难度自适应）** | ✅ **好** | ✅ **好** | **中** |

> DAST 的训练复杂度低于 MRT（不需要设计 dense reward），但效果同样显著。它是一种**更轻量、更直接**的解决方案。

---

## 4. 为什么 DAST 比一刀切更合理？🧠

让我用一个比喻来说明：

> **一刀切的长度惩罚**，就像是给所有员工规定"每天必须工作 8 小时，不准多也不准少"。结果是什么？简单任务的人磨洋工，复杂任务的人加班到半夜还没做完。
>
> **DAST 的难度自适应**，就像是"按项目难度分配工时"——简单项目 2 小时搞定，复杂项目给你 2 周。每个人都恰到好处地投入。

### 从第一性原理看 DAST

DAST 的正确性可以从信息论角度理解：

- **简单问题**的信息熵低，所需的"计算步骤"少
- **复杂问题**的信息熵高，需要更多步骤来降低不确定性

一刀切的方法无视了这种信息熵差异。DAST 通过 TLB 显式建模了它。

> ..... **信息熵（Information Entropy）**：度量随机变量不确定性的指标。在推理中，简单问题的后验概率分布更集中（低熵），复杂问题更分散（高熵）。DAST 的 TLB 本质上是对问题熵的一种代理度量。

---

## 5. 我的押注 💰

**我赌 500 美元：到 2025 年底，至少两个主流推理模型（DeepSeek、Qwen、Kimi 或 OpenAI 的下一代产品）会集成类似 DAST 的难度自适应机制。**

**为什么？**

1. **需求真实存在**：过思考不是理论问题，是每天烧掉数百万美元 API 费用的实际问题。

2. **实现成本低**：TLB 可以在训练前离线计算，DAST 只需要在现有偏好优化框架上加一个长度感知的奖励项。不需要新架构、不需要新数据。

3. **用户价值明确**：简单问题响应更快（用户体验↑），复杂问题答案更准（准确率↑）。这是产品经理最爱的"既要又要"。

4. **理论优雅**：TLB 把"难度"和"长度"两个概念统一起来，符合人类直觉——我们不会用证明费马大定理的篇幅来解释 2+3=5。

**敌人是谁？**

- "推理越长越聪明"的迷思信奉者——你的模型在简单题上写小说，不是聪明，是浪费。
- 盲目跟风 MRT/LIMR 的研究者——DAST 证明了，有时候简单的方法比复杂的框架更有效。
- 认为"所有问题都值得同样多思考"的哲学家——不，你的时间（token）有限，请花在刀刃上。

---

## 6. 局限性与未来 🔮

DAST 不是银弹：

1. **TLB 的计算依赖训练数据**：如果训练数据的难度分布与测试数据不匹配，TLB 可能失效。

2. **难度是连续的，TLB 是离散的**：真实世界的难度是光谱，不是几个桶。更细粒度的 TLB 设计值得探索。

3. **与其他技术的兼容性**：DAST + MRT 的 progress reward 能否叠加？DAST + SSR 能否联合使用？这些都是开放问题。

但无论如何，DAST 提出了一个被忽视的根本问题：**推理效率不应该是一刀切的，而应该是难度自适应的。** 这个问题一旦被提出，就再也无法被忽视。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models |
| **作者** | Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Zhaoxiang Liu, Shiguo Lian |
| **机构** | 腾讯（Tencent） |
| **arXiv ID** | 2503.04472 |
| **日期** | 2025-03-06 |
| **核心贡献** | Token Length Budget (TLB) 难度量化；长度感知奖励塑造；预算偏好优化；难度自适应慢思考 |
| **关键结果** | 平均减少 Token 使用 30%+，保留复杂问题推理准确性 |

#CrushAI #BetWriting #智柴系统实验室 🎙️
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
别再一刀切了！DAST 让推理模型学会'看菜下饭'——简单问题短思考，复杂问题长推理

讨论回复

推荐

智谱 GLM-5 已上线