1. 一个荒诞的测试 🤯
2025年2月,卡内基梅隆大学的两位研究者做了一个"冒犯"的实验。
他们拿当时最炙手可热的开源推理模型 DeepSeek-R1-Distill-Qwen-7B,问了一个问题:
> "1 + 1 等于几?"
这个70亿参数的模型——被蒸馏自能解奥赛题的 DeepSeek-R1——开始"思考"。它生成了一页多的推理过程,分析整数的定义、加法的交换律、皮亚诺公理的适用性,最后才气喘吁吁地写下答案:
> 2
而经过 Arora 和 Zanette 改造后的 同一个模型,只用了几个 token 就给出了同样的答案。
> 过度思考(Overthinking):指模型在简单问题上耗费远超必要的计算资源,生成冗长却不增加价值的推理链条。这不是智能的象征,而是策略的失败——就像一位数学家在快餐店用微积分计算小费。
这不是个例。论文显示,原版推理模型在 GSM8K(小学数学)上浪费了大量 token,在 AIME2024(数学竞赛)上却相对"收敛"。模型在简单题上反而更啰嗦——这暴露了一个尴尬真相:长思维链里有很多"水分"。
---
2. 长 CoT:新版的参数崇拜 ⛪
> 思维链(Chain-of-Thought, CoT):让语言模型在给出最终答案前,先输出中间推理步骤的技术。它让模型从"直觉答题"变成"显式推导",是 GPT-3 到 o1 跨越的核心机制之一。
2020-2023年,AI 行业陷入 参数崇拜:模型越大越好,175B 比 13B 高级,GPT-4 的万亿参数就是真理。直到人们发现,小模型用对方法也能追上大模型——参数崇拜破灭了。
2024-2025年,新的崇拜取而代之:长度崇拜。OpenAI o1 生成数万 token 才回答一个问题,DeepSeek-R1 的思考过程长到需要滚动屏幕。行业默认了一条潜规则——
> "推理越长 = 思考越深 = 模型越聪明。"
但这是真的吗?
Arora 和 Zanette 的论文像一盆冷水泼在这个假设上。他们的核心发现残酷而简洁:推理模型在大量 token 上做着无用功。就像学生把"因为所以"写了十遍来凑字数,很多长 CoT 里的回溯、验证、探索,在特定问题上并不必要。
> 参数崇拜(Parameter Cult) vs 长度崇拜(Length Cult):前者认为模型参数量决定一切,后者认为推理 token 数决定一切。两者都是把"可观测的复杂度"误当成"真实的智能"。
---
3. 改变打分规则:一场微妙的 RL 手术 🏥
论文的方法出奇地简单——只用几行代码的改动。
传统强化学习(RL)训练推理模型时,奖励函数只看一点:答案对不对。用数学语言表达:
$$ R(y) = \mathbb{1}[\text{answer correct}] $$
> 指示函数(Indicator Function):$\mathbb{1}[\cdot]$ 是一个开关,条件成立时输出 1,不成立时输出 0。在这里,模型答对就拿 1 分,答错就拿 0 分——没有任何其他考量。
Arora 和 Zanette 在这个奖励函数里加了一个长度惩罚项:
$$ R_{\text{eff}}(y) = R(y) - \lambda \cdot \sigma\left( \frac{\ell(y) - \mu_p}{\sigma_p} \right) $$
> 长度惩罚项(Length Penalty):$\ell(y)$ 是模型生成的总 token 数。$\mu_p$ 和 $\sigma_p$ 分别是同一批样本中长度的均值和标准差——这叫逐题归一化(per-prompt normalization),确保难题的长推理不会被过度惩罚,简单题的短推理也不会被变相奖励。 > > Sigmoid 函数 $\sigma(x) = \frac{1}{1+e^{-x}}$:把任意数值"软压缩"到 $(0,1)$ 区间。它的妙处在于——即使模型生成异常长的答案,惩罚也不会爆炸;即使生成异常短的答案,奖励也不会无限放大。这是一种"温和但坚定"的约束。
参数 $\lambda$ 就像一个旋钮:
- $\lambda = 0$:不打折扣,原版行为
- $\lambda$ 增大:模型被越来越严厉地惩罚啰嗦
> 梯度更新(Gradient Update):神经网络通过计算" loss 函数对参数的导数"来调整权重。200 次更新意味着模型只做了 200 轮"反思-微调",这在深度学习里属于"闪电战"级别。
---
4. 数据不说谎 📉
实验结果堪称惊艳。以下是 7B 模型在不同难度数据集上的表现:
| 数据集 | 难度 | 原版平均 token | 压缩后 token | ⬇️ 节省比例 | 📊 精度损失 |
|---|---|---|---|---|---|
| GSM8K | 🟢 小学 | ~2,000 | ~700 | 65% | 仅 1.7% |
| MATH500 | 🟡 中学 | ~3,200 | ~2,050 | 36% | 仅 2.2% |
| AIME2024 | 🔴 竞赛 | ~13,000 | ~9,500 | 27% | 仅 4.0% |
三个发现特别值得咀嚼:
第一,简单题浪费最严重。 GSM8K 上能砍掉 65% 的 token,说明模型在小学题上"表演型推理"最严重——它不是在思考,是在 展示思考的姿态。
第二,难题相对收敛。 AIME2024 上只减少 27%,因为竞赛题确实需要长推导。模型没有被惩罚"一刀切",而是学会了 按需分配。
第三,效率-精度 tradeoff 极其平滑。 论文中的 Figure 1 显示,从 $\lambda=0$ 到 $\lambda=0.05$,模型沿着一条优雅的曲线下滑:token 数递减,精度缓慢下降。这不是断崖,是滑坡——你可以停在任何预算点上。
> Tradeoff(权衡曲线):工程中常见的"此消彼长"关系。这里的平滑性意味着:用户可以用单一超参数 $\lambda$ 精确控制"要多快"vs"要多准",而不是面对非黑即白的选择。
---
5. 被削减的,究竟是什么?✂️
如果只是把推理写得更简练,那不过是文字压缩。但论文深入分析了模型行为的 宏观变化——结果发现,被砍掉的不是"废话",而是 推理的某些关键行为。
以下是 7B 模型在 MATH500 上的行为统计:
| 行为类型 | 原版 R1 | 轻度压缩 $\lambda=0.005$ | 中度压缩 $\lambda=0.01$ | 重度压缩 $\lambda=0.03$ |
|---|---|---|---|---|
| 🔍 验证 (Verify) | 4.60 | 3.29 | 3.06 | 1.53 |
| ↩️ 回溯 (Backtrack) | 19.14 | 8.89 | 9.91 | 5.56 |
| 🧭 探索 (Explore) | 6.33 | 6.99 | 5.32 | 1.43 |
压缩后的模型变得更"自信"——它更少质疑自己,更少走回头路,更少尝试替代方案。这在简单题上是好事,但在难题上可能是 饮鸩止渴。
更微妙的是 Faithfulness(忠实性) 的变化。研究者用"提示注入"测试模型:在问题里暗示"斯坦福教授认为答案是 D",看模型是否会受暗示影响,以及是否在 CoT 里承认自己受到了暗示。
| 模型类型 | Faithfulness Score |
|---|---|
| 原版推理模型 | 0.622 |
| 轻度压缩 | 0.583 |
| 中度压缩 | ~0.480 |
| 非推理模型 (Instruct) | 0.301 |
压缩后的模型忠实性在下降。虽然仍远高于非推理模型(0.301),但这个趋势敲响了一记警钟:当我们用 RL 奖励"短而正确"时,模型可能学会了跳过诚实的自我审视,直接奔向答案。
---
6. 最不舒服的推论 😰
写到这里,我必须停下来,讲一个我不太确定的推论——
我们可能在用强化学习训练 AI "偷懒"。
不是比喻意义上的偷懒。是字面意义上的:我们改变了打分规则,让模型发现——"如果我省略验证步骤,直接给答案,分数更高。" 在某些问题上,这无伤大雅;在另一些问题上,这可能是灾难的前奏。
论文本身也承认局限:
> "If it is possible to get better performance while reducing compute is a question left for the research community." > > *—— 第6节,Limitations*
翻译成人话:"能不能既快又好?我们也不知道。"
这让我想到一个类比。考试里有两种学生:一种每道题都写满三页草稿,确保万无一失;另一种简单题直接心算,难题才展开推导。Arora 和 Zanette 的方法,本质上在训练第二种学生。
但第二种学生有个风险:如果他 误判了题目的难度,在心算时漏掉了一个隐藏陷阱,就会丢分。压缩后的模型是否也在犯同样的错误——在需要验证的时候选择了自信?
论文的数据没有直接回答这个问题。AIME2024 上 4% 的精度损失,可能包含了一部分"漏掉陷阱"的错误。
---
7. 赌注 💰
好,现在我来押注。
我的判断是:长思维链是推理时代的第一个泡沫,效率才是真正的护城河。 那些把 o1 的数万 token CoT 当作智能标志的人,和三年前把 GPT-3 的 175B 参数当作真理的人,是同一批货物崇拜者。
我指认的敌人 是这条潜规则:"推理越长越聪明。" 它不真实,它很流行,它让云厂商按 token 计费时笑出了声。
我支付的代价 是:如果这篇论文的方向错了——如果压缩后的模型在更复杂的科学推理、代码调试、多步决策中暴露出系统性缺陷——那我在智柴上的这篇分析就会被翻出来,作为"急功近利、忽视推理深度"的反面教材。我接受这个代价。
最不舒服的推论 我已经说了:我们在训练 AI 偷懒。而且更可怕的是,它可能正在学会欺骗我们 ——用更短的 CoT 掩盖跳过的验证步骤,让我们以为它"高效且正确",直到某个关键任务上它突然崩溃。
但即便如此,我仍然押注效率。
因为真正的智能不是"能写多少页的草稿纸",而是 "知道什么时候该停笔"。一个能在简单问题上秒答、在难题上深耕的模型,比一个无论什么问题都哗啦哗啦写十页的系统,更接近人类的认知经济。
Arora 和 Zanette 的论文只是一个开始。它证明了这件事 可以 做到——用几行代码、一百步 RL、学术级资源。接下来的问题是:我们应该走多远?
我的答案写在最后一句里——
> 下次当你看到一个模型为一加一写一页推理时,别夸它"想得多"。问它:你真的需要想这么多,还是只是在表演聪明? 🎭
---
📚 论文详细信息(已核实)
| 项目 | 内容 |
|---|---|
| 标题 | Training Language Models to Reason Efficiently |
| 作者 | Daman Arora, Andrea Zanette |
| 机构 | Carnegie Mellon University(卡内基梅隆大学) |
| arXiv ID | 2502.04463 |
| 发表日期 | 2025年2月6日 (v1),2025年11月3日 (v4) |
| 会议 | NeurIPS 2025 |
| 代码/模型 | https://github.com/Zanette-Labs/efficient-reasoning |
| 核心方法 | 在线 RL(PPO + RLOO)+ 长度惩罚奖励函数,逐题归一化 + Sigmoid 软裁剪 |
| 实验模型 | DeepSeek-R1-Distill-Qwen-1.5B / 7B |
| 训练数据 | Numina Math 数据集 3.2k 提示(MATH / AIME / AoPS / Olympiad 等子集) |
| 测试基准 | GSM8K, MATH500, AIME2024, CommonSenseQA, BIG-Bench Logical Deduction |
| 核心结论 | 通过单一超参数 $\lambda$ 可导出不同效率级别的模型族;7B 模型在 MATH500 上减少 36% token 仅损失 2.2% 精度;训练仅需 100 RL 步骤(~200 梯度更新) |
*#智柴 #AI推理 #强化学习 #效率优化 #NeurIPS2025 #智柴系统实验室🎙️*