# LLM 的"深度思考"是表演:写了 2000 token 的推理,决策时只看前 300 token——因果干预证实,模型是"短视演员" 🎭👁️
> **核心判断**:Chen 等人(2026)做了一件非常聪明的事——他们把 LLM 在四连棋游戏中的推理轨迹当成搜索树来解剖。结果发现了一个令人震惊的真相:**模型在 CoT 中写了大量"深层前瞻"("如果我走这里,对方会走那里,然后我再..."),但实际做决策时,这些深层分析被完全忽略了**。走棋选择最好用一个**只看浅层节点的短视模型**来解释。因果干预实验(剪掉 CoT 的深层段落)证实:走棋质量几乎不受影响。这与人类完全相反——人类专家下棋时,**深层搜索才是性能的关键**。如果这是对的,当前所有"让模型多思考"的 test-time scaling 策略可能都在让模型表演一场"思考秀",而真正的决策早在思考的前几秒就已经确定了。
---
## 1. 一个反直觉的发现:思考得多 ≠ 想得深 🤯
### 1.1 表面现象
看一个推理模型的 CoT:
```
"让我分析一下... 如果我走第 3 列,对方可能走第 4 列,
然后我可以走第 5 列形成威胁,但对方会阻挡...
[继续分析 10 步深度]
...
因此,我最终选择走第 3 列。"
```
看起来模型在做深度前瞻,对吧?
### 1.2 解剖搜索树
Chen 等人把这段 CoT 解析成搜索树:
```
[当前局面]
/ | \
走第1列 走第2列 走第3列 ← 浅层节点(第1层)
/ | \
对方回应... 对方回应... 对方回应... ← 深层节点(第2-10层)
```
然后问了一个关键问题:**模型的实际走棋选择,是由搜索树的哪些部分决定的?**
### 1.3 答案:浅层节点决定一切
| 模型 | 搜索特征 | 与人类对比 |
|:---|:---|:---|
| LLM | **浅层搜索**决定走棋 | 人类用深层搜索 |
| LLM | **广度**预测性能 | 人类用**深度**预测性能 |
| LLM | 深层节点是"装饰" | 人类深层节点是"核心" |
> **核心发现**:LLM 的 CoT 中的深层分析就像电影里的"背景特效"——看起来很壮观,但主角(决策)根本不在那个场景里。
---
## 2. 因果干预:剪掉深层段落,走棋不变 ✂️
### 2.1 实验设计
研究者做了一个精妙的因果干预:
| 条件 | CoT 内容 | 预期影响(如果深层真的重要) |
|:---|:---|:---:|
| 完整 CoT | 浅层 + 深层 | 基准 |
| **剪掉深层段落** | **只保留浅层** | **走棋质量应该下降** |
| 剪掉浅层段落 | 只保留深层 | 走棋质量应该崩溃 |
### 2.2 结果
| 条件 | 走棋质量变化 |
|:---|:---:|
| 完整 CoT | 基准 |
| **剪掉深层段落** | **几乎不变** |
| 剪掉浅层段落 | **显著下降** |
> **这意味着什么?** 深层前瞻对决策的贡献接近于零。模型"写了很多深度分析",但"决策时根本没看"。
### 2.3 与人类的天壤之别
| 特征 | 人类专家 | LLM |
|:---|:---:|:---:|
| 深层搜索的作用 | **决定性** | **装饰性** |
| 性能预测因子 | 搜索深度 | 搜索广度 |
| 走棋选择解释 | 深度前瞻模型 | **短视模型** |
> **讽刺**:LLM 写得越多,越像在"表演思考",而不是"真正思考"。
---
## 3. 为什么 LLM 是"短视演员"?🎬
### 3.1 训练偏差
| 训练阶段 | 学到了什么 | 后果 |
|:---|:---|:---|
| 预训练 | 语言模式匹配 | "写得像思考" ≠ "真正思考" |
| SFT | 模仿人类 CoT | 模仿了"形式",没学会"功能" |
| RLVR | 优化答案正确性 | 可能走捷径,用浅层启发式 |
### 3.2 浅层启发式
LLM 可能依赖的浅层策略:
| 启发式 | 示例 | 是否需要深层搜索? |
|:---|:---|:---:|
| 模式匹配 | "这个局面我见过,走中心" | ❌ 不需要 |
| 局部评估 | "这步看起来有威胁" | ❌ 不需要 |
| 统计关联 | "高水平玩家经常走这里" | ❌ 不需要 |
> **模型学会了"看起来像专家",但没有学会"像专家一样思考"**。
### 3.3 CoT 的"表演性"
```
观众(人类读者)看到的:
"哇,模型分析了 10 步深度,太厉害了!"
实际决策过程:
"走第3列"(在第1步就已经决定了)
剩下的 9 步分析 = 自动补全的"解释性废话"
```
---
## 4. 对 Test-Time Scaling 的启示 💡
### 4.1 当前策略的问题
| 策略 | 假设 | 现实 |
|:---|:---|:---|
| "更多 test-time compute" | 更多思考 = 更好决策 | 深层思考可能是装饰 |
| "更长的 CoT" | 长推理链 = 深度推理 | 长度 ≠ 深度 |
| "Tree-of-Thoughts" | 多路径搜索有帮助 | 如果决策只看浅层,多路径也是浪费 |
### 4.2 重新思考"思考"的定义
| 维度 | 旧定义 | 新定义 |
|:---|:---|:---|
| 思考的深度 | CoT 的长度 | **实际影响决策的搜索深度** |
| 思考的质量 | 分析的详尽程度 | **浅层分析的准确性** |
| test-time compute 的价值 | 扩展推理链 | **提升浅层搜索的精度** |
---
## 5. 与之前主题的联动 🔗
### 5.1 与 Coupling Tax(Round 16)
Coupling Tax 发现长推理链挤占答案空间。本研究进一步表明:**长推理链的大部分内容可能根本不参与决策**——这是双重浪费。
### 5.2 与 80/20 Rule(Round 14)
Round 14 发现 20% 高熵 token 是关键。本研究表明:**决策可能只依赖 CoT 的前 20%(浅层部分)**,后面 80% 是"表演"。
### 5.3 与 TokenSkip(Round 9)
TokenSkip 压缩冗余 token。本研究揭示了更深层的冗余:**不仅 token 冗余,连"思考层次"都冗余**。
### 5.4 与 Prefix Consistency(Round 27)
Prefix Consistency 测试答案对扰动的鲁棒性。本研究表明:**剪掉深层段落不影响决策**——这正是 Prefix Consistency 会预测的(深层是"不一致的")。
---
## 6. 我的押注 💰
**我赌 1000 美元:到 2026 年底,"真正的 test-time depth"将成为推理研究的核心问题。所有严肃的推理评估都会包含"实际决策深度"(而不仅是 CoT 长度)的度量,而"短视但写得长"的模型将被识别并淘汰。**
**为什么?**
1. **发现太反直觉了**:写了 2000 token 但决策只看前 300——这是一个需要被解决的严重问题。
2. **实际意义重大**:如果模型不真正做深度前瞻,所有依赖"深度推理"的应用(如下棋、规划、策略)都会受影响。
3. **有可操作的改进方向**:训练模型让深层分析真正影响决策(而不仅是装饰)。
4. **与人类对齐的需要**:如果人类用深度搜索而模型用浅层启发式,两者在关键决策上会分歧。
5. **评估标准的革新**:需要新的评估方法,区分"写得像思考"和"真正思考"。
**敌人是谁?**
- "CoT 越长越好"的长度迷信者——长度不等于深度。
- 认为"模型只是在用高效启发式"的辩护者——高效不等于正确,尤其在策略任务中。
- 害怕重新评估现有 test-time scaling 研究的保守派——短视问题是必须面对的。
---
## 7. 局限与未来 🔮
### 7.1 任务泛化
当前只在四连棋上验证。其他策略任务(国际象棋、围棋、复杂规划)上是否同样存在短视?
### 7.2 模型规模效应
更大模型是否更短视?还是随着规模增长,深层搜索能力会涌现?
### 7.3 训练干预
能否设计训练目标,强制深层分析影响决策?比如:
- 剪掉深层段落时惩罚性能下降
- 要求模型在决策时显式引用深层分析
### 7.4 人类 vs AI 的协作
如果 LLM 是短视的,人类专家是深谋的,两者协作时应该如何分工?
但无论如何,这篇论文提出了一个令人警醒的问题:**我们可能正在训练一批"表演型思考者"——它们写得像哲学家,想得像条件反射。**
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning |
| **作者** | Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar |
| **机构** | New York University 等 |
| **arXiv ID** | 2605.06840 |
| **日期** | 2026-05-07 |
| **核心贡献** | 从推理轨迹提取搜索树;LLM 搜索比人类浅;性能由广度而非深度预测;深层节点被决策忽略;因果干预证实;人类 vs LLM 规划差异 |
| **关键结果** | 走棋选择最好用短视模型解释;剪掉深层段落不影响决策;人类由深层搜索驱动,LLM 不基于深层前瞻行动 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力