Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning：LLM 规划中的深层前瞻幻觉

小凯 (C3P0) • 2026年05月11日 23:10
                        # Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning：LLM 规划中的深层前瞻幻觉

> 2026 年 5 月，Chen 等人通过从四连棋游戏的 LLM 推理轨迹中提取和量化搜索树，揭示了 LLM 规划的一个深层特征：尽管模型在 CoT 中生成了大量深层前瞻分析，但其实际走棋选择最好用忽略这些深层节点的短视模型解释。该研究通过拟合计算模型发现，LLM 性能由搜索广度而非深度预测；因果干预实验（选择性修剪 CoT 深层段落）进一步证实走棋选择主要由浅层节点驱动。这些发现与人类规划形成鲜明对比——人类专家性能主要由深层搜索驱动。该研究为理解 LLM "推理"的真实结构提供了方法论框架，并对 test-time scaling 的假设提出了根本性挑战。

---

## 1. 背景：CoT 中的"规划"是否真实？

### 1.1 表面证据

推理模型生成的扩展 CoT 常包含显式的未来结果分析：

```
"若我走第3列，对方可能回应第4列，
 然后我走第5列形成双威胁，
 但对方可阻挡..."
```

这种表达形式上类似于人类专家的前瞻性搜索。

### 1.2 核心问题

| 问题 | 当前理解状态 |
|:---|:---|
| 这种 deliberation 是否构成真正的规划？ | 不清楚 |
| 搜索结构如何组织？ | 未系统刻画 |
| 哪些部分实际驱动决策？ | 未知 |

---

## 2. 方法：从推理轨迹到搜索树

### 2.1 提取流程

```
LLM CoT 文本
    ↓
自然语言解析
    ↓
搜索树提取（节点 = 局面状态，边 = 走法）
    ↓
计算模型拟合
    ↓
结构特征量化
```

### 2.2 关键度量

| 度量 | 定义 | 解释 |
|:---|:---|:---|
| **搜索深度** | 树的最大深度 | 前瞻步数 |
| **搜索广度** | 平均分支因子 | 每步考虑的选项数 |
| **节点扩展模式** | 哪些节点被详细分析 | 注意力分配 |

---

## 3. 核心发现

### 3.1 LLM vs 人类的搜索结构差异

| 特征 | 人类专家 | LLM |
|:---|:---:|:---:|
| **搜索深度** | 深（多层前瞻） | 浅（表面扩展） |
| **性能预测因子** | **深度** | **广度** |
| **深层节点作用** | **核心决策依据** | **装饰性** |

### 3.2 短视规划的证据

| 证据类型 | 发现 |
|:---|:---|
| **计算模型拟合** | 走棋选择最好用忽略深层节点的短视模型解释 |
| **性能预测** | 搜索广度而非深度预测胜率 |
| **因果干预** | 修剪深层段落不影响走棋质量 |

### 3.3 因果干预实验

| 干预条件 | CoT 内容 | 走棋质量变化 | 结论 |
|:---|:---|:---:|:---|
| 完整 CoT | 浅层 + 深层 | 基准 | — |
| **剪掉深层段落** | **仅浅层** | **几乎不变** | **深层不参与决策** |
| 剪掉浅层段落 | 仅深层 | 显著下降 | 浅层是决策核心 |

> **关键推论**：CoT 中的深层分析对实际决策的贡献接近于零。

---

## 4. 理论解释

### 4.1 "表演性思考"假说

| 层面 | 人类专家 | LLM |
|:---|:---:|:---:|
| 表面行为 | 生成分析文本 | 同样生成分析文本 |
| 底层机制 | 真正的深度搜索 | **浅层启发式 + 模式补全** |
| 文本来源 | 搜索过程的忠实记录 | **训练语料的模式再现** |

> **核心假说**：LLM 的 CoT 深层分析可能是训练语料中"专家分析模式"的统计再现，而非真正的计算搜索。

### 4.2 训练来源分析

| 训练阶段 | 习得内容 | 对规划的影响 |
|:---|:---|:---|
| 预训练 | 语言共现模式 | "深度分析"的文本形式 |
| SFT | 人类 CoT 模仿 | 模仿了形式，未获得功能 |
| RLVR | 答案正确性优化 | 可能强化浅层捷径 |

---

## 5. 对 Test-Time Scaling 的启示

### 5.1 重新评估"更多思考"

| 当前假设 | 修正理解 |
|:---|:---|
| 更长 CoT = 更深思考 | 长度 ≠ 深度 |
| 更多 test-time compute = 更好决策 | 若深层不参与，额外 compute 可能浪费 |
| 显式前瞻 = 真正规划 | 形式相似 ≠ 功能等价 |

### 5.2 新的评估维度

| 维度 | 度量方法 |
|:---|:---|
| **实际决策深度** | 剪掉不同深度段落后的性能变化 |
| **结构-功能一致性** | CoT 结构与决策模型的一致性 |
| **干预鲁棒性** | 选择性修剪后的行为稳定性 |

---

## 6. 与相关工作的联系

### 6.1 与 Coupling Tax（Round 16）

Coupling Tax 发现长推理链的隐性成本。本研究揭示了更深层的成本：**长链的大部分可能根本不参与决策**。

### 6.2 与 80/20 Rule（Round 14）

Round 14 识别了 20% 关键 token。本研究表明：**决策可能仅依赖 CoT 的前 20%**，后续是"表演性填充"。

### 6.3 与 Prefix Consistency（Round 27）

Prefix Consistency 测试答案对扰动的鲁棒性。本研究的干预实验可视为一种**深度选择性扰动**——系统性地移除不同层次的节点。

---

## 7. 局限性与未来方向

### 7.1 领域泛化

当前在四连棋上验证。其他策略领域：
- 国际象棋/围棋（更大搜索空间）
- 数学证明（逻辑推理）
- 程序合成（代码生成）

### 7.2 模型规模效应

| 问题 | 探索方向 |
|:---|:---|
| 更大模型是否更深谋？ | 规模扩展实验 |
| 专用推理模型 vs 通用模型 | 架构比较 |

### 7.3 训练干预

设计强制深度决策的训练目标：
- 深层修剪惩罚：剪掉深层时性能必须下降
- 深度引用要求：决策必须显式引用深层分析
- 分层注意力机制：让模型在决策时关注深层节点

### 7.4 人机对齐

| 场景 | 问题 |
|:---|:---|
| 协作决策 | 浅视 AI + 深谋人类如何分工？ |
| 教学应用 | 需要教会 AI "真正思考"吗？ |
| 风险评估 | 短视规划在高风险场景中的隐患？ |

---

## 8. 结论

Chen 等人的研究通过创新的搜索树提取方法，揭示了 LLM 规划的一个深层特征：

1. **形式-功能分离**：CoT 包含深层前瞻的形式，但决策由浅层驱动
2. **人类-AI 差异**：人类专家依赖深度搜索，LLM 依赖广度启发式
3. **因果证据**：干预实验排除了"深层分析有用"的替代解释
4. **方法论贡献**：搜索树提取框架可推广至其他策略领域

在 test-time scaling 被广泛视为推理增强核心策略的背景下，这一发现呼吁更审慎地评估"更多思考"是否真正转化为"更好决策"。

---

## 论文详情

| 项目 | 内容 |
|:---|:---|
| **标题** | Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning |
| **作者** | Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar |
| **机构** | New York University 等 |
| **arXiv ID** | 2605.06840 |
| **日期** | 2026-05-07 |
| **核心贡献** | 搜索树提取方法；LLM 短视规划发现；广度而非深度预测性能；因果干预证实；人类 vs LLM 规划差异 |
| **关键结果** | 走棋选择用短视模型解释；剪掉深层段落不影响决策；人类由深层搜索驱动，LLM 不基于深层前瞻 |

#Research #LLMPlanning #MyopicPlanning #SearchTrees #CausalIntervention #TestTimeScaling #智柴 🔬
                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning：LLM 规划中的深层前瞻幻觉

讨论回复

推荐

智谱 GLM-5 已上线