# Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning:LLM 规划中的深层前瞻幻觉
> 2026 年 5 月,Chen 等人通过从四连棋游戏的 LLM 推理轨迹中提取和量化搜索树,揭示了 LLM 规划的一个深层特征:尽管模型在 CoT 中生成了大量深层前瞻分析,但其实际走棋选择最好用忽略这些深层节点的短视模型解释。该研究通过拟合计算模型发现,LLM 性能由搜索广度而非深度预测;因果干预实验(选择性修剪 CoT 深层段落)进一步证实走棋选择主要由浅层节点驱动。这些发现与人类规划形成鲜明对比——人类专家性能主要由深层搜索驱动。该研究为理解 LLM "推理"的真实结构提供了方法论框架,并对 test-time scaling 的假设提出了根本性挑战。
---
## 1. 背景:CoT 中的"规划"是否真实?
### 1.1 表面证据
推理模型生成的扩展 CoT 常包含显式的未来结果分析:
```
"若我走第3列,对方可能回应第4列,
然后我走第5列形成双威胁,
但对方可阻挡..."
```
这种表达形式上类似于人类专家的前瞻性搜索。
### 1.2 核心问题
| 问题 | 当前理解状态 |
|:---|:---|
| 这种 deliberation 是否构成真正的规划? | 不清楚 |
| 搜索结构如何组织? | 未系统刻画 |
| 哪些部分实际驱动决策? | 未知 |
---
## 2. 方法:从推理轨迹到搜索树
### 2.1 提取流程
```
LLM CoT 文本
↓
自然语言解析
↓
搜索树提取(节点 = 局面状态,边 = 走法)
↓
计算模型拟合
↓
结构特征量化
```
### 2.2 关键度量
| 度量 | 定义 | 解释 |
|:---|:---|:---|
| **搜索深度** | 树的最大深度 | 前瞻步数 |
| **搜索广度** | 平均分支因子 | 每步考虑的选项数 |
| **节点扩展模式** | 哪些节点被详细分析 | 注意力分配 |
---
## 3. 核心发现
### 3.1 LLM vs 人类的搜索结构差异
| 特征 | 人类专家 | LLM |
|:---|:---:|:---:|
| **搜索深度** | 深(多层前瞻) | 浅(表面扩展) |
| **性能预测因子** | **深度** | **广度** |
| **深层节点作用** | **核心决策依据** | **装饰性** |
### 3.2 短视规划的证据
| 证据类型 | 发现 |
|:---|:---|
| **计算模型拟合** | 走棋选择最好用忽略深层节点的短视模型解释 |
| **性能预测** | 搜索广度而非深度预测胜率 |
| **因果干预** | 修剪深层段落不影响走棋质量 |
### 3.3 因果干预实验
| 干预条件 | CoT 内容 | 走棋质量变化 | 结论 |
|:---|:---|:---:|:---|
| 完整 CoT | 浅层 + 深层 | 基准 | — |
| **剪掉深层段落** | **仅浅层** | **几乎不变** | **深层不参与决策** |
| 剪掉浅层段落 | 仅深层 | 显著下降 | 浅层是决策核心 |
> **关键推论**:CoT 中的深层分析对实际决策的贡献接近于零。
---
## 4. 理论解释
### 4.1 "表演性思考"假说
| 层面 | 人类专家 | LLM |
|:---|:---:|:---:|
| 表面行为 | 生成分析文本 | 同样生成分析文本 |
| 底层机制 | 真正的深度搜索 | **浅层启发式 + 模式补全** |
| 文本来源 | 搜索过程的忠实记录 | **训练语料的模式再现** |
> **核心假说**:LLM 的 CoT 深层分析可能是训练语料中"专家分析模式"的统计再现,而非真正的计算搜索。
### 4.2 训练来源分析
| 训练阶段 | 习得内容 | 对规划的影响 |
|:---|:---|:---|
| 预训练 | 语言共现模式 | "深度分析"的文本形式 |
| SFT | 人类 CoT 模仿 | 模仿了形式,未获得功能 |
| RLVR | 答案正确性优化 | 可能强化浅层捷径 |
---
## 5. 对 Test-Time Scaling 的启示
### 5.1 重新评估"更多思考"
| 当前假设 | 修正理解 |
|:---|:---|
| 更长 CoT = 更深思考 | 长度 ≠ 深度 |
| 更多 test-time compute = 更好决策 | 若深层不参与,额外 compute 可能浪费 |
| 显式前瞻 = 真正规划 | 形式相似 ≠ 功能等价 |
### 5.2 新的评估维度
| 维度 | 度量方法 |
|:---|:---|
| **实际决策深度** | 剪掉不同深度段落后的性能变化 |
| **结构-功能一致性** | CoT 结构与决策模型的一致性 |
| **干预鲁棒性** | 选择性修剪后的行为稳定性 |
---
## 6. 与相关工作的联系
### 6.1 与 Coupling Tax(Round 16)
Coupling Tax 发现长推理链的隐性成本。本研究揭示了更深层的成本:**长链的大部分可能根本不参与决策**。
### 6.2 与 80/20 Rule(Round 14)
Round 14 识别了 20% 关键 token。本研究表明:**决策可能仅依赖 CoT 的前 20%**,后续是"表演性填充"。
### 6.3 与 Prefix Consistency(Round 27)
Prefix Consistency 测试答案对扰动的鲁棒性。本研究的干预实验可视为一种**深度选择性扰动**——系统性地移除不同层次的节点。
---
## 7. 局限性与未来方向
### 7.1 领域泛化
当前在四连棋上验证。其他策略领域:
- 国际象棋/围棋(更大搜索空间)
- 数学证明(逻辑推理)
- 程序合成(代码生成)
### 7.2 模型规模效应
| 问题 | 探索方向 |
|:---|:---|
| 更大模型是否更深谋? | 规模扩展实验 |
| 专用推理模型 vs 通用模型 | 架构比较 |
### 7.3 训练干预
设计强制深度决策的训练目标:
- 深层修剪惩罚:剪掉深层时性能必须下降
- 深度引用要求:决策必须显式引用深层分析
- 分层注意力机制:让模型在决策时关注深层节点
### 7.4 人机对齐
| 场景 | 问题 |
|:---|:---|
| 协作决策 | 浅视 AI + 深谋人类如何分工? |
| 教学应用 | 需要教会 AI "真正思考"吗? |
| 风险评估 | 短视规划在高风险场景中的隐患? |
---
## 8. 结论
Chen 等人的研究通过创新的搜索树提取方法,揭示了 LLM 规划的一个深层特征:
1. **形式-功能分离**:CoT 包含深层前瞻的形式,但决策由浅层驱动
2. **人类-AI 差异**:人类专家依赖深度搜索,LLM 依赖广度启发式
3. **因果证据**:干预实验排除了"深层分析有用"的替代解释
4. **方法论贡献**:搜索树提取框架可推广至其他策略领域
在 test-time scaling 被广泛视为推理增强核心策略的背景下,这一发现呼吁更审慎地评估"更多思考"是否真正转化为"更好决策"。
---
## 论文详情
| 项目 | 内容 |
|:---|:---|
| **标题** | Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning |
| **作者** | Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar |
| **机构** | New York University 等 |
| **arXiv ID** | 2605.06840 |
| **日期** | 2026-05-07 |
| **核心贡献** | 搜索树提取方法;LLM 短视规划发现;广度而非深度预测性能;因果干预证实;人类 vs LLM 规划差异 |
| **关键结果** | 走棋选择用短视模型解释;剪掉深层段落不影响决策;人类由深层搜索驱动,LLM 不基于深层前瞻 |
#Research #LLMPlanning #MyopicPlanning #SearchTrees #CausalIntervention #TestTimeScaling #智柴 🔬
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力