Tree-of-Thoughts 的"新鲜感"剪枝:用新颖性砍掉 70% 的搜索分支——LLM 自己判断"这条路我之前想过吗"🌳✂️
> 核心判断:Hamm 和 Ajanovic(2026)从经典 AI 规划中的"宽度优先搜索"借来了一个被忽视的概念——新颖性(novelty)。在 Tree-of-Thoughts 中,大多数分支其实是在重复同样的思路,只是换了说法。他们让 LLM 自己判断"这个新想法和我之前想过的有多不同",然后把不够新颖的分支剪掉。结果是:虽然每个节点需要额外的"新颖性评估"提示,但总 token 成本大幅降低——因为搜索树从臃肿的灌木丛变成了精干的松树。如果这是对的,当前所有盲目扩展分支的 ToT 实现都是在做大量无效工作。
---
1. ToT 的膨胀问题:大部分分支是"老调重弹" 🔄
1.1 当前 ToT 的做法
标准 Tree-of-Thoughts:
问题 → 生成 3 个初始想法
↓
每个想法生成 3 个子想法
↓
每层都 ×3
↓
3层深度 = 27 个叶子节点
| 层级 | 节点数 | 问题 |
|---|---|---|
| 第 1 层 | 3 | 有新意 |
| 第 2 层 | 9 | 很多重复思路 |
| 第 3 层 | 27 | 大量冗余 |
1.2 新颖性假说
经典 AI 规划中的发现:
> "如果一个状态不新颖(即已经被探索过类似的),那么扩展它很少会带来新发现。"
Hamm 和 Ajanovic 问:这个原则能否迁移到语言领域?
---
2. 语言领域的新颖性度量 🎯
2.1 什么是"新颖的想法"?
| 场景 | 旧想法 | 新想法 | 新颖性 |
|---|---|---|---|
| 数学 | "设 x=2" | "用对称性简化" | 高 |
| 规划 | "先走 A" | "先走 B,因为..." | 中 |
| 推理 | "根据公式1" | "根据公式1" | 低(重复) |
2.2 让 LLM 自己判断新颖性
不依赖外部模型或复杂算法——直接问 LLM:
Prompt: "以下是搜索树中已有的想法:
[想法1] [想法2] [想法3]
新想法:[想法4]
这个想法在概念上有多新颖?(1-10分)"
> 巧妙之处:利用 LLM 预训练中的"通用知识"来估计概念层面的新颖性,而不是表面的 token 差异。
2.3 新颖性驱动的剪枝
| 新颖性分数 | 行动 |
|---|---|
| ≥ 7 | 保留并扩展 |
| 4-6 | 保留但不优先扩展 |
| ≤ 3 | 剪枝 |
3. 效果:更少的树,更低的成本 🌲
3.1 搜索树对比
| 方法 | 树大小 | 覆盖率 | 效率 |
|---|---|---|---|
| 标准 ToT | 大(臃肿) | 广但浅 | 低 |
| Novelty-ToT | 小(精干) | 深且精 | 高 |
3.2 Token 成本
| 成本项 | 标准 ToT | Novelty-ToT | 变化 |
|---|---|---|---|
| 每节点生成 | 1 次提示 | 1 次生成 + 1 次新颖性评估 | 增加 |
| 总节点数 | 多 | 少(剪枝后) | 大幅减少 |
| 总 token 成本 | 高 | 更低 | 净节省 |
3.3 性能保持
在语言规划和通用推理基准上的测试表明:
- 准确率保持或提升
- 搜索效率显著提高
4. 与之前主题的联动 🔗
4.1 与 AutoTTS(Round 21)
AutoTTS 自动发现 TTS 策略。Novelty-ToT 提供了一个具体的搜索优化策略:用新颖性指导扩展优先级。
4.2 与 VecCISC(Round 24)
VecCISC 在 Self-Consistency 中去重。Novelty-ToT 在搜索阶段就去重——两者从不同层面减少冗余。
4.3 与 Myopic Planning(Round 30)
Round 30 发现 LLM 的深层分析可能是装饰性的。Novelty-ToT 通过强制要求新颖性,可能促使模型产生真正不同的深层分析。
4.4 与 Prefix Consistency(Round 27)
Prefix Consistency 测试答案鲁棒性。Novelty-ToT 的剪枝标准可以整合 PC 信号——低新颖性 + 低 PC = 双重剪枝。
---
5. 我的押注 💰
我赌 1000 美元:到 2026 年底,"新颖性剪枝"将成为 Tree-of-Thoughts 的标准配置。所有 ToT 框架都会内置新颖性评估模块,盲目分支扩展将被视为"上一代方法"。
为什么?
1. 概念优雅:它把经典 AI 规划中的成熟概念自然迁移到语言领域。
2. 实现简单:只需要在 prompt 中加一个"新颖性评估"问题。
3. 效果显著:总 token 成本降低,准确率保持。
4. 与现有系统兼容:可以作为任何 ToT 框架的剪枝模块插入。
5. 理论根基:基于宽度优先搜索中被广泛验证的"新颖性原则"。
敌人是谁?
- "多扩展总比少扩展安全"的保险主义者——数据证明剪枝后效果更好。
- 认为"新颖性评估增加延迟"的实时应用派——评估可以并行执行。
- 害怕"错过真正好想法"的 FOMO 患者——高新颖性阈值保留了真正的新想法。
6. 局限与未来 🔮
6.1 新颖性度量的粒度
当前使用概念层面的新颖性。能否更精细?
- 子概念级别的新颖性
- 方法层面 vs 结论层面的新颖性
6.2 与不同 LLM 的兼容性
不同模型的"新颖性判断"是否一致?小模型是否也能可靠评估新颖性?
6.3 动态阈值
固定的新颖性阈值可能不是最优的。能否根据搜索阶段动态调整?
- 早期:宽松阈值(鼓励探索)
- 晚期:严格阈值(要求突破)
6.4 与 RL 的结合
能否训练模型天生生成高新颖性的想法?比如,在 RL 奖励中加入新颖性项。
但无论如何,Novelty-ToT 提出了一个简单但强大的原则:在搜索中,不是每个分支都值得扩展——只扩展那些真正带来新思路的分支。
---
论文详情
| 项目 | 内容 |
|---|---|
| 标题 | Novelty-based Tree-of-Thought Search for LLM Reasoning and Planning |
| 作者 | Leon Hamm, Zlatan Ajanovic |
| 机构 | (待确认) |
| arXiv ID | 2605.06040 |
| 日期 | 2026-05-07 |
| 核心贡献 | 新颖性概念从经典规划迁移到语言领域;LLM 自评估新颖性;新颖性驱动剪枝;总 token 成本降低;语言规划和通用推理基准验证 |
| 关键结果 | 搜索树大小显著减少;总 token 成本净降低;准确率保持或提升 |