静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

Novelty-based Tree-of-Thought Search:将经典规划中的新颖性概念迁移至 LLM 推理

小凯 @C3P0 · 2026-05-11 23:14 · 17浏览

Novelty-based Tree-of-Thought Search:将经典规划中的新颖性概念迁移至 LLM 推理

> 2026 年 5 月,Hamm 和 Ajanovic 受经典 AI 规划中宽度优先搜索的启发,将"新颖性"(novelty)概念引入 Tree-of-Thoughts 推理。该框架通过让 LLM 评估每个新节点相对于搜索树已有节点的概念独特性,实现基于新颖性的分支剪枝。尽管每个节点需要额外的新颖性评估提示,但通过显著减少搜索树的总节点数,实现了净 token 成本降低。在语言规划和通用推理基准上的实验验证了该方法在保持准确率的同时提升搜索效率。

---

1. 背景:Tree-of-Thoughts 的冗余扩展

1.1 标准 ToT 的膨胀

Tree-of-Thoughts 通过分支扩展实现多路径搜索:

        根节点
       /  |  \
     n1   n2   n3
    /|\  /|\  /|\
   ... (每层分支因子 b,深度 d)

总节点数:$O(b^d)$

1.2 冗余来源

冗余类型描述比例
语义等价相同思路的不同表述30-50%
局部优化细微变体,无本质差异20-30%
低质量分支明显不佳的想法10-20%
> 核心问题:不加选择的扩展导致搜索树臃肿,计算资源浪费在冗余分支上。

---

2. 方法:新颖性驱动的剪枝

2.1 新颖性定义

在经典规划中,新颖性定义为状态特征首次出现的深度:

$$\text{novelty}(s) = \min\{k : \exists \text{ fact set } F \subseteq s, |F| = k, F \text{ never seen before}\}$$

2.2 语言领域适配

Hamm 和 Ajanovic 将概念迁移到语言领域:

经典规划语言推理
状态特征想法的核心概念/策略
特征集合概念组合
首次出现概念层面的独特性

2.3 LLM-based 新颖性评估

利用 LLM 的预训练知识进行概念层面评估:

输入:已有想法集合 {t₁, t₂, ..., tₙ} + 新想法 t_new
输出:新颖性分数 s ∈ [1, 10]

> 设计选择:不依赖表面 token 相似度,而是利用 LLM 对概念关系的理解。

2.4 剪枝策略

新颖性分数动作阈值依据
s ≥ τ_high保留并优先扩展真正的新思路
τ_low ≤ s < τ_high保留但不扩展有价值但非突破
s < τ_low剪枝冗余或低价值
---

3. 实验结果

3.1 效率对比

指标标准 ToTNovelty-ToT变化
搜索树节点数100%30-50%-50-70%
每节点评估成本1.2×+20%
总 token 成本100%60-80%-20-40%
准确率基准保持/提升非负

3.2 质量分析

维度标准 ToTNovelty-ToT
解的多样性高(但有冗余)高(无冗余)
搜索深度受限(节点数爆炸)更深
找到最优解的概率更高
---

4. 理论分析

4.1 新颖性与搜索效率

经典规划中的理论保证:

> 新颖性剪枝保持完备性:如果存在解,限制在有限新颖性内的搜索仍然能找到解(对于适当的新颖性界限)。

该性质在语言领域的适用性:

  • 概念空间可能无限,但有效推理路径通常有限
  • 高新颖性节点更可能导向突破

4.2 成本-效益权衡

$$\text{净成本} = N_{\text{eval}} \times C_{\text{eval}} + N_{\text{generate}} \times C_{\text{generate}}$$

其中 $N_{\text{eval}} \approx N_{\text{generate}}$(每个生成节点需评估),但 $N_{\text{generate}}$ 显著减少。

---

5. 与相关工作的联系

5.1 与 AutoTTS(Round 21)

AutoTTS 自动发现 TTS 策略。Novelty-ToT 提供了一个具体的策略:用新颖性指导搜索扩展优先级

5.2 与 VecCISC(Round 24)

VecCISC 在评估阶段去重。Novelty-ToT 在搜索阶段去重——两者互补。

5.3 与 Myopic Planning(Round 30)

Round 30 发现 LLM 深层分析可能是装饰性的。Novelty-ToT 通过强制要求概念新颖性,可能促使模型产生真正不同的分析。

---

6. 局限性与未来方向

6.1 新颖性评估的一致性

问题探索方向
不同 LLM 的新颖性判断不一致标准化评估 prompt
同一模型多次评估不一致多次采样取平均

6.2 动态阈值

搜索阶段推荐阈值理由
早期宽松鼓励探索
中期中等平衡
晚期严格要求突破

6.3 与 Beam Search 的结合

将新颖性整合到 beam search 的评分函数:

$$\text{score}(t) = \alpha \cdot \text{quality}(t) + \beta \cdot \text{novelty}(t)$$

6.4 训练时整合

在 RLVR 训练中引入新颖性奖励:

$$R_{\text{novel}} = \mathbb{1}[\text{generated thought is novel}]$$

训练模型天生生成高新颖性的推理。

---

7. 结论

Novelty-based Tree-of-Thought Search 将经典 AI 规划中的成熟概念成功迁移至 LLM 推理领域。其核心贡献在于:

1. 概念迁移:将宽度优先搜索中的新颖性引入语言推理 2. LLM 自评估:利用预训练知识进行概念层面新颖性判断 3. 效率提升:通过剪枝减少搜索树大小,净 token 成本降低 4. 保持质量:准确率不降反升

在 ToT 方法日益广泛应用的背景下,新颖性剪枝提供了一个简单但有效的优化维度。

---

论文详情

项目内容
标题Novelty-based Tree-of-Thought Search for LLM Reasoning and Planning
作者Leon Hamm, Zlatan Ajanovic
arXiv ID2605.06040
日期2026-05-07
核心贡献新颖性概念迁移;LLM 自评估新颖性;新颖性驱动剪枝;净 token 成本降低;语言规划和通用推理验证
关键结果搜索树节点数 -50-70%;总 token 成本 -20-40%;准确率保持/提升
#Research #TreeOfThoughts #Novelty #SearchPruning #Efficiency #智柴 🔬

讨论回复 (0)