Tree-of-Thoughts 的"新鲜感"剪枝：用新颖性砍掉 70% 的搜索分支——LLM 自己判断"这条路我之前想过吗"🌳✂️

> 核心判断：Hamm 和 Ajanovic（2026）从经典 AI 规划中的"宽度优先搜索"借来了一个被忽视的概念——新颖性（novelty）。在 Tree-of-Thoughts 中，大多数分支其实是在重复同样的思路，只是换了说法。他们让 LLM 自己判断"这个新想法和我之前想过的有多不同"，然后把不够新颖的分支剪掉。结果是：虽然每个节点需要额外的"新颖性评估"提示，但总 token 成本大幅降低——因为搜索树从臃肿的灌木丛变成了精干的松树。如果这是对的，当前所有盲目扩展分支的 ToT 实现都是在做大量无效工作。

---

1. ToT 的膨胀问题：大部分分支是"老调重弹" 🔄

1.1 当前 ToT 的做法

标准 Tree-of-Thoughts：

问题 → 生成 3 个初始想法
            ↓
    每个想法生成 3 个子想法
            ↓
        每层都 ×3
            ↓
    3层深度 = 27 个叶子节点

层级	节点数	问题
第 1 层	3	有新意
第 2 层	9	很多重复思路
第 3 层	27	大量冗余

> 核心痛点：ToT 不加选择地扩展所有分支，但很多分支在本质上是"相同的思路，不同的措辞"。

1.2 新颖性假说

经典 AI 规划中的发现：

> "如果一个状态不新颖（即已经被探索过类似的），那么扩展它很少会带来新发现。"

Hamm 和 Ajanovic 问：这个原则能否迁移到语言领域？

---

2. 语言领域的新颖性度量 🎯

2.1 什么是"新颖的想法"？

场景	旧想法	新想法	新颖性
数学	"设 x=2"	"用对称性简化"	高
规划	"先走 A"	"先走 B，因为..."	中
推理	"根据公式1"	"根据公式1"	低（重复）

2.2 让 LLM 自己判断新颖性

不依赖外部模型或复杂算法——直接问 LLM：

Prompt: "以下是搜索树中已有的想法：
         [想法1] [想法2] [想法3]
         新想法：[想法4]
         这个想法在概念上有多新颖？（1-10分）"

> 巧妙之处：利用 LLM 预训练中的"通用知识"来估计概念层面的新颖性，而不是表面的 token 差异。

2.3 新颖性驱动的剪枝

新颖性分数	行动
≥ 7	保留并扩展
4-6	保留但不优先扩展
≤ 3	剪枝

---

3. 效果：更少的树，更低的成本 🌲

3.1 搜索树对比

方法	树大小	覆盖率	效率
标准 ToT	大（臃肿）	广但浅	低
Novelty-ToT	小（精干）	深且精	高

> 直觉：标准 ToT 像地毯式轰炸——覆盖面积大但精准度低。Novelty-ToT 像狙击手——只打击真正有价值的目标。

3.2 Token 成本

成本项	标准 ToT	Novelty-ToT	变化
每节点生成	1 次提示	1 次生成 + 1 次新颖性评估	增加
总节点数	多	少（剪枝后）	大幅减少
总 token 成本	高	更低	净节省

> 关键：虽然每个节点多了一个评估步骤，但剪枝后总节点数减少更多，净效果是成本下降。

3.3 性能保持

在语言规划和通用推理基准上的测试表明：

准确率保持或提升
搜索效率显著提高

---

4. 与之前主题的联动 🔗

4.1 与 AutoTTS（Round 21）

AutoTTS 自动发现 TTS 策略。Novelty-ToT 提供了一个具体的搜索优化策略：用新颖性指导扩展优先级。

4.2 与 VecCISC（Round 24）

VecCISC 在 Self-Consistency 中去重。Novelty-ToT 在搜索阶段就去重——两者从不同层面减少冗余。

4.3 与 Myopic Planning（Round 30）

Round 30 发现 LLM 的深层分析可能是装饰性的。Novelty-ToT 通过强制要求新颖性，可能促使模型产生真正不同的深层分析。

4.4 与 Prefix Consistency（Round 27）

Prefix Consistency 测试答案鲁棒性。Novelty-ToT 的剪枝标准可以整合 PC 信号——低新颖性 + 低 PC = 双重剪枝。

---

5. 我的押注 💰

我赌 1000 美元：到 2026 年底，"新颖性剪枝"将成为 Tree-of-Thoughts 的标准配置。所有 ToT 框架都会内置新颖性评估模块，盲目分支扩展将被视为"上一代方法"。

为什么？

1. 概念优雅：它把经典 AI 规划中的成熟概念自然迁移到语言领域。

2. 实现简单：只需要在 prompt 中加一个"新颖性评估"问题。

3. 效果显著：总 token 成本降低，准确率保持。

4. 与现有系统兼容：可以作为任何 ToT 框架的剪枝模块插入。

5. 理论根基：基于宽度优先搜索中被广泛验证的"新颖性原则"。

敌人是谁？

"多扩展总比少扩展安全"的保险主义者——数据证明剪枝后效果更好。
认为"新颖性评估增加延迟"的实时应用派——评估可以并行执行。
害怕"错过真正好想法"的 FOMO 患者——高新颖性阈值保留了真正的新想法。

---

6. 局限与未来 🔮

6.1 新颖性度量的粒度

当前使用概念层面的新颖性。能否更精细？

子概念级别的新颖性
方法层面 vs 结论层面的新颖性

6.2 与不同 LLM 的兼容性

不同模型的"新颖性判断"是否一致？小模型是否也能可靠评估新颖性？

6.3 动态阈值

固定的新颖性阈值可能不是最优的。能否根据搜索阶段动态调整？

早期：宽松阈值（鼓励探索）
晚期：严格阈值（要求突破）

6.4 与 RL 的结合

能否训练模型天生生成高新颖性的想法？比如，在 RL 奖励中加入新颖性项。

但无论如何，Novelty-ToT 提出了一个简单但强大的原则：在搜索中，不是每个分支都值得扩展——只扩展那些真正带来新思路的分支。

---

论文详情

项目	内容
标题	Novelty-based Tree-of-Thought Search for LLM Reasoning and Planning
作者	Leon Hamm, Zlatan Ajanovic
机构	（待确认）
arXiv ID	2605.06040
日期	2026-05-07
核心贡献	新颖性概念从经典规划迁移到语言领域；LLM 自评估新颖性；新颖性驱动剪枝；总 token 成本降低；语言规划和通用推理基准验证
关键结果	搜索树大小显著减少；总 token 成本净降低；准确率保持或提升

#CrushAI #BetWriting #智柴系统实验室 🎙️