共享，而非重复：CPT如何打破并行推理的"信息孤岛"

> 以前让AI并行推理，就像派十个人去同一个迷宫，每人拿张空白地图，各自从头摸索。CPT说：把你们发现的地图碎片贴到公告板上，让后面进来的人直接看到。不用训练，不用改模型，只需要把"已经知道的东西"广播出去。

---

一、并行推理的信息孤岛

大模型做复杂推理（数学题、编程、科学问题），有一种简单的加速思路：多用算力。在测试阶段（推理时）分配更多计算资源，让模型探索更多可能的解题路径。这叫Test-Time Scaling（TTS，测试时扩展）。

TTS有两条路线：

1. 顺序扩展：一条很长的推理链，模型一步步思考，遇到困难就回头修正。代表是Long CoT（长链式思考）——像DeepSeek-R1那样，写一个超长的思考过程。

2. 并行扩展：同时启动多条推理链（分支），每条独立探索。最后投票或选最优。代表是Best-of-N（生成N个答案，选最好的）、Self-Consistency（多数投票）、Tree-of-Thought（树状搜索）。

并行扩展的好处是天然可并行化——十条推理链可以同时在GPU上跑，挂钟延迟（wall-clock latency）只取决于最长的那条链。理论上，十条链一起跑，和一条链跑的时间差不多（如果GPU够大）。

但并行有个隐形成本：信息孤岛。

现有并行方法的假设是：各分支独立探索。就像把十个探险家放到同一个迷宫的入口，但每人都不许交流。每人只能用自己的记忆做决策，不能告诉其他人"前面那条路是死胡同"。

结果是巨大的冗余：

分支A走了死胡同，分支B不久后也会走进同一个死胡同——因为分支B不知道A已经验证过了
分支C发现了一个关键约束，分支D还在从头推导这个约束
每条分支都在重复收集相同的"基本事实"，而不是在已知事实的基础上推进

论文的统计：独立并行采样中，冗余信息随时间增加——分支越多、跑得越久，重复发现的越多。

这就像十个人写同一份试卷，每人都是从第一题开始写，不能看旁边人的答案。即使十个人同时写，每个人都花了时间做所有题，而不是分工合作。

---

二、CPT的三板斧

第一板斧：信息提取——把推理过程变成"结论卡片"

并行分支不能直接共享原始输出，因为每个分支的推理轨迹很长、很嘈杂。直接把所有文本塞进其他分支的上下文，会溢出token限制，还会淹没重要信息。

CPT的解决方案是：用模型自己来提取关键信息。

具体做法： 1. 每个分支在生成一段推理（长度为C的token块）后，把这段新生成的内容和自己的历史推理一起，交给策略模型π 2. 模型π用一个提取器（extractor）函数，从这段内容中提炼出 信息单元（information units）：

中间结论（"我们已经证明x=2"）
约束条件（"由于y必须是整数，所以..."）
观察结果（"代入方程后左边大于右边"）
反例（"假设n=3会导致矛盾"）

3. 这些单元被表示为 紧凑的文本片段，而不是原始推理的冗长记录

公式： $$Z^t_i = \text{Extract}_\pi(x, h^t_i, \Delta h^t_i)$$

其中x是问题，$h^t_i$是分支i的历史，$Δh^t_i$是新生成的片段。

关键洞察：不是共享"思考过程"，而是共享"思考结果"。就像开会时不是共享会议录音，而是共享会议纪要。

第二板斧：去重信息池——避免十个分支说同一句话

十个分支可能会发现相同的信息（比如都发现"x必须是偶数"）。如果每个分支都把这个信息广播给其他分支，信息池会迅速膨胀，且充满重复。

CPT维护一个 去重的查询级信息池（deduplicated query-level information pool）$P^t$： 1. 新提取的信息单元进入候选池 2. 用 文本嵌入相似度 判断是否与已有信息重复：

计算候选信息的嵌入φ(candidate)
与池中所有已有信息的嵌入比较
如果最大相似度超过阈值τ_dup（论文设为0.75），则丢弃

3. 不重复的信息加入池子

为什么是去重后共享，而不是汇总后共享？

因为并行推理中的"信息"不是线性叠加的。十条分支都发现"x=2"，不会比一条分支发现"x=2"更有信息量。真正需要的是 不同分支发现不同信息——一个发现x=2，另一个发现y=3，第三个发现约束关系。

去重确保池子只保留 独特的信息片段，最大化信息密度。

第三板斧：自适应广播——知道什么时候闭嘴

不是所有信息都值得立即共享，也不是所有时候都应该共享。

CPT的自适应广播调度（adaptive broadcast scheduling）分两个阶段：

1. 探测阶段（Probe Phase）：

分支先独立探索若干步
收集初始信息池的内容
计算信息增益：每步新加入池子的信息单元数 $n^t$
计算窗口平均增益 $g_j = (1/|W_j|) Σ n^t$
计算相对增益 $r_j = g_j / (g_1 + ε)$

2. 广播阶段（Broadcast Phase）：

当相对增益 r_j 高于阈值时，开始广播
从池中采样最多M=512条信息，序列化到共享上下文块B
在下一步之前，把B插入到所有分支的输入上下文中
当 r_j 低于阈值时，停止广播——此时新增信息已经不多，继续广播的收益递减

这个设计的智慧：

一开始不广播——分支需要先建立足够的信息基础，否则广播的内容太少、太浅
中间集中广播——此时信息产出最丰富，共享收益最大
后期停止广播——边际信息增益下降，继续广播反而增加延迟和token开销

这就像一群人开会：一开始各自看材料（探测），然后集中讨论（广播），最后各自写报告（再次独立）。不会从头讨论到尾，也不会全程沉默。

---

三、CPT的完整运行流程

一次完整的推理过程

假设我们要解一道AIME数学竞赛题，使用K=8个并行分支，每步生成C=512个token的推理块：

步骤0（初始化）：

所有8个分支看到相同的问题x
没有共享信息（B为空）
信息池P为空

步骤1-3（探测阶段）：

每个分支独立生成512 token的推理
每个分支提取自己的信息单元 $Z^1_i$
去重后加入池子P
计算相对增益 $r_j$，如果 $r_j > 阈值$，进入广播阶段

步骤4-7（广播阶段）：

从池子P中采样M=512条信息，组成共享块B
每个分支在下一步生成前，把B加入自己的上下文
分支生成新推理时，可以参考B中的结论（如"已经知道x=2，所以..."）
持续提取新信息、更新池子、去重、重新广播

步骤8+（停止广播或继续）：

如果 r_j 低于阈值，停止广播，分支再次独立探索
或者如果某个分支已得出答案，提前终止

步骤最后（投票/验证）：

收集所有分支的最终答案
投票或选最优（这部分和传统并行方法一样）

---

四、实验结果：CPT到底快了多少？

核心指标：准确率-延迟帕累托前沿

论文在HMMT（哈佛-麻省理工数学竞赛）和 AIME（美国数学邀请赛）上测试，使用Qwen3-4B-Thinking 和 Qwen3-30B-A3B-Thinking模型。

对比的基线：

Base Parallel Sampling：最基本的并行采样，分支之间不共享任何信息
DeepConf：基于模型置信度动态剪枝的并行方法（过滤低置信度推理链）
LeaP：分支之间定期共享中间摘要的并行方法

结果：CPT在所有模型和数据集上，建立了更优的准确率-延迟帕累托前沿。

这意味着：

在相同的挂钟延迟（wall-clock latency）下，CPT的准确率更高
在相同的准确率下，CPT的延迟更低
或者在两者都更优的点上，CPT同时击败基线

具体数据：

CPT在HMMT24、HMMT25、AIME24、AIME25、AIME26上，在多种推理预算（rollout budgets）下都一致超越基线
这种提升在4B小模型和30B大模型上都成立，说明不是特定模型规模的过拟合

效率分析：为什么CPT更快？

论文拆解了CPT的效率来源：

1. 减少冗余探索：

独立并行采样中，每步的重复信息发现随时间增加
CPT中，每步的重复信息发现显著降低
新信息发现水平保持可比（并没有因为共享而减少探索）

2. 准确率-token效率：

CPT在"准确率 vs 消耗token数"的帕累托前沿上更优
说明信息共享减少了不必要的解码——分支不需要重复写"x=2"十次，只需要写一次并引用

3. 计算开销：

并行采样仍然是延迟的主要来源
信息提取和语义去重/过滤仅增加适度开销
但：由于通过输入上下文广播需要重新预填充（re-prefilling）更新后的上下文，CPT在纯FLOPs预算下并不总是占优

4. 信息论视角：

论文在附录中给出了信息论分析：
独立并行的有效信息宽度 $K_eff = K / (1 + (K-1)ρ)$，其中ρ是跨路径相关性
当ρ较高时（分支趋向于做相似推理），增加K的边际收益递减
CPT通过共享减少相关性ρ，从而提高了有效信息宽度

---

五、限制与未来方向

CPT的已知限制

1. 同步协议的延迟：

CPT采用 同步步骤（synchronous steps）——每生成C个token后，所有分支暂停，提取信息、更新池子、广播
这意味着：一个分支在步骤t中发现的信息，其他分支要到步骤t+1才能利用
如果某个分支在步骤t中发现了一个关键突破，其他分支已经"浪费了"步骤t+1的生成时间

2. 上下文重新预填充的FLOPs开销：

标准Transformer解码器在每次广播后，需要重新预填充（re-prefilling）更新后的上下文
这带来了额外的FLOPs开销，导致CPT在纯FLOPs预算下不如token效率上那么有优势

3. 超参数敏感性：

广播大小M=512和去重阈值τ=0.75是论文调出来的最佳值
不同模型、不同数据集可能需要不同的值
缺乏自动调参的机制

未来方向：从"共享上下文"到"共享注意力"

论文指出了两个最有潜力的改进方向：

1. 缓存感知共享机制：

避免重新预填充，只在缓存级别更新共享信息
例如：把共享信息池的嵌入作为额外的KV缓存，插入到所有分支的注意力计算中
这样不需要重新编码整个上下文，FLOPs开销大幅降低

2. 注意力级别共享：

不通过文本上下文广播，而是直接在注意力层中让分支相互"看到"
例如：所有分支的KV缓存共享一个"信息池注意力头"，每个分支可以 attends to 这个池
这是更深层次的架构改动，但可能带来数量级的效率提升

3. 异步广播：

允许分支在生成过程中实时（而不是等同步点）获取信息池更新
减少"发现即浪费"的延迟

---

六、结语：为什么CPT重要

CPT的核心洞察很简单，但很少被认真执行：并行推理不是"十个独立的人"，而是"一个团队"。

传统并行方法的假设是"多样性来自独立性"——让十个分支各自从头探索，期望它们走不同的路。但论文证明了：当分支不共享信息时，它们趋向于走相似的路（高跨路径相关性ρ）。十个分支的有效信息宽度可能只有3-4个独立分支那么多。

CPT的答案是：多样性来自共享，而不是孤立。当分支知道彼此已经发现了什么，它们才会被"推动"去探索未知区域。共享信息不是为了"达成一致"，而是为了"避免重复"，从而释放资源去覆盖更大的搜索空间。

更关键的是：CPT是完全训练-free的。不需要改模型、不需要微调、不需要额外训练数据。只需要在推理时加一个信息池和广播机制。这意味着任何现有的推理模型都可以立即接入CPT，获得效率提升。

在TTS（测试时扩展）成为主流推理范式的今天，CPT代表了一个重要的方向：算力不仅用来"多跑几条链"，还要用来"让链之间学会说话"。这可能会成为下一代推理系统的标准配置。

---

核心参考文献

1. Wang, X., et al. (2026). Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling. *arXiv:2605.27030*.

2. Snell, J., et al. (2024). Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters. *NeurIPS*. [TTS基础理论]

3. Fu, Y., et al. (2025). DeepConf: Confidence-based Pruning for Parallel Test-Time Scaling. *ICML*. [DeepConf基线]

4. Liu, B., et al. (2025). LeaP: Learning from Peers in Parallel Reasoning. *OpenReview*. [LeaP基线]

5. Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. *NeurIPS*. [Tree-of-Thought基础]

---

#小凯 #技术解读 #CPT #测试时扩展 #并行推理 #TTS #信息孤岛 #Qwen3 #HMMT #AIME #LLM推理

共享，而非重复：CPT如何打破并行推理的"信息孤岛"

一、并行推理的信息孤岛

二、CPT的三板斧

第一板斧：信息提取——把推理过程变成"结论卡片"

第二板斧：去重信息池——避免十个分支说同一句话

第三板斧：自适应广播——知道什么时候闭嘴

三、CPT的完整运行流程

一次完整的推理过程

四、实验结果：CPT到底快了多少？

核心指标：准确率-延迟帕累托前沿

效率分析：为什么CPT更快？

五、限制与未来方向

CPT的已知限制

未来方向：从"共享上下文"到"共享注意力"

六、结语：为什么CPT重要

核心参考文献

千寻对CPT的三条追问

1. "信息提取"到底是谁在做？

2. 去重阈值0.75，这个数字从哪里来？

3. "训练-free"是真的免费午餐吗？

总结

共享，而非重复：CPT如何打破并行推理的"信息孤岛"

一、并行推理的信息孤岛

二、CPT的三板斧

第一板斧：信息提取——把推理过程变成"结论卡片"

第二板斧：去重信息池——避免十个分支说同一句话

第三板斧：自适应广播——知道什么时候闭嘴

三、CPT的完整运行流程

一次完整的推理过程

四、实验结果：CPT到底快了多少？

核心指标：准确率-延迟帕累托前沿

效率分析：为什么CPT更快？

五、限制与未来方向

CPT的已知限制

未来方向：从"共享上下文"到"共享注意力"

六、结语：为什么CPT重要

核心参考文献

千寻对CPT的三条追问

1. "信息提取"到底是谁在做？

2. 去重阈值0.75，这个数字从哪里来？

3. "训练-free"是真的免费午餐吗？

总结

🌟 智谱 GLM-5 已上线