以前让AI并行推理,就像派十个人去同一个迷宫,每人拿张空白地图,各自从头摸索。CPT说:把你们发现的地图碎片贴到公告板上,让后面进来的人直接看到。不用训练,不用改模型,只需要把"已经知道的东西"广播出去。
一、并行推理的信息孤岛
大模型做复杂推理(数学题、编程、科学问题),有一种简单的加速思路:多用算力。在测试阶段(推理时)分配更多计算资源,让模型探索更多可能的解题路径。这叫Test-Time Scaling(TTS,测试时扩展)。
TTS有两条路线:
-
顺序扩展:一条很长的推理链,模型一步步思考,遇到困难就回头修正。代表是Long CoT(长链式思考)——像DeepSeek-R1那样,写一个超长的思考过程。
-
并行扩展:同时启动多条推理链(分支),每条独立探索。最后投票或选最优。代表是Best-of-N(生成N个答案,选最好的)、Self-Consistency(多数投票)、Tree-of-Thought(树状搜索)。
并行扩展的好处是天然可并行化——十条推理链可以同时在GPU上跑,挂钟延迟(wall-clock latency)只取决于最长的那条链。理论上,十条链一起跑,和一条链跑的时间差不多(如果GPU够大)。
但并行有个隐形成本:信息孤岛。
现有并行方法的假设是:各分支独立探索。就像把十个探险家放到同一个迷宫的入口,但每人都不许交流。每人只能用自己的记忆做决策,不能告诉其他人"前面那条路是死胡同"。
结果是巨大的冗余:
- 分支A走了死胡同,分支B不久后也会走进同一个死胡同——因为分支B不知道A已经验证过了
- 分支C发现了一个关键约束,分支D还在从头推导这个约束
- 每条分支都在重复收集相同的"基本事实",而不是在已知事实的基础上推进
论文的统计:独立并行采样中,冗余信息随时间增加——分支越多、跑得越久,重复发现的越多。
这就像十个人写同一份试卷,每人都是从第一题开始写,不能看旁边人的答案。即使十个人同时写,每个人都花了时间做所有题,而不是分工合作。
二、CPT的三板斧
第一板斧:信息提取——把推理过程变成"结论卡片"
并行分支不能直接共享原始输出,因为每个分支的推理轨迹很长、很嘈杂。直接把所有文本塞进其他分支的上下文,会溢出token限制,还会淹没重要信息。
CPT的解决方案是:用模型自己来提取关键信息。
具体做法:
- 每个分支在生成一段推理(长度为C的token块)后,把这段新生成的内容和自己的历史推理一起,交给策略模型π
- 模型π用一个提取器(extractor)函数,从这段内容中提炼出 信息单元(information units):
- 中间结论("我们已经证明x=2")
- 约束条件("由于y必须是整数,所以...")
- 观察结果("代入方程后左边大于右边")
- 反例("假设n=3会导致矛盾")
- 这些单元被表示为 紧凑的文本片段,而不是原始推理的冗长记录
公式:
其中x是问题,\(h^t_i\)是分支i的历史,\(Δh^t_i\)是新生成的片段。
关键洞察:不是共享"思考过程",而是共享"思考结果"。就像开会时不是共享会议录音,而是共享会议纪要。
第二板斧:去重信息池——避免十个分支说同一句话
十个分支可能会发现相同的信息(比如都发现"x必须是偶数")。如果每个分支都把这个信息广播给其他分支,信息池会迅速膨胀,且充满重复。
CPT维护一个 去重的查询级信息池(deduplicated query-level information pool)\(P^t\):
- 新提取的信息单元进入候选池
- 用 文本嵌入相似度 判断是否与已有信息重复:
- 计算候选信息的嵌入φ(candidate)
- 与池中所有已有信息的嵌入比较
- 如果最大相似度超过阈值τ_dup(论文设为0.75),则丢弃
- 不重复的信息加入池子
为什么是去重后共享,而不是汇总后共享?
因为并行推理中的"信息"不是线性叠加的。十条分支都发现"x=2",不会比一条分支发现"x=2"更有信息量。真正需要的是 不同分支发现不同信息——一个发现x=2,另一个发现y=3,第三个发现约束关系。
去重确保池子只保留 独特的信息片段,最大化信息密度。
第三板斧:自适应广播——知道什么时候闭嘴
不是所有信息都值得立即共享,也不是所有时候都应该共享。
CPT的自适应广播调度(adaptive broadcast scheduling)分两个阶段:
1. 探测阶段(Probe Phase):
- 分支先独立探索若干步
- 收集初始信息池的内容
- 计算信息增益:每步新加入池子的信息单元数 \(n^t\)
- 计算窗口平均增益 \(g_j = (1/|W_j|) Σ n^t\)
- 计算相对增益 \(r_j = g_j / (g_1 + ε)\)
2. 广播阶段(Broadcast Phase):
- 当相对增益 r_j 高于阈值时,开始广播
- 从池中采样最多M=512条信息,序列化到共享上下文块B
- 在下一步之前,把B插入到所有分支的输入上下文中
- 当 r_j 低于阈值时,停止广播——此时新增信息已经不多,继续广播的收益递减
这个设计的智慧:
- 一开始不广播——分支需要先建立足够的信息基础,否则广播的内容太少、太浅
- 中间集中广播——此时信息产出最丰富,共享收益最大
- 后期停止广播——边际信息增益下降,继续广播反而增加延迟和token开销
这就像一群人开会:一开始各自看材料(探测),然后集中讨论(广播),最后各自写报告(再次独立)。不会从头讨论到尾,也不会全程沉默。
三、CPT的完整运行流程
一次完整的推理过程
假设我们要解一道AIME数学竞赛题,使用K=8个并行分支,每步生成C=512个token的推理块:
步骤0(初始化):
- 所有8个分支看到相同的问题x
- 没有共享信息(B为空)
- 信息池P为空
步骤1-3(探测阶段):
- 每个分支独立生成512 token的推理
- 每个分支提取自己的信息单元 \(Z^1_i\)
- 去重后加入池子P
- 计算相对增益 \(r_j\),如果 \(r_j > 阈值\),进入广播阶段
步骤4-7(广播阶段):
- 从池子P中采样M=512条信息,组成共享块B
- 每个分支在下一步生成前,把B加入自己的上下文
- 分支生成新推理时,可以参考B中的结论(如"已经知道x=2,所以...")
- 持续提取新信息、更新池子、去重、重新广播
步骤8+(停止广播或继续):
- 如果 r_j 低于阈值,停止广播,分支再次独立探索
- 或者如果某个分支已得出答案,提前终止
步骤最后(投票/验证):
- 收集所有分支的最终答案
- 投票或选最优(这部分和传统并行方法一样)
四、实验结果:CPT到底快了多少?
核心指标:准确率-延迟帕累托前沿
论文在HMMT(哈佛-麻省理工数学竞赛)和 AIME(美国数学邀请赛)上测试,使用Qwen3-4B-Thinking 和 Qwen3-30B-A3B-Thinking模型。
对比的基线:
- Base Parallel Sampling:最基本的并行采样,分支之间不共享任何信息
- DeepConf:基于模型置信度动态剪枝的并行方法(过滤低置信度推理链)
- LeaP:分支之间定期共享中间摘要的并行方法
结果:CPT在所有模型和数据集上,建立了更优的准确率-延迟帕累托前沿。
这意味着:
- 在相同的挂钟延迟(wall-clock latency)下,CPT的准确率更高
- 在相同的准确率下,CPT的延迟更低
- 或者在两者都更优的点上,CPT同时击败基线
具体数据:
- CPT在HMMT24、HMMT25、AIME24、AIME25、AIME26上,在多种推理预算(rollout budgets)下都一致超越基线
- 这种提升在4B小模型和30B大模型上都成立,说明不是特定模型规模的过拟合
效率分析:为什么CPT更快?
论文拆解了CPT的效率来源:
1. 减少冗余探索:
- 独立并行采样中,每步的重复信息发现随时间增加
- CPT中,每步的重复信息发现显著降低
- 新信息发现水平保持可比(并没有因为共享而减少探索)
2. 准确率-token效率:
- CPT在"准确率 vs 消耗token数"的帕累托前沿上更优
- 说明信息共享减少了不必要的解码——分支不需要重复写"x=2"十次,只需要写一次并引用
3. 计算开销:
- 并行采样仍然是延迟的主要来源
- 信息提取和语义去重/过滤仅增加适度开销
- 但:由于通过输入上下文广播需要重新预填充(re-prefilling)更新后的上下文,CPT在纯FLOPs预算下并不总是占优
4. 信息论视角:
- 论文在附录中给出了信息论分析:
- 独立并行的有效信息宽度 \(K_eff = K / (1 + (K-1)ρ)\),其中ρ是跨路径相关性
- 当ρ较高时(分支趋向于做相似推理),增加K的边际收益递减
- CPT通过共享减少相关性ρ,从而提高了有效信息宽度
五、限制与未来方向
CPT的已知限制
1. 同步协议的延迟:
- CPT采用 同步步骤(synchronous steps)——每生成C个token后,所有分支暂停,提取信息、更新池子、广播
- 这意味着:一个分支在步骤t中发现的信息,其他分支要到步骤t+1才能利用
- 如果某个分支在步骤t中发现了一个关键突破,其他分支已经"浪费了"步骤t+1的生成时间
2. 上下文重新预填充的FLOPs开销:
- 标准Transformer解码器在每次广播后,需要重新预填充(re-prefilling)更新后的上下文
- 这带来了额外的FLOPs开销,导致CPT在纯FLOPs预算下不如token效率上那么有优势
3. 超参数敏感性:
- 广播大小M=512和去重阈值τ=0.75是论文调出来的最佳值
- 不同模型、不同数据集可能需要不同的值
- 缺乏自动调参的机制
未来方向:从"共享上下文"到"共享注意力"
论文指出了两个最有潜力的改进方向:
1. 缓存感知共享机制:
- 避免重新预填充,只在缓存级别更新共享信息
- 例如:把共享信息池的嵌入作为额外的KV缓存,插入到所有分支的注意力计算中
- 这样不需要重新编码整个上下文,FLOPs开销大幅降低
2. 注意力级别共享:
- 不通过文本上下文广播,而是直接在注意力层中让分支相互"看到"
- 例如:所有分支的KV缓存共享一个"信息池注意力头",每个分支可以 attends to 这个池
- 这是更深层次的架构改动,但可能带来数量级的效率提升
3. 异步广播:
- 允许分支在生成过程中实时(而不是等同步点)获取信息池更新
- 减少"发现即浪费"的延迟
六、结语:为什么CPT重要
CPT的核心洞察很简单,但很少被认真执行:并行推理不是"十个独立的人",而是"一个团队"。
传统并行方法的假设是"多样性来自独立性"——让十个分支各自从头探索,期望它们走不同的路。但论文证明了:当分支不共享信息时,它们趋向于走相似的路(高跨路径相关性ρ)。十个分支的有效信息宽度可能只有3-4个独立分支那么多。
CPT的答案是:多样性来自共享,而不是孤立。当分支知道彼此已经发现了什么,它们才会被"推动"去探索未知区域。共享信息不是为了"达成一致",而是为了"避免重复",从而释放资源去覆盖更大的搜索空间。
更关键的是:CPT是完全训练-free的。不需要改模型、不需要微调、不需要额外训练数据。只需要在推理时加一个信息池和广播机制。这意味着任何现有的推理模型都可以立即接入CPT,获得效率提升。
在TTS(测试时扩展)成为主流推理范式的今天,CPT代表了一个重要的方向:算力不仅用来"多跑几条链",还要用来"让链之间学会说话"。这可能会成为下一代推理系统的标准配置。
核心参考文献
-
Wang, X., et al. (2026). Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling. arXiv:2605.27030.
-
Snell, J., et al. (2024). Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters. NeurIPS. [TTS基础理论]
-
Fu, Y., et al. (2025). DeepConf: Confidence-based Pruning for Parallel Test-Time Scaling. ICML. [DeepConf基线]
-
Liu, B., et al. (2025). LeaP: Learning from Peers in Parallel Reasoning. OpenReview. [LeaP基线]
-
Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS. [Tree-of-Thought基础]
#小凯 #技术解读 #CPT #测试时扩展 #并行推理 #TTS #信息孤岛 #Qwen3 #HMMT #AIME #LLM推理
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。