静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

一枚Token的分身术:当大模型学会“把岔路叠在一起走”

✨步子哥 @steper · 2026-01-14 12:23 · 52浏览

🌫️ 开场:在人类脑海的雾中,答案从来不是一条路

想象你站在一道数学题前,像站在一团浓雾里。你并不会立刻坚定地迈向某条小径——更常见的是,你的脑子会同时浮现几种可能的下一步:要不要换元?要不要画图?是不是可以反证?这些“岔路”并不会立刻被你扔掉,而是以一种轻柔的方式并存着,直到某个线索让其中一条路变得更亮。

论文 《Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge》(Tang et al., 2026)抓住的正是这件事:人类常常“软推理”(soft reasoning)——保留一个关于下一步的概率分布;而大语言模型的标准Chain-of-Thought(CoT)更像“硬推理”——每一步都必须选一个离散token,像在岔路口强行拍板。

CoT确实有效,但它有个难以忽视的代价:推理序列长、token开销大、探索效率低。更糟的是,如果我们希望用强化学习(RL)去优化推理(尤其是需要“试错”的 on-policy RL),离散CoT那种“先走到底再回头”的深度优先搜索(DFS)式探索,会把算力烧得像篝火晚会。

于是作者提出了一个颇具科幻感的主意:让每一步推理不再只走一条路,而是同时走K条路,但只花一个token的长度。他们把这种机制命名为——Multiplex Thinking(复用式思考)

基于此,我们接下来要讲一个“token分身术”的故事:它如何做到“分叉-合并”,如何让连续表示与离散采样握手言和,又为什么这恰好补上了RL最需要的那块拼图。

---

🧩 CoT的“低带宽”:为什么推理越长越像在打字复读机

CoT的基本形式很简单:模型先生成一串“思考token”(thinking trace),再输出最终答案。论文用符号写得很清楚:给定问题 $q=(q_1,\dots,q_L)$,模型 $\pi_\theta$ 先生成思考序列 $t$,再生成答案 $y$:
  • 思考:$t_i \sim \pi_\theta(e(q), e(t_{
  • 答案:$y_i \sim \pi_\theta(e(q), e(t), e(y_{
这里 $E\in\mathbb{R}^{|V|\times d}$ 是词表嵌入矩阵,$e(k)=E[k]$ 是token $k$的embedding。

问题在于:每一步 $t_i$ 都必须采样一个离散token。这意味着: 1. 模型下一步的完整分布(可能包含大量“差一点点就对”的候选)被压扁成一个符号。 2. 你想探索多个可能路径,只能多采几条完整CoT轨迹——每条都很长、很贵。 3. 探索更像DFS:每次采样都“押注”一条路,走错了就浪费整条轨迹。

> 小贴士:所谓“低带宽”,并不是说token本身信息量低,而是指每个时间步只能传递一个离散选择,很难在同样长度下携带“多种可能性并存”的状态。

这也是为什么近年来出现了“连续推理token”的研究:希望一个token就能塞进更多信息,让推理更省token、更像“把分布保留下来”。

---

🧪 Soft Thinking的温柔与硬伤:连续token很好,但它不爱冒险

论文提到的关键对照基线之一是 Soft Thinking(Zhang et al., 2025)。它的核心做法是:不用采样离散token,而是把下一步分布 $p_i$ 当权重,对整个词表embedding做加权平均,得到连续的“概念token”:

$$ c_i = \sum_{k\in V} p_i(k)\, e(k). $$

这招非常“温柔”:它保留了分布信息,也更省token(某种意义上“一个向量顶多个token的表达力”)。但它有一个致命弱点——确定性(determinism)

同样的上下文 → 同样的分布 → 同样的 $c_i$。 这意味着:你再怎么rollout,轨迹几乎都是一样的

而强化学习,尤其是on-policy RL(论文里用的是GRPO,属于PPO家族思想)最需要的恰恰是:随机性带来的探索。没有探索,你就像在赌场里永远只押同一注,输赢都学不到新东西。

作者的判断非常直接: 连续推理token必须是“基于采样的随机连续token”,否则就和RL天然不合拍。

---

🌱 Multiplex Thinking的核心魔法:每一步采K次,但只走一步

Multiplex Thinking的设计非常“工程师浪漫”:它不抛弃离散采样(那是RL的生命线),也不放弃连续表示(那是token效率的希望),而是把两者缝在一起。

1)每一步:独立采样K个候选token

在推理第 $i$ 步,模型从分布 $\pi_\theta(\cdot\mid e(q), c_{独立采样K次: $$ k_{i,1}, k_{i,2}, \dots, k_{i,K} \sim \pi_\theta(\cdot\mid e(q), c_{

你可以把它想象成:同一个岔路口,模型同时派出K个“分身”去试探下一步可能走向。

2)把K个离散token合并成一个“multiplex token”

作者先把采样得到的K个token转为one-hot向量 $z_{i,j}$,再平均: $$ s_i=\frac{1}{K}\sum_{j=1}^K z_{i,j}. $$
  • 当 $K=1$:$s_i=z_{i,1}$,退化为普通离散CoT。
  • 当 $K\to\infty$:经验分布趋近于LM head给出的真实分布。
然后把 $s_i$ 映射回embedding空间,并加入一个词表空间的权重向量 $w_i$: $$ c_i = E^\top (s_i \odot w_i). $$

这里作者讨论了两种 $w_i$:

  • Uniform averaging:$w_i[v]=1$,就是直接平均embedding。
  • LM-head reweighting(默认):只对被采样到的token重新按概率加权并缩放,使表示更贴近模型“自信程度”。
> 小贴士:直观上,LM-head reweighting就像在“被抽中的候选”里再做一次“按原始概率的加权投票”,让合并后的向量更尊重模型的信念结构。

3)最关键的性质:自适应

作者强调Multiplex Thinking是 self-adaptive 的:
  • 当模型很自信(分布熵低、logits尖锐),K次采样往往都抽到同一个token → multiplex token几乎就是一个离散token → 行为接近标准CoT。
  • 当模型不确定(熵高),采样会出现分歧 → multiplex token把多条可能性压缩进一个向量 → 不增加序列长度,却保留了“分岔”。
这听起来像一种“自动变速器”:路况简单就一脚油门直走,路口复杂就挂低档慢慢探路,但无论如何你的行程长度不膨胀。

---

🎲 概率语义与RL:为什么这次连续token终于能“被训练”

前面说连续token方法常与RL不合拍,一个原因是:你很难定义“连续token轨迹”的概率,从而难以写出标准的策略梯度目标。

Multiplex Thinking最漂亮的一笔在于:它仍然由K个独立离散采样组成,所以概率可以显式写出来,并且天然因子化。

论文给出整条multiplex思考轨迹 $c$ 的对数概率: $$ \log \pi(c \mid e(q)) = \sum_{i=1}^{|c|}\sum_{j=1}^K \log \pi_\theta(k_{i,j}\mid e(q), c_{

注意:这里的 $c_i$ 是连续向量,但它背后对应的“生成动作”是 $(k_{i,1},\dots,k_{i,K})$ 这个离散复合动作;而在独立采样假设下,联合概率就是乘积,log就是求和。

有了这条链路,作者就能定义一个直接优化multiplex轨迹的强化学习目标(结合RLVR的可验证奖励):

$$ J_{\text{RL}}(\theta) = \mathbb{E}_{(q,y^\star)\sim D,\; c\sim\pi_\theta(\cdot|q),\; y\sim\pi_\theta(\cdot|q,c)} \left[ \big(\log \pi_\theta(c|e(q)) + \log \pi_\theta(y|e(q),c)\big)\cdot v(y,y^\star)\right]. $$

这里 $v(y,y^\star)$ 是可验证奖励(答对/答错之类),与论文背景中的RLVR一致。

> 小贴士:你可以把它看成“把推理(thinking trace)本身也当作策略的一部分”,奖励不仅影响最终答案生成,也反向塑形推理过程的采样分布。

---

🌡️ 熵的故事:探索体积从 |V| 变成 |V|^K

如果说上面是“可训练性”的数学支柱,那么熵分析就是“为什么更会探索”的解释。

离散CoT在第 $i$ 步采样一个token,其熵是标准香农熵: $$ H_{\text{CoT}}(i) = -\sum_{v\in V}\pi_\theta(v\mid q,t_{

Multiplex Thinking在一步里采K次,构成复合动作 $K_i=\{k_{i,1},\dots,k_{i,K}\}$,在独立假设下联合熵为: $$ H(K_i)=K\cdot H(\pi_\theta(q,c_{

这条结论非常直觉:采样K次就像你把“探索的骰子”掷了K遍。熵线性增长,对应的有效探索空间从 $|V|$ 级别膨胀到 $|V|^K$。

作者把这描述为:Multiplex Thinking能在连续空间里编码K条路径的“叠加态”,更像广度优先(BFS)地保留多个可能,而不是离散CoT那种一条路走到黑。

---

🏗️ 实验舞台:两种骨干、六个数据集、一套RL训练

论文的实验设置相当清晰,核心点包括:

模型骨干

  • DeepSeek-R1-Distill-Qwen-1.5B
  • DeepSeek-R1-Distill-Qwen-7B

训练方法

  • 使用 GRPO (Group Relative Policy Optimization)
  • 训练300 steps,batch size 128
  • 学习率 $1\times 10^{-6}$
  • KL penalty = 0,entropy penalty = 0
  • 最大响应长度 4096
  • 训练时每题rollout 8条,temperature 1.0,top-p 1.0

评测数据集(6个)

AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench

对比基线

  • Discrete CoT(不训练的标准CoT)
  • Stochastic Soft Thinking(Wu et al., 2025,使用Gumbel-Softmax注入随机性)
  • Discrete RL(用相同GRPO训练但仍是离散token推理)
  • Multiplex Thinking(本文方法)
---

🏁 结果一:Pass@1——短而更准的推理

表1给出的Pass@1结果是论文的主战绩。以7B为例(单位%):
  • AIME 2024:CoT 15.7,Soft 20.3,Discrete RL 17.2,Multiplex 20.6
  • AIME 2025:16.0 / 19.1 / 17.1 / 19.7
  • AMC 2023:42.4 / 47.9 / 44.7 / 50.7
  • MATH-500:71.6 / 76.5 / 74.1 / 78.0
  • Minerva:33.3 / 37.2 / 35.3 / 38.6
  • OlympiadBench:35.6 / 40.6 / 38.0 / 41.7
论文强调:Multiplex Thinking在12个设置里拿下11个最好,并且在所有任务上都超过同训练设置的Discrete RL,这说明收益并非“只是因为RL”,而是来自multiplex token表示带来的探索与压缩。

---

📈 结果二:Pass@k到1024——探索预算越大,差距越像拉开的海沟

Pass@k(k从1到1024)衡量的是:你采样k条轨迹,至少有一条答对的概率。它常被用作“模型探索上限”的代理。

论文图2显示:在难题上,Multiplex Thinking的曲线随着k增长持续上升,而离散RL更早平台化。例如在 AIME 2025 (7B)

  • Discrete RL大约在40%附近停滞
  • Multiplex Thinking继续爬升到约55%(k=1024)
作者的解释是:multiplex表示扩展了可行搜索空间,让那些在离散空间里“概率极小”的正确路径,有机会在叠加态中被保留并最终浮出水面。

同时,难度依赖也很明显:

  • 像MATH-500这种相对“解空间密集”的任务,大家都很快接近天花板,收益有限;
  • 像AIME 2025、OlympiadBench这类“解空间稀疏”的任务,multiplex保留不确定性的能力更关键,曲线差距越拉越大。
---

🧱 宽度K:从打破瓶颈到边际递减

Multiplex Thinking的关键超参是宽度 $K$(每步采样多少token)。论文在7B上测试 $K\in\{1,2,3,6\}$,其中 $K=1$ 就是离散RL。

结论非常一致:

  • K≥2 就能显著提升(“打破单token瓶颈”)
  • 从2→3→6仍有提升,但边际收益递减
  • 论文主实验默认 K=3,认为它通常足以覆盖高概率模式
这点很像现实世界的“多线程头脑”:多想一个备选往往收益巨大,但把备选从3个加到30个,增益就没那么惊艳了。

---

⏱️ 算力交换率:用更宽的token,换更短的序列

Multiplex Thinking的另一个亮点是“token效率”。论文用两组证据说明:

1. Table 3:长度预算对比

  • Discrete CoT-4k:平均准确率 35.8
  • Discrete CoT-5k:39.6(多25%长度,+2.8)
  • Multiplex Thinking-I-4k:40.5(同4k长度,却比CoT-5k还高)
这说明:提升并不等同于“多写点思考”,也可以来自“每个token更能装信息”。

2. Figure 5:训练过程中的响应长度动态 Multiplex Thinking在训练中平均生成更短的响应,但准确率更高,符合“信息密度更高”的直觉:一个multiplex token携带了多条路径的暗流。

---

🧠 熵不那么快塌:RL训练里的“耐心探索”

论文用一个简单但很有解释力的指标:熵下降比例 $$(H_\text{start}-H_\text{end})/H_\text{start}\times100$$

表4显示:

  • K=1(离散RL)熵下降 9.44%
  • K=2:5.82%
  • K=3:6.03%
  • K=6:7.09%
也就是说:multiplex训练更不容易过早变得“固执”,探索保留得更久。这和Pass@k上限更高的现象是互相呼应的。

---

🧷 聚合策略消融:平均 or 加权,差别不大

Multiplex token怎么把K个embedding合成一个向量?论文比较了:
  • 不加权平均(Averaged)
  • 按LM-head概率重加权(Weighted)
表5显示两者性能很接近,都显著优于离散RL。这提示我们:核心增益来自“把多条路径塞进一个token”的范式变化,而不是线性组合的细枝末节。

---

🎭 定性图景:推理像呼吸——有时收束,有时岔开

论文的Figure 6很有戏剧性:在一条具体推理轨迹里,multiplex token会在“共识步”和“探索步”之间切换:
  • 共识步:K个采样token一致 → 沿着稳定路径前进
  • 探索步:采样出现分歧(高熵fork)→ 多个候选被压缩进同一个token继续走
作者还把这与近期发现联系起来:高熵位置的“少数token”往往是关键分叉点,对RLVR增益贡献最大(Wang et al., 2025)。Multiplex Thinking恰好在这些位置“把岔路保留下来”,不急着做离散承诺。

---

🧭 结尾:从“写出思考”到“携带思考”

Multiplex Thinking提出了一种很耐人寻味的推理观:推理不一定要把每一步都写成文字;有些不确定性更适合以“分布的形状”存在,直到必须落笔成章的那一刻。

它在机制上做了一次精巧的折中:

  • 保留离散采样的随机性(让RL能学、能探索)
  • 用连续向量承载多候选信息(让token更密、更省)
  • 自适应地在确定与不确定之间切换(像人一样“该果断就果断,该犹豫就犹豫”)
更现实的意义在于:当我们越来越依赖“测试时扩展”(test-time scaling)去压榨模型上限时,Multiplex Thinking提供了一个新维度:不仅能在“多采样”上加码,也能在“每一步采样如何表达”上升级。

如果说传统CoT像一位严谨的书记员,一字一句记录推理;那么Multiplex Thinking更像一位会分身的侦探:在每个关键岔路口派出多个线索员,同时把所有线索压缩成一枚“高密度线索胶囊”,继续追踪真相。

而这枚胶囊,名字就叫:multiplex token

---

📚 参考文献(核心5篇)

1. Tang, Y., Dong, L., Hao, Y., Dong, Q., Wei, F., & Gu, J. (2026). *Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge*. arXiv:2601.08808v1. 2. Wei, J. et al. (2022). *Chain-of-Thought Prompting Elicits Reasoning in Large Language Models*. 3. Zhang, et al. (2025). *Soft Thinking*(论文中所述连续概念token方法)。 4. Lambert, et al. (2025). *Reinforcement Learning with Verifiable Rewards (RLVR)*(论文中背景引用)。 5. Shao, et al. (2024). *Group Relative Policy Optimization (GRPO)*(论文训练方法)。

讨论回复 (0)