一枚Token的分身术：当大模型学会“把岔路叠在一起走”

✨步子哥 (steper) • 2026年01月14日 12:23 • 0 次浏览

🌫️ 开场：在人类脑海的雾中，答案从来不是一条路

想象你站在一道数学题前，像站在一团浓雾里。你并不会立刻坚定地迈向某条小径——更常见的是，你的脑子会同时浮现几种可能的下一步：要不要换元？要不要画图？是不是可以反证？这些“岔路”并不会立刻被你扔掉，而是以一种轻柔的方式并存着，直到某个线索让其中一条路变得更亮。

论文 《Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge》（Tang et al., 2026）抓住的正是这件事：人类常常“软推理”（soft reasoning）——保留一个关于下一步的概率分布；而大语言模型的标准Chain-of-Thought（CoT）更像“硬推理”——每一步都必须选一个离散token，像在岔路口强行拍板。

CoT确实有效，但它有个难以忽视的代价：推理序列长、token开销大、探索效率低。更糟的是，如果我们希望用强化学习（RL）去优化推理（尤其是需要“试错”的 on-policy RL），离散CoT那种“先走到底再回头”的深度优先搜索（DFS）式探索，会把算力烧得像篝火晚会。

于是作者提出了一个颇具科幻感的主意：让每一步推理不再只走一条路，而是同时走K条路，但只花一个token的长度。他们把这种机制命名为——Multiplex Thinking（复用式思考）。

基于此，我们接下来要讲一个“token分身术”的故事：它如何做到“分叉-合并”，如何让连续表示与离散采样握手言和，又为什么这恰好补上了RL最需要的那块拼图。

🧩 CoT的“低带宽”：为什么推理越长越像在打字复读机

CoT的基本形式很简单：模型先生成一串“思考token”（thinking trace），再输出最终答案。论文用符号写得很清楚：给定问题

q=(q_1,\dots,q_L)

，模型

\pi_\theta

先生成思考序列

$t$

，再生成答案

$y$

：

思考：$ti \sim \pi\theta(e(q), e(t{ 小贴士：所谓“低带宽”，并不是说token本身信息量低，而是指每个时间步只能传递一个离散选择，很难在同样长度下携带“多种可能性并存”的状态。

这也是为什么近年来出现了“连续推理token”的研究：希望一个token就能塞进更多信息，让推理更省token、更像“把分布保留下来”。

🧪 Soft Thinking的温柔与硬伤：连续token很好，但它不爱冒险
论文提到的关键对照基线之一是 Soft Thinking（Zhang et al., 2025）。它的核心做法是：不用采样离散token，而是把下一步分布 $$p_i$$ 当权重，对整个词表embedding做加权平均，得到连续的“概念token”： $c_i = \sum_{k\in V} p_i(k)\, e(k).$
这招非常“温柔”：它保留了分布信息，也更省token（某种意义上“一个向量顶多个token的表达力”）。但它有一个致命弱点——确定性（determinism）。

同样的上下文 → 同样的分布 → 同样的 $$c_i$$ 。
这意味着：你再怎么rollout，轨迹几乎都是一样的。

而强化学习，尤其是on-policy RL（论文里用的是GRPO，属于PPO家族思想）最需要的恰恰是：随机性带来的探索。没有探索，你就像在赌场里永远只押同一注，输赢都学不到新东西。

作者的判断非常直接：
连续推理token必须是“基于采样的随机连续token”，否则就和RL天然不合拍。

🌱 Multiplex Thinking的核心魔法：每一步采K次，但只走一步
Multiplex Thinking的设计非常“工程师浪漫”：它不抛弃离散采样（那是RL的生命线），也不放弃连续表示（那是token效率的希望），而是把两者缝在一起。
1）每一步：独立采样K个候选token
在推理第 $$i$$ 步，模型从分布 $\pi\theta(\cdot\mid e(q), c{ 小贴士：直观上，LM-head reweighting就像在“被抽中的候选”里再做一次“按原始概率的加权投票”，让合并后的向量更尊重模型的信念结构。
3）最关键的性质：自适应
作者强调Multiplex Thinking是 self-adaptive 的：
当模型很自信（分布熵低、logits尖锐），K次采样往往都抽到同一个token → multiplex token几乎就是一个离散token → 行为接近标准CoT。
当模型不确定（熵高），采样会出现分歧 → multiplex token把多条可能性压缩进一个向量 → 不增加序列长度，却保留了“分岔”。
这听起来像一种“自动变速器”：路况简单就一脚油门直走，路口复杂就挂低档慢慢探路，但无论如何你的行程长度不膨胀。

🎲 概率语义与RL：为什么这次连续token终于能“被训练”
前面说连续token方法常与RL不合拍，一个原因是：你很难定义“连续token轨迹”的概率，从而难以写出标准的策略梯度目标。
Multiplex Thinking最漂亮的一笔在于：它仍然由K个独立离散采样组成，所以概率可以显式写出来，并且天然因子化。

论文给出整条multiplex思考轨迹 $$c$$ 的对数概率：
$\log \pi(c \mid e(q)) = \sum_{i=1}^{|c|}\sum_{j=1}^K \log \pi_\theta(k_{i,j}\mid e(q), c_{ **小贴士**：你可以把它看成“把推理（thinking trace）本身也当作策略的一部分”，奖励不仅影响最终答案生成，也反向塑形推理过程的采样分布。 --- ## 🌡️ **熵的故事：探索体积从 |V| 变成 |V|^K** 如果说上面是“可训练性”的数学支柱，那么熵分析就是“为什么更会探索”的解释。离散CoT在第 $i$ 步采样一个token，其熵是标准香农熵：$

H{\text{CoT}}(i) = -\sum{v\in V}\pi\theta(v\mid q,t{\theta(v\mid q,t{

Multiplex Thinking在一步里采K次，构成复合动作 $K_i=\{k_{i,1},\dots,k_{i,K}\}$，在独立假设下联合熵为：

H(Ki)=K\cdot H(\pi\theta(q,c{
$这条结论非常直觉：采样K次就像你把“探索的骰子”掷了K遍。熵线性增长，对应的有效探索空间从 $|V|$ 级别膨胀到 $|V|^K$。作者把这描述为：Multiplex Thinking能在连续空间里编码K条路径的“叠加态”，更像广度优先（BFS）地保留多个可能，而不是离散CoT那种一条路走到黑。 --- ## 🏗️ **实验舞台：两种骨干、六个数据集、一套RL训练** 论文的实验设置相当清晰，核心点包括： ### **模型骨干** - DeepSeek-R1-Distill-Qwen-1.5B - DeepSeek-R1-Distill-Qwen-7B ### **训练方法** - 使用 **GRPO (Group Relative Policy Optimization)** - 训练300 steps，batch size 128 - 学习率 $1\times 10^{-6}$ - KL penalty = 0，entropy penalty = 0 - 最大响应长度 4096 - 训练时每题rollout 8条，temperature 1.0，top-p 1.0 ### **评测数据集（6个）** AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench ### **对比基线** - Discrete CoT（不训练的标准CoT） - Stochastic Soft Thinking（Wu et al., 2025，使用Gumbel-Softmax注入随机性） - Discrete RL（用相同GRPO训练但仍是离散token推理） - Multiplex Thinking（本文方法） --- ## 🏁 **结果一：Pass@1——短而更准的推理** 表1给出的Pass@1结果是论文的主战绩。以7B为例（单位%）： - AIME 2024：CoT 15.7，Soft 20.3，Discrete RL 17.2，**Multiplex 20.6** - AIME 2025：16.0 / 19.1 / 17.1 / **19.7** - AMC 2023：42.4 / 47.9 / 44.7 / **50.7** - MATH-500：71.6 / 76.5 / 74.1 / **78.0** - Minerva：33.3 / 37.2 / 35.3 / **38.6** - OlympiadBench：35.6 / 40.6 / 38.0 / **41.7** 论文强调：**Multiplex Thinking在12个设置里拿下11个最好**，并且在所有任务上都超过同训练设置的Discrete RL，这说明收益并非“只是因为RL”，而是来自multiplex token表示带来的探索与压缩。 --- ## 📈 **结果二：Pass@k到1024——探索预算越大，差距越像拉开的海沟** Pass@k（k从1到1024）衡量的是：你采样k条轨迹，至少有一条答对的概率。它常被用作“模型探索上限”的代理。论文图2显示：在难题上，Multiplex Thinking的曲线随着k增长持续上升，而离散RL更早平台化。例如在 **AIME 2025 (7B)**： - Discrete RL大约在40%附近停滞 - Multiplex Thinking继续爬升到约55%（k=1024）作者的解释是：**multiplex表示扩展了可行搜索空间**，让那些在离散空间里“概率极小”的正确路径，有机会在叠加态中被保留并最终浮出水面。同时，难度依赖也很明显： - 像MATH-500这种相对“解空间密集”的任务，大家都很快接近天花板，收益有限； - 像AIME 2025、OlympiadBench这类“解空间稀疏”的任务，multiplex保留不确定性的能力更关键，曲线差距越拉越大。 --- ## 🧱 **宽度K：从打破瓶颈到边际递减** Multiplex Thinking的关键超参是宽度 $K$（每步采样多少token）。论文在7B上测试 $K\in\{1,2,3,6\}$，其中 $K=1$ 就是离散RL。结论非常一致： - **K≥2** 就能显著提升（“打破单token瓶颈”） - 从2→3→6仍有提升，但**边际收益递减** - 论文主实验默认 **K=3**，认为它通常足以覆盖高概率模式这点很像现实世界的“多线程头脑”：多想一个备选往往收益巨大，但把备选从3个加到30个，增益就没那么惊艳了。 --- ## ⏱️ **算力交换率：用更宽的token，换更短的序列** Multiplex Thinking的另一个亮点是“token效率”。论文用两组证据说明： 1. **Table 3：长度预算对比** - Discrete CoT-4k：平均准确率 35.8 - Discrete CoT-5k：39.6（多25%长度，+2.8） - Multiplex Thinking-I-4k：**40.5**（同4k长度，却比CoT-5k还高）这说明：**提升并不等同于“多写点思考”**，也可以来自“每个token更能装信息”。 2. **Figure 5：训练过程中的响应长度动态** Multiplex Thinking在训练中平均生成更短的响应，但准确率更高，符合“信息密度更高”的直觉：一个multiplex token携带了多条路径的暗流。 --- ## 🧠 **熵不那么快塌：RL训练里的“耐心探索”** 论文用一个简单但很有解释力的指标：熵下降比例$
(H\text{start}-H\text{end})/H_\text{start}\times100$$

表4显示：

K=1（离散RL）熵下降 9.44%
K=2：5.82%
K=3：6.03%
K=6：7.09%

也就是说：multiplex训练更不容易过早变得“固执”，探索保留得更久。这和Pass@k上限更高的现象是互相呼应的。

🧷 聚合策略消融：平均 or 加权，差别不大
Multiplex token怎么把K个embedding合成一个向量？论文比较了：
不加权平均（Averaged）
按LM-head概率重加权（Weighted）
表5显示两者性能很接近，都显著优于离散RL。这提示我们：核心增益来自“把多条路径塞进一个token”的范式变化，而不是线性组合的细枝末节。

🎭 定性图景：推理像呼吸——有时收束，有时岔开
论文的Figure 6很有戏剧性：在一条具体推理轨迹里，multiplex token会在“共识步”和“探索步”之间切换：
共识步：K个采样token一致 → 沿着稳定路径前进
探索步：采样出现分歧（高熵fork）→ 多个候选被压缩进同一个token继续走
作者还把这与近期发现联系起来：高熵位置的“少数token”往往是关键分叉点，对RLVR增益贡献最大（Wang et al., 2025）。Multiplex Thinking恰好在这些位置“把岔路保留下来”，不急着做离散承诺。

🧭 结尾：从“写出思考”到“携带思考”
Multiplex Thinking提出了一种很耐人寻味的推理观：推理不一定要把每一步都写成文字；有些不确定性更适合以“分布的形状”存在，直到必须落笔成章的那一刻。
它在机制上做了一次精巧的折中：

保留离散采样的随机性（让RL能学、能探索）
用连续向量承载多候选信息（让token更密、更省）
自适应地在确定与不确定之间切换（像人一样“该果断就果断，该犹豫就犹豫”）

更现实的意义在于：当我们越来越依赖“测试时扩展”（test-time scaling）去压榨模型上限时，Multiplex Thinking提供了一个新维度：不仅能在“多采样”上加码，也能在“每一步采样如何表达”上升级。

如果说传统CoT像一位严谨的书记员，一字一句记录推理；那么Multiplex Thinking更像一位会分身的侦探：在每个关键岔路口派出多个线索员，同时把所有线索压缩成一枚“高密度线索胶囊”，继续追踪真相。

而这枚胶囊，名字就叫：multiplex token。

📚 参考文献（核心5篇）

Tang, Y., Dong, L., Hao, Y., Dong, Q., Wei, F., & Gu, J. (2026). Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge. arXiv:2601.08808v1.
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
Zhang, et al. (2025). Soft Thinking（论文中所述连续概念token方法）。
Lambert, et al. (2025). Reinforcement Learning with Verifiable Rewards (RLVR)（论文中背景引用）。
Shao, et al. (2024). Group Relative Policy Optimization (GRPO)（论文训练方法）。

一枚Token的分身术：当大模型学会“把岔路叠在一起走”

🌫️ 开场：在人类脑海的雾中，答案从来不是一条路

🧩 CoT的“低带宽”：为什么推理越长越像在打字复读机

🧪 Soft Thinking的温柔与硬伤：连续token很好，但它不爱冒险

🌱 Multiplex Thinking的核心魔法：每一步采K次，但只走一步

1）每一步：独立采样K个候选token

3）最关键的性质：自适应

🎲 概率语义与RL：为什么这次连续token终于能“被训练”

🧷 聚合策略消融：平均 or 加权，差别不大

🎭 定性图景：推理像呼吸——有时收束，有时岔开

🧭 结尾：从“写出思考”到“携带思考”

📚 参考文献（核心5篇）

讨论回复

推荐