一枚Token的分身术：当大模型学会“把岔路叠在一起走”

✨步子哥 (steper) • 2026年01月14日 12:23
                        ## 🌫️ **开场：在人类脑海的雾中，答案从来不是一条路**
想象你站在一道数学题前，像站在一团浓雾里。你并不会立刻坚定地迈向某条小径——更常见的是，你的脑子会同时浮现几种可能的下一步：要不要换元？要不要画图？是不是可以反证？这些“岔路”并不会立刻被你扔掉，而是以一种轻柔的方式并存着，直到某个线索让其中一条路变得更亮。

论文 **《Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge》**（Tang et al., 2026）抓住的正是这件事：**人类常常“软推理”（soft reasoning）——保留一个关于下一步的概率分布；而大语言模型的标准Chain-of-Thought（CoT）更像“硬推理”——每一步都必须选一个离散token，像在岔路口强行拍板。**

CoT确实有效，但它有个难以忽视的代价：**推理序列长、token开销大、探索效率低**。更糟的是，如果我们希望用强化学习（RL）去优化推理（尤其是需要“试错”的 on-policy RL），离散CoT那种“先走到底再回头”的深度优先搜索（DFS）式探索，会把算力烧得像篝火晚会。

于是作者提出了一个颇具科幻感的主意：**让每一步推理不再只走一条路，而是同时走K条路，但只花一个token的长度。**他们把这种机制命名为——**Multiplex Thinking（复用式思考）**。

基于此，我们接下来要讲一个“token分身术”的故事：它如何做到“分叉-合并”，如何让连续表示与离散采样握手言和，又为什么这恰好补上了RL最需要的那块拼图。

---

## 🧩 **CoT的“低带宽”：为什么推理越长越像在打字复读机**
CoT的基本形式很简单：模型先生成一串“思考token”（thinking trace），再输出最终答案。论文用符号写得很清楚：给定问题 $q=(q_1,\dots,q_L)$，模型 $\pi_\theta$ 先生成思考序列 $t$，再生成答案 $y$：

- 思考：$t_i \sim \pi_\theta(e(q), e(t_{<i}))$  
- 答案：$y_i \sim \pi_\theta(e(q), e(t), e(y_{<i}))$

这里 $E\in\mathbb{R}^{|V|\times d}$ 是词表嵌入矩阵，$e(k)=E[k]$ 是token $k$的embedding。

问题在于：**每一步 $t_i$ 都必须采样一个离散token**。这意味着：
1. 模型下一步的完整分布（可能包含大量“差一点点就对”的候选）被压扁成一个符号。
2. 你想探索多个可能路径，只能多采几条完整CoT轨迹——每条都很长、很贵。
3. 探索更像DFS：每次采样都“押注”一条路，走错了就浪费整条轨迹。

> **小贴士**：所谓“低带宽”，并不是说token本身信息量低，而是指**每个时间步只能传递一个离散选择**，很难在同样长度下携带“多种可能性并存”的状态。

这也是为什么近年来出现了“连续推理token”的研究：希望一个token就能塞进更多信息，让推理更省token、更像“把分布保留下来”。

---

## 🧪 **Soft Thinking的温柔与硬伤：连续token很好，但它不爱冒险**
论文提到的关键对照基线之一是 **Soft Thinking（Zhang et al., 2025）**。它的核心做法是：不用采样离散token，而是把下一步分布 $p_i$ 当权重，对整个词表embedding做加权平均，得到连续的“概念token”：

$$
c_i = \sum_{k\in V} p_i(k)\, e(k).
$$

这招非常“温柔”：它保留了分布信息，也更省token（某种意义上“一个向量顶多个token的表达力”）。但它有一个致命弱点——**确定性（determinism）**。

同样的上下文 → 同样的分布 → 同样的 $c_i$。  
这意味着：**你再怎么rollout，轨迹几乎都是一样的**。

而强化学习，尤其是on-policy RL（论文里用的是GRPO，属于PPO家族思想）最需要的恰恰是：**随机性带来的探索**。没有探索，你就像在赌场里永远只押同一注，输赢都学不到新东西。

作者的判断非常直接：  
**连续推理token必须是“基于采样的随机连续token”，否则就和RL天然不合拍。**

---

## 🌱 **Multiplex Thinking的核心魔法：每一步采K次，但只走一步**
Multiplex Thinking的设计非常“工程师浪漫”：它不抛弃离散采样（那是RL的生命线），也不放弃连续表示（那是token效率的希望），而是把两者缝在一起。

### **1）每一步：独立采样K个候选token**
在推理第 $i$ 步，模型从分布 $\pi_\theta(\cdot\mid e(q), c_{<i})$ **独立采样K次**：
$$
k_{i,1}, k_{i,2}, \dots, k_{i,K} \sim \pi_\theta(\cdot\mid e(q), c_{<i}).
$$

你可以把它想象成：同一个岔路口，模型同时派出K个“分身”去试探下一步可能走向。

### **2）把K个离散token合并成一个“multiplex token”**
作者先把采样得到的K个token转为one-hot向量 $z_{i,j}$，再平均：
$$
s_i=\frac{1}{K}\sum_{j=1}^K z_{i,j}.
$$

- 当 $K=1$：$s_i=z_{i,1}$，退化为普通离散CoT。
- 当 $K\to\infty$：经验分布趋近于LM head给出的真实分布。

然后把 $s_i$ 映射回embedding空间，并加入一个词表空间的权重向量 $w_i$：
$$
c_i = E^\top (s_i \odot w_i).
$$

这里作者讨论了两种 $w_i$：

- **Uniform averaging**：$w_i[v]=1$，就是直接平均embedding。
- **LM-head reweighting（默认）**：只对被采样到的token重新按概率加权并缩放，使表示更贴近模型“自信程度”。

> **小贴士**：直观上，LM-head reweighting就像在“被抽中的候选”里再做一次“按原始概率的加权投票”，让合并后的向量更尊重模型的信念结构。

### **3）最关键的性质：自适应**
作者强调Multiplex Thinking是 **self-adaptive** 的：
- 当模型很自信（分布熵低、logits尖锐），K次采样往往都抽到同一个token → multiplex token几乎就是一个离散token → 行为接近标准CoT。
- 当模型不确定（熵高），采样会出现分歧 → multiplex token把多条可能性压缩进一个向量 → 不增加序列长度，却保留了“分岔”。

这听起来像一种“自动变速器”：路况简单就一脚油门直走，路口复杂就挂低档慢慢探路，但无论如何你的行程长度不膨胀。

---

## 🎲 **概率语义与RL：为什么这次连续token终于能“被训练”**
前面说连续token方法常与RL不合拍，一个原因是：你很难定义“连续token轨迹”的概率，从而难以写出标准的策略梯度目标。

Multiplex Thinking最漂亮的一笔在于：**它仍然由K个独立离散采样组成**，所以概率可以显式写出来，并且天然因子化。

论文给出整条multiplex思考轨迹 $c$ 的对数概率：
$$
\log \pi(c \mid e(q)) = \sum_{i=1}^{|c|}\sum_{j=1}^K \log \pi_\theta(k_{i,j}\mid e(q), c_{<i}).
$$

注意：这里的 $c_i$ 是连续向量，但它背后对应的“生成动作”是 $(k_{i,1},\dots,k_{i,K})$ 这个离散复合动作；而在独立采样假设下，联合概率就是乘积，log就是求和。

有了这条链路，作者就能定义一个直接优化multiplex轨迹的强化学习目标（结合RLVR的可验证奖励）：

$$
J_{\text{RL}}(\theta) =
\mathbb{E}_{(q,y^\star)\sim D,\; c\sim\pi_\theta(\cdot|q),\; y\sim\pi_\theta(\cdot|q,c)}
\left[ \big(\log \pi_\theta(c|e(q)) + \log \pi_\theta(y|e(q),c)\big)\cdot v(y,y^\star)\right].
$$

这里 $v(y,y^\star)$ 是可验证奖励（答对/答错之类），与论文背景中的RLVR一致。

> **小贴士**：你可以把它看成“把推理（thinking trace）本身也当作策略的一部分”，奖励不仅影响最终答案生成，也反向塑形推理过程的采样分布。

---

## 🌡️ **熵的故事：探索体积从 |V| 变成 |V|^K**
如果说上面是“可训练性”的数学支柱，那么熵分析就是“为什么更会探索”的解释。

离散CoT在第 $i$ 步采样一个token，其熵是标准香农熵：
$$
H_{\text{CoT}}(i) = -\sum_{v\in V}\pi_\theta(v\mid q,t_{<i})\log \pi_\theta(v\mid q,t_{<i}).
$$

Multiplex Thinking在一步里采K次，构成复合动作 $K_i=\{k_{i,1},\dots,k_{i,K}\}$，在独立假设下联合熵为：
$$
H(K_i)=K\cdot H(\pi_\theta(q,c_{<i})).
$$

这条结论非常直觉：采样K次就像你把“探索的骰子”掷了K遍。熵线性增长，对应的有效探索空间从 $|V|$ 级别膨胀到 $|V|^K$。

作者把这描述为：Multiplex Thinking能在连续空间里编码K条路径的“叠加态”，更像广度优先（BFS）地保留多个可能，而不是离散CoT那种一条路走到黑。

---

## 🏗️ **实验舞台：两种骨干、六个数据集、一套RL训练**
论文的实验设置相当清晰，核心点包括：

### **模型骨干**
- DeepSeek-R1-Distill-Qwen-1.5B  
- DeepSeek-R1-Distill-Qwen-7B

### **训练方法**
- 使用 **GRPO (Group Relative Policy Optimization)**  
- 训练300 steps，batch size 128  
- 学习率 $1\times 10^{-6}$  
- KL penalty = 0，entropy penalty = 0  
- 最大响应长度 4096  
- 训练时每题rollout 8条，temperature 1.0，top-p 1.0

### **评测数据集（6个）**
AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench

### **对比基线**
- Discrete CoT（不训练的标准CoT）
- Stochastic Soft Thinking（Wu et al., 2025，使用Gumbel-Softmax注入随机性）
- Discrete RL（用相同GRPO训练但仍是离散token推理）
- Multiplex Thinking（本文方法）

---

## 🏁 **结果一：Pass@1——短而更准的推理**
表1给出的Pass@1结果是论文的主战绩。以7B为例（单位%）：

- AIME 2024：CoT 15.7，Soft 20.3，Discrete RL 17.2，**Multiplex 20.6**
- AIME 2025：16.0 / 19.1 / 17.1 / **19.7**
- AMC 2023：42.4 / 47.9 / 44.7 / **50.7**
- MATH-500：71.6 / 76.5 / 74.1 / **78.0**
- Minerva：33.3 / 37.2 / 35.3 / **38.6**
- OlympiadBench：35.6 / 40.6 / 38.0 / **41.7**

论文强调：**Multiplex Thinking在12个设置里拿下11个最好**，并且在所有任务上都超过同训练设置的Discrete RL，这说明收益并非“只是因为RL”，而是来自multiplex token表示带来的探索与压缩。

---

## 📈 **结果二：Pass@k到1024——探索预算越大，差距越像拉开的海沟**
Pass@k（k从1到1024）衡量的是：你采样k条轨迹，至少有一条答对的概率。它常被用作“模型探索上限”的代理。

论文图2显示：在难题上，Multiplex Thinking的曲线随着k增长持续上升，而离散RL更早平台化。例如在 **AIME 2025 (7B)**：
- Discrete RL大约在40%附近停滞
- Multiplex Thinking继续爬升到约55%（k=1024）

作者的解释是：**multiplex表示扩展了可行搜索空间**，让那些在离散空间里“概率极小”的正确路径，有机会在叠加态中被保留并最终浮出水面。

同时，难度依赖也很明显：
- 像MATH-500这种相对“解空间密集”的任务，大家都很快接近天花板，收益有限；
- 像AIME 2025、OlympiadBench这类“解空间稀疏”的任务，multiplex保留不确定性的能力更关键，曲线差距越拉越大。

---

## 🧱 **宽度K：从打破瓶颈到边际递减**
Multiplex Thinking的关键超参是宽度 $K$（每步采样多少token）。论文在7B上测试 $K\in\{1,2,3,6\}$，其中 $K=1$ 就是离散RL。

结论非常一致：

- **K≥2** 就能显著提升（“打破单token瓶颈”）
- 从2→3→6仍有提升，但**边际收益递减**
- 论文主实验默认 **K=3**，认为它通常足以覆盖高概率模式

这点很像现实世界的“多线程头脑”：多想一个备选往往收益巨大，但把备选从3个加到30个，增益就没那么惊艳了。

---

## ⏱️ **算力交换率：用更宽的token，换更短的序列**
Multiplex Thinking的另一个亮点是“token效率”。论文用两组证据说明：

1. **Table 3：长度预算对比**  
   - Discrete CoT-4k：平均准确率 35.8  
   - Discrete CoT-5k：39.6（多25%长度，+2.8）  
   - Multiplex Thinking-I-4k：**40.5**（同4k长度，却比CoT-5k还高）

这说明：**提升并不等同于“多写点思考”**，也可以来自“每个token更能装信息”。

2. **Figure 5：训练过程中的响应长度动态**  
   Multiplex Thinking在训练中平均生成更短的响应，但准确率更高，符合“信息密度更高”的直觉：一个multiplex token携带了多条路径的暗流。

---

## 🧠 **熵不那么快塌：RL训练里的“耐心探索”**
论文用一个简单但很有解释力的指标：熵下降比例  
$$(H_\text{start}-H_\text{end})/H_\text{start}\times100$$

表4显示：
- K=1（离散RL）熵下降 9.44%
- K=2：5.82%
- K=3：6.03%
- K=6：7.09%

也就是说：**multiplex训练更不容易过早变得“固执”**，探索保留得更久。这和Pass@k上限更高的现象是互相呼应的。

---

## 🧷 **聚合策略消融：平均 or 加权，差别不大**
Multiplex token怎么把K个embedding合成一个向量？论文比较了：
- 不加权平均（Averaged）
- 按LM-head概率重加权（Weighted）

表5显示两者性能很接近，都显著优于离散RL。这提示我们：**核心增益来自“把多条路径塞进一个token”的范式变化，而不是线性组合的细枝末节。**

---

## 🎭 **定性图景：推理像呼吸——有时收束，有时岔开**
论文的Figure 6很有戏剧性：在一条具体推理轨迹里，multiplex token会在“共识步”和“探索步”之间切换：

- 共识步：K个采样token一致 → 沿着稳定路径前进
- 探索步：采样出现分歧（高熵fork）→ 多个候选被压缩进同一个token继续走

作者还把这与近期发现联系起来：**高熵位置的“少数token”往往是关键分叉点，对RLVR增益贡献最大（Wang et al., 2025）**。Multiplex Thinking恰好在这些位置“把岔路保留下来”，不急着做离散承诺。

---

## 🧭 **结尾：从“写出思考”到“携带思考”**
Multiplex Thinking提出了一种很耐人寻味的推理观：推理不一定要把每一步都写成文字；有些不确定性更适合以“分布的形状”存在，直到必须落笔成章的那一刻。

它在机制上做了一次精巧的折中：
- **保留离散采样的随机性**（让RL能学、能探索）
- **用连续向量承载多候选信息**（让token更密、更省）
- **自适应地在确定与不确定之间切换**（像人一样“该果断就果断，该犹豫就犹豫”）

更现实的意义在于：当我们越来越依赖“测试时扩展”（test-time scaling）去压榨模型上限时，Multiplex Thinking提供了一个新维度：**不仅能在“多采样”上加码，也能在“每一步采样如何表达”上升级。**

如果说传统CoT像一位严谨的书记员，一字一句记录推理；那么Multiplex Thinking更像一位会分身的侦探：在每个关键岔路口派出多个线索员，同时把所有线索压缩成一枚“高密度线索胶囊”，继续追踪真相。

而这枚胶囊，名字就叫：**multiplex token**。

---

## 📚 参考文献（核心5篇）
1. Tang, Y., Dong, L., Hao, Y., Dong, Q., Wei, F., & Gu, J. (2026). *Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge*. arXiv:2601.08808v1.  
2. Wei, J. et al. (2022). *Chain-of-Thought Prompting Elicits Reasoning in Large Language Models*.  
3. Zhang, et al. (2025). *Soft Thinking*（论文中所述连续概念token方法）。  
4. Lambert, et al. (2025). *Reinforcement Learning with Verifiable Rewards (RLVR)*（论文中背景引用）。  
5. Shao, et al. (2024). *Group Relative Policy Optimization (GRPO)*（论文训练方法）。                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
一枚Token的分身术：当大模型学会“把岔路叠在一起走”

讨论回复

推荐