Switch深度解析:一对<swi>标记如何同时解决「Latent RL训练」和「隐状态不可解释」两大难题
Switch深度解析:一对边界标记如何同时解决「RL训练难」和「隐状态不可解释」两大难题
> 论文:*Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning* > 作者:Jiayu Yang, Chao Chen, Shengen Wu, Yinhong Liu, Yuxuan Fan, Lujundong Li, Songning Lai, Chengwei Qin, Zhijiang Guo (HKUST(GZ), Cambridge, NTU, JoinQuant, HKUST) > 论文链接:https://arxiv.org/abs/2606.13106 > 代码:https://github.com/LARK-AI-Lab/SWITCH
---
一、背景:隐状态推理是宝藏,但有两个「硬骨头」
1.1 Latent Chain-of-Thought(Latent CoT)
大模型推理的传统做法是用可见的文本链(Chain-of-Thought):
Q: 小明有3个苹果,吃了1个,还剩几个?
A: 先算3-1=2,所以答案是2。
但文本推理占token、慢、且可能泄露内部思路。于是有人提出隐状态推理(Latent CoT):用连续的隐藏状态替代可见文本步骤。Coconut(Hao et al., 2025)的做法是:上一步的最后一层隐藏状态直接作为下一步的输入嵌入,在模型的表示空间内完成推理,不输出任何token。
这很优雅——利用模型已有的前向传播完成内部计算,不引入额外架构。
1.2 两大硬骨头
骨头1:On-policy RL训练不了
GRPO(Group Relative Policy Optimization)现在是推理模型对齐的标准工具(DeepSeek-R1等)。但GRPO要求每个位置都有可采样的token分布和策略密度。
Latent位置不输出token,没有采样分布,没有策略密度。所以标准GRPO在latent块内部是undefined的。现有方法要么跳过RL,要么用"text-only rollouts"训练,但训练轨迹和推理时的decoder路径不一致——训练时走文本路径,推理时走latent路径,导致train-test mismatch。
骨头2:隐状态不可解释
Latent位置夹在连续的文本中,没有可抓的token。分析师想知道:latent步骤真的在做有用的推理计算,还是只是一个inert placeholder(惰性占位符),实际工作由周围的文本完成?
这个问题在"non-decoding thinking tokens"(Goyal et al., 2024)领域已被反复讨论,但在hidden-state-recurrence中仍是open question。
---
二、Switch的核心洞察:一对边界标记,同时解决两个问题
论文的洞察力极其简洁:
> 两个问题的根因相同——latent块没有明确的边界。如果有边界,RL就有了策略密度的锚点,分析就有了干预的抓手。
所以作者提出了
:进入latent模式:退出latent模式,恢复文本解码- 中间是K个
位置,用Coconut风格的hidden-state recurrence完成推理
2.1 为什么这能解决RL问题?
因为和是普通的离散token,它们有标准的策略分布和概率密度。GRPO的importance ratio在和位置是well-defined的。latent位置本身不输出token,所以不产生策略梯度项——但边界标记的决策(是否进入latent、何时退出)是可以被RL优化的。
作者重新定义了rollout likelihood的factorization:
- Rollout execution:训练和推理用完全相同的多前向传播decoder,训练时看到的轨迹就是推理时产生的轨迹(解决train-test mismatch)
- Likelihood factorization:hidden-state injection是deterministic的(给定前面的文本),所以rollout likelihood只在文本位置factor。GRPO ratio在
、和可见answer token上都是well-defined的
2.2 为什么这能解决可解释性问题?
边界标记给了分析师三个抓手:
1. 读p(
---
三、三阶段训练:从可见CoT到可切换隐式推理
Phase 1: SFT定位Switch位置(Switch-SFT Part 1)
- 在数学CoT语料上,测量每个位置的基础模型Shannon entropy
- 高entropy位置 = 模型不确定下一步推理的位置
- 将连续的高entropy区间用
/包裹 - 用这个标注后的语料做标准next-token cross-entropy SFT
Phase 2: Latent Curriculum(Switch-SFT Part 2)
逐步将/区间内的文本替换为位置。
这里有个关键设计——parallel vs sequential curriculum(Figure 2):
- Sequential:一次只替换一个span,其余保持文本。模型可以"偷懒"——只替换的那个span走latent,其余走标准文本,模型不需要真正在latent空间计算
- Parallel(默认):同时替换所有span,逐步增加每个span的latent步数。这迫使模型必须在latent空间产生有用的hidden states,因为周围的文本依赖这些hidden states
Phase 3: Switch-GRPO(强化学习)
对Switch-SFT checkpoint做GRPO优化。奖励函数由四个加权项组成:
1. Correctness Reward(±1):math-verify判断答案对错,主导信号
2. Tag-format Reward(±1):强制/格式正确
3. Latent-usage Reward(0/1):正确答案使用了时奖励,鼓励模型走latent路径而非纯文本捷径
4. Brevity Bonus(可选,[0,1]):correctness-gated的简洁奖励,控制输出长度
Switch-GRPO的核心创新:由于和是标准token,GRPO的policy ratio在边界位置是well-defined的。latent位置虽然没有直接策略梯度,但边界位置的决策(是否进入latent、进入多久)通过奖励函数间接优化了latent推理的质量。
---
四、实验:MATH-500 79.3%,比同规模baseline高25.7%
4.1 主结果(Table 1)
所有方法共享Qwen3-8B base模型,在matched数据和解码设置下对比:
| 方法 | MATH-500 | GSM8K | 可见Tokens |
|---|---|---|---|
| No-CoT(直接回答) | 34.7% | 72.8% | 45 |
| Text-CoT SFT | 49.2% | 82.3% | 3100 |
| iCoT(Pause Tokens) | 37.2% | 75.1% | 120 |
| Coconut(latent) | 53.6% | 83.7% | 3800 |
| CODI(latent改进) | 56.8% | 84.5% | 3400 |
| CoLaR(latent+RL) | 62.5% | 85.2% | 2900 |
| Switch(本文) | 79.3% | 89.2% | 1900 |
更关键的是效率:Switch平均只产生1900个可见token,远低于Text-CoT的3100和Coconut的3800。它用更少的可见文本,做了更多(隐式)推理,得到更高的准确率。
4.2 Switch-GRPO到底加了什么?
作者对比了Switch-SFT(curriculum-only)checkpoint和Switch-GRPO(加RL后)在同设置下的表现:
- Latent-conditional accuracy(只在模型调用了
的问题上的准确率):从SFT的某水平 → +12.6个百分点,这是RL单独带来的增益 - Switch rate(调用latent的比例):从81% → 58%
Figure 3显示训练轨迹:随着RL进行,每问题的latent调用次数从~1.5降到~1,可见token使用量从~2900收缩到~1900。模型在"校准"它的switch策略。
4.3 按学科/难度分解
- 最强:Algebra 88.7%,Prealgebra 80.5%,Number Theory 79.0%
- 准确率从Level 1的93.0%平滑下降到Level 5的53.7%,没有突然的断崖
4.4 Accuracy-Efficiency操作曲线
通过调整Switch-GRPO reward中的brevity bonus,用户可以在accuracy-length曲线上选择操作点:
- 标准点:79.3%准确率,~1900 tokens
- 简洁点:~76%准确率,~1300 tokens(缩短33%),0%触及max-length truncation
---
五、机制分析:边界标记让隐状态推理「可解剖」
这是论文最有价值的部分。作者用/作为锚点,回答了三个核心问题:
Q1: 是一个学到的策略,还是风格伪影?
结论:是一个 sharply localized, learned switching policy。
证据:
- p(
)在问题中的分布不是随机的,而是集中在特定位置(通常在问题陈述后、计算开始前) - 通过logit lens和线性探测,可以区分"模型即将进入latent"和"模型继续文本解码"的激活模式
- 这不是简单的格式学习——模型在不同难度/类型的问题上选择不同的switch时机
Q2: Latent步骤真的在做有用的计算,还是占位符?
结论:Latent步骤确实在执行问题相关的、因果上重要的计算。
证据:
- 对latent hidden state做因果干预(替换为其他问题的latent state),答案正确率显著下降
- 如果latent只是占位符,干预应该不影响结果——但实际影响巨大,说明latent state承载了任务相关的信息
- 对比实验:将latent block替换为相同长度的纯文本,表现差于latent版本
Q3: 计算集中在哪里?
结论:集中在latent block的入口处的单个hidden-state transition。
证据:
- 对latent block内部的各个step分别做干预,发现入口的第一个latent step的影响最大
- 后续latent steps的影响递减
- 这与Coconut的观察一致:latent推理的主要"重计算"发生在进入latent空间的那一刻,后续步骤更多是细化和传播
六、为什么这篇论文重要?
6.1 第一个真正解决了「Latent RL训练」问题
之前的工作要么放弃RL(Coconut),要么用text-only rollouts训练(导致train-test mismatch)。Switch证明:只要引入显式边界标记,标准GRPO就可以天然适配hidden-state-recurrence,不需要修改RL算法本身。
6.2 第一个让Latent推理「可验证」
所有latent推理论文都面临一个质疑:"latent真的在做推理,还是只是占位符?"Switch通过边界标记给出了可重复的实验方法来回答这个问题。这在latent CoT领域是一个范式级的贡献。
6.3 Switchable的设计哲学
Switch不是强制模型在所有问题上都走latent,而是让模型学会自己选择。RL后switch rate从81%降到58%,说明模型学会了"latent是有代价的,只在值得的问题上用"。这比强制latent更优雅,也更接近人类的推理模式(简单问题直觉回答,复杂问题深入思考)。
6.4 与现有工作的关系
| 方法 | 是否支持RL | 是否可解释 | 是否可切换 |
|---|---|---|---|
| Coconut | ❌ | ❌ | ❌ |
| CODI/CoLaR | ⚠️ text-only | ❌ | ❌ |
| Vocabulary Mixtures | ✅ | ⚠️ | ❌ |
| Pause Tokens | ❌ | ⚠️ | ❌ |
| Switch | ✅ | ✅ | ✅ |
七、局限与未来
1. Kmin约束:需要强制的最小latent步数(Kmin=4),否则模型会立刻exit。这说明latent推理的"惯性"还不够强,需要外部约束 2. Qwen3-8B限定:实验只在Qwen3-8B上做了,更大模型(如Qwen3-72B、DeepSeek-V3.2)上的表现待验证 3. 领域局限:只在数学推理上做了实验,其他领域(如代码、逻辑、常识)的泛化性待验证 4. Latent步数上限:Kmax=8,对于需要超长推理链的问题可能不够
---
八、总结
Switch用一个极简的primitive(一对/边界标记)同时解决了latent推理的两个根本难题:
1. 训练难题:边界标记让标准GRPO在latent setting中well-defined,实现真正的on-policy RL 2. 可解释难题:边界标记提供了分析锚点,让latent计算可以被直接探测和因果干预
实验结果非常坚实:MATH-500 79.3%(+25.7% over baseline),同时visible tokens只有1900(比text-CoT少38%)。机制分析进一步证明latent steps不是占位符,而是真的在做问题相关的计算。
对于推理模型的设计者来说,Switch提供了一个关键启示:显式边界不是限制,而是解放。它让隐式推理获得了训练信号和可解释性,而这正是latent CoT从"玩具"走向"实用"的必经之路。
---
参考文献:
- Yang, J., et al. (2026). Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning. *arXiv preprint arXiv:2606.13106*.
- Hao, S., et al. (2025). Training Large Language Models to Reason in a Continuous Latent Space. *arXiv*.
- DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv*.
#AI #大语言模型 #LLM #推理优化 #隐式推理 #LatentCoT #强化学习 #GRPO #数学推理 #可解释性 #机制分析 #深度学习 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens