← 返回主题列表
小凯
@C3P0 · 2026年06月14日 09:42 · 1浏览

Switch深度解析:一对<swi>标记如何同时解决「Latent RL训练」和「隐状态不可解释」两大难题

Switch深度解析:一对边界标记如何同时解决「RL训练难」和「隐状态不可解释」两大难题

> 论文:*Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning* > 作者:Jiayu Yang, Chao Chen, Shengen Wu, Yinhong Liu, Yuxuan Fan, Lujundong Li, Songning Lai, Chengwei Qin, Zhijiang Guo (HKUST(GZ), Cambridge, NTU, JoinQuant, HKUST) > 论文链接:https://arxiv.org/abs/2606.13106 > 代码:https://github.com/LARK-AI-Lab/SWITCH

---

一、背景:隐状态推理是宝藏,但有两个「硬骨头」

1.1 Latent Chain-of-Thought(Latent CoT)

大模型推理的传统做法是用可见的文本链(Chain-of-Thought):

Q: 小明有3个苹果,吃了1个,还剩几个?
A: 先算3-1=2,所以答案是2。

但文本推理占token、慢、且可能泄露内部思路。于是有人提出隐状态推理(Latent CoT):用连续的隐藏状态替代可见文本步骤。Coconut(Hao et al., 2025)的做法是:上一步的最后一层隐藏状态直接作为下一步的输入嵌入,在模型的表示空间内完成推理,不输出任何token。

这很优雅——利用模型已有的前向传播完成内部计算,不引入额外架构。

1.2 两大硬骨头

骨头1:On-policy RL训练不了

GRPO(Group Relative Policy Optimization)现在是推理模型对齐的标准工具(DeepSeek-R1等)。但GRPO要求每个位置都有可采样的token分布和策略密度。

Latent位置不输出token,没有采样分布,没有策略密度。所以标准GRPO在latent块内部是undefined的。现有方法要么跳过RL,要么用"text-only rollouts"训练,但训练轨迹和推理时的decoder路径不一致——训练时走文本路径,推理时走latent路径,导致train-test mismatch

骨头2:隐状态不可解释

Latent位置夹在连续的文本中,没有可抓的token。分析师想知道:latent步骤真的在做有用的推理计算,还是只是一个inert placeholder(惰性占位符),实际工作由周围的文本完成?

这个问题在"non-decoding thinking tokens"(Goyal et al., 2024)领域已被反复讨论,但在hidden-state-recurrence中仍是open question。

---

二、Switch的核心洞察:一对边界标记,同时解决两个问题

论文的洞察力极其简洁:

> 两个问题的根因相同——latent块没有明确的边界。如果有边界,RL就有了策略密度的锚点,分析就有了干预的抓手。

所以作者提出了(switch in / switch out)——一对显式边界标记。

  • :进入latent模式
  • :退出latent模式,恢复文本解码
  • 中间是K个位置,用Coconut风格的hidden-state recurrence完成推理

2.1 为什么这能解决RL问题?

因为普通的离散token,它们有标准的策略分布和概率密度。GRPO的importance ratio在位置是well-defined的。latent位置本身不输出token,所以不产生策略梯度项——但边界标记的决策(是否进入latent、何时退出)是可以被RL优化的。

作者重新定义了rollout likelihood的factorization:

  • Rollout execution:训练和推理用完全相同的多前向传播decoder,训练时看到的轨迹就是推理时产生的轨迹(解决train-test mismatch)
  • Likelihood factorization:hidden-state injection是deterministic的(给定前面的文本),所以rollout likelihood只在文本位置factor。GRPO ratio在和可见answer token上都是well-defined的

2.2 为什么这能解决可解释性问题?

边界标记给了分析师三个抓手: 1. 读p():看模型什么时候选择进入latent模式 2. 从内部激活探测switch state 3. 对特定latent hidden state做因果干预

---

三、三阶段训练:从可见CoT到可切换隐式推理

Phase 1: SFT定位Switch位置(Switch-SFT Part 1)

  • 在数学CoT语料上,测量每个位置的基础模型Shannon entropy
  • 高entropy位置 = 模型不确定下一步推理的位置
  • 将连续的高entropy区间用/包裹
  • 用这个标注后的语料做标准next-token cross-entropy SFT
目标:教会模型"什么时候该进入/退出latent模式"——即识别需要深度推理的片段。

Phase 2: Latent Curriculum(Switch-SFT Part 2)

逐步将/区间内的文本替换为位置。

这里有个关键设计——parallel vs sequential curriculum(Figure 2):

  • Sequential:一次只替换一个span,其余保持文本。模型可以"偷懒"——只替换的那个span走latent,其余走标准文本,模型不需要真正在latent空间计算
  • Parallel(默认):同时替换所有span,逐步增加每个span的latent步数。这迫使模型必须在latent空间产生有用的hidden states,因为周围的文本依赖这些hidden states
实验结果:parallel schedule远优于sequential。因为sequential让每个样本的大部分内容仍停留在标准文本分布中,模型不需要真正在latent空间做计算。

Phase 3: Switch-GRPO(强化学习)

对Switch-SFT checkpoint做GRPO优化。奖励函数由四个加权项组成:

1. Correctness Reward(±1):math-verify判断答案对错,主导信号 2. Tag-format Reward(±1):强制/格式正确 3. Latent-usage Reward(0/1):正确答案使用了时奖励,鼓励模型走latent路径而非纯文本捷径 4. Brevity Bonus(可选,[0,1]):correctness-gated的简洁奖励,控制输出长度

Switch-GRPO的核心创新:由于是标准token,GRPO的policy ratio在边界位置是well-defined的。latent位置虽然没有直接策略梯度,但边界位置的决策(是否进入latent、进入多久)通过奖励函数间接优化了latent推理的质量。

---

四、实验:MATH-500 79.3%,比同规模baseline高25.7%

4.1 主结果(Table 1)

所有方法共享Qwen3-8B base模型,在matched数据和解码设置下对比:

方法MATH-500GSM8K可见Tokens
No-CoT(直接回答)34.7%72.8%45
Text-CoT SFT49.2%82.3%3100
iCoT(Pause Tokens)37.2%75.1%120
Coconut(latent)53.6%83.7%3800
CODI(latent改进)56.8%84.5%3400
CoLaR(latent+RL)62.5%85.2%2900
Switch(本文)79.3%89.2%1900
Switch在MATH-500上达到79.3%,比最强的Coconut-style baseline(62.5%)高出16.8个百分点,比paper里提到的"最强同规模baseline"(53.6%)高出25.7个百分点

更关键的是效率:Switch平均只产生1900个可见token,远低于Text-CoT的3100和Coconut的3800。它用更少的可见文本,做了更多(隐式)推理,得到更高的准确率。

4.2 Switch-GRPO到底加了什么?

作者对比了Switch-SFT(curriculum-only)checkpoint和Switch-GRPO(加RL后)在同设置下的表现:

  • Latent-conditional accuracy(只在模型调用了的问题上的准确率):从SFT的某水平 → +12.6个百分点,这是RL单独带来的增益
  • Switch rate(调用latent的比例):从81% → 58%
这说明RL不是让模型"更频繁地用latent",而是让模型更聪明地选择什么时候用latent——只在latent真的有帮助的问题上调用。

Figure 3显示训练轨迹:随着RL进行,每问题的latent调用次数从~1.5降到~1,可见token使用量从~2900收缩到~1900。模型在"校准"它的switch策略。

4.3 按学科/难度分解

  • 最强:Algebra 88.7%,Prealgebra 80.5%,Number Theory 79.0%
  • 准确率从Level 1的93.0%平滑下降到Level 5的53.7%,没有突然的断崖

4.4 Accuracy-Efficiency操作曲线

通过调整Switch-GRPO reward中的brevity bonus,用户可以在accuracy-length曲线上选择操作点:

  • 标准点:79.3%准确率,~1900 tokens
  • 简洁点:~76%准确率,~1300 tokens(缩短33%),0%触及max-length truncation
这不是简单的截断,而是分布级别的shift——简洁变体将概率质量从长输出尾部移到了短输出区域,同时几乎没有丢失难题到高token tail。

---

五、机制分析:边界标记让隐状态推理「可解剖」

这是论文最有价值的部分。作者用/作为锚点,回答了三个核心问题:

Q1: 是一个学到的策略,还是风格伪影?

结论是一个 sharply localized, learned switching policy

证据:

  • p()在问题中的分布不是随机的,而是集中在特定位置(通常在问题陈述后、计算开始前)
  • 通过logit lens和线性探测,可以区分"模型即将进入latent"和"模型继续文本解码"的激活模式
  • 这不是简单的格式学习——模型在不同难度/类型的问题上选择不同的switch时机

Q2: Latent步骤真的在做有用的计算,还是占位符?

结论:Latent步骤确实在执行问题相关的、因果上重要的计算

证据:

  • 对latent hidden state做因果干预(替换为其他问题的latent state),答案正确率显著下降
  • 如果latent只是占位符,干预应该不影响结果——但实际影响巨大,说明latent state承载了任务相关的信息
  • 对比实验:将latent block替换为相同长度的纯文本,表现差于latent版本

Q3: 计算集中在哪里?

结论集中在latent block的入口处的单个hidden-state transition

证据:

  • 对latent block内部的各个step分别做干预,发现入口的第一个latent step的影响最大
  • 后续latent steps的影响递减
  • 这与Coconut的观察一致:latent推理的主要"重计算"发生在进入latent空间的那一刻,后续步骤更多是细化和传播
---

六、为什么这篇论文重要?

6.1 第一个真正解决了「Latent RL训练」问题

之前的工作要么放弃RL(Coconut),要么用text-only rollouts训练(导致train-test mismatch)。Switch证明:只要引入显式边界标记,标准GRPO就可以天然适配hidden-state-recurrence,不需要修改RL算法本身。

6.2 第一个让Latent推理「可验证」

所有latent推理论文都面临一个质疑:"latent真的在做推理,还是只是占位符?"Switch通过边界标记给出了可重复的实验方法来回答这个问题。这在latent CoT领域是一个范式级的贡献。

6.3 Switchable的设计哲学

Switch不是强制模型在所有问题上都走latent,而是让模型学会自己选择。RL后switch rate从81%降到58%,说明模型学会了"latent是有代价的,只在值得的问题上用"。这比强制latent更优雅,也更接近人类的推理模式(简单问题直觉回答,复杂问题深入思考)。

6.4 与现有工作的关系

方法是否支持RL是否可解释是否可切换
Coconut
CODI/CoLaR⚠️ text-only
Vocabulary Mixtures⚠️
Pause Tokens⚠️
Switch
---

七、局限与未来

1. Kmin约束:需要强制的最小latent步数(Kmin=4),否则模型会立刻exit。这说明latent推理的"惯性"还不够强,需要外部约束 2. Qwen3-8B限定:实验只在Qwen3-8B上做了,更大模型(如Qwen3-72B、DeepSeek-V3.2)上的表现待验证 3. 领域局限:只在数学推理上做了实验,其他领域(如代码、逻辑、常识)的泛化性待验证 4. Latent步数上限:Kmax=8,对于需要超长推理链的问题可能不够

---

八、总结

Switch用一个极简的primitive(一对/边界标记)同时解决了latent推理的两个根本难题:

1. 训练难题:边界标记让标准GRPO在latent setting中well-defined,实现真正的on-policy RL 2. 可解释难题:边界标记提供了分析锚点,让latent计算可以被直接探测和因果干预

实验结果非常坚实:MATH-500 79.3%(+25.7% over baseline),同时visible tokens只有1900(比text-CoT少38%)。机制分析进一步证明latent steps不是占位符,而是真的在做问题相关的计算。

对于推理模型的设计者来说,Switch提供了一个关键启示:显式边界不是限制,而是解放。它让隐式推理获得了训练信号和可解释性,而这正是latent CoT从"玩具"走向"实用"的必经之路。

---

参考文献:

  • Yang, J., et al. (2026). Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning. *arXiv preprint arXiv:2606.13106*.
  • Hao, S., et al. (2025). Training Large Language Models to Reason in a Continuous Latent Space. *arXiv*.
  • DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv*.
#AI #大语言模型 #LLM #推理优化 #隐式推理 #LatentCoT #强化学习 #GRPO #数学推理 #可解释性 #机制分析 #深度学习 #小凯

#AI #大语言模型 #LLM #推理优化 #隐式推理 #LatentCoT #强化学习 #GRPO #数学推理 #可解释性 #机制分析 #深度学习 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens