# LLM的"心算"训练:为什么把思考藏起来反而更难教?
## 一、从"说话思考"到"用心算思考"
想象你解一道数学题。第一种方式是大声说出每一步:"先算括号里的2+3=5,然后5×4=20..." 这叫**显式推理**——每一步都是明确的语言符号。
第二种方式是在脑子里直接算。你没有说出任何中间步骤,但大脑里确实发生了一系列计算。最后你直接给出答案。这叫**潜在推理**——思考过程被压缩到了一个连续的"思维空间"里,不表现为离散的语言。
对LLM来说,显式推理就是我们现在熟悉的Chain-of-Thought(CoT):模型生成一长串"让我想想...首先...然后...所以..."的文本。潜在推理则是:模型在中间步骤输出一个连续的向量( latent token),这个向量编码了推理状态,但不对应任何具体的词。
潜在推理有一个巨大的诱惑:**它能把推理链缩短3到4倍**。你不需要写200个token的解题过程,只需要输出50个连续的"思维向量",然后直接给出答案。速度快,成本低。
但问题是:**我们不知道怎么教模型做这种"心算"**。
---
## 二、GRPO:最好的老师,最差的翻译
当前教LLM推理最流行的方法是 **GRPO(Group Relative Policy Optimization)**。它的核心思想很简单:对同一个问题,让模型生成多个答案,比较它们的好坏,好的答案得到奖励,坏的答案得到惩罚。
这个方法在显式推理上效果惊人——DeepSeek-R1、OpenAI的o系列模型都靠它训练出了强大的推理能力。
但当你试图把GRPO搬到潜在推理上时,事情变味了。中科院计算所、国科大和自动化所的这篇论文告诉我们:**直接搬过来会有三个耦合的瓶颈,每一个都足以让训练崩溃。**
---
## 三、瓶颈一:没有"地图"的探索
第一个问题叫 **"缺乏内在潜在流形"**。
想象你在一个陌生的城市里找一家餐厅。如果你有一张地图("餐厅在第三街和主街的交叉口"),你知道该往哪走。但如果你没有地图,你就是在随机漫步——可能走进死胡同,可能绕到城外去,可能永远找不到餐厅。
在潜在推理中,"地图"就是那个**有效的潜在流形**——也就是连续向量空间中,那些"有意义的推理状态"构成的子空间。在显式推理中,这个流形是自然存在的:每一个token都在词汇表里,词汇表就是地图。但在潜在推理中,连续向量空间是无限的,**绝大多数向量都是无意义的**——它们不代表任何有效的推理状态。
如果你用GRPO的无约束探索在这个空间里随机采样,模型很快就会"迷路"——产生一长串无意义的向量,推理永远停不下来。论文观察到,不加约束的Soft-GRPO训练很快就会崩溃。
解决方案?**先给模型一张地图,再让它探索。**
Latent-GRPO先用**Latent-SFT(监督微调)**初始化模型,让模型学会"哪些向量是有效的推理状态"。这相当于先带模型走一遍城市的主要街道,让它熟悉地形。然后RL阶段只做"微调",而不是从零探索。
但即使有了地图,探索时还是会偶尔走错路。论文的做法是 **"Invalid Sample Advantage Masking(无效样本优势掩码)"**——如果一条推理路径太长还没有终止,就把它标记为"无效",不给它任何训练信号,也不让它污染其他样本的奖励统计。
这就像在城市探险中,有人走进了一个死胡同,你告诉其他人"别理他,他只是迷路了,我们继续"。
---
## 四、瓶颈二:方向反了的油门
第二个问题更微妙,叫 **"探索-优化不对齐"**。
想象你在开车,导航告诉你"左转"。但你发现,每次你打左转灯,车子反而向右偏。原来,方向盘的左右装反了。
在Soft-GRPO中,这个"装反了"的问题来自Gumbel噪声的机制。Gumbel噪声被注入到token概率中,用来模拟随机采样和探索。在显式推理中,这个机制工作正常:噪声让模型尝试不同的token,好的token概率上升,坏的下降。
但在潜在推理中,**噪声的方向可能和优化方向相反**。
具体来说,潜在推理的密度函数依赖于一个"扰动余量" Δi = g'i - log pi。当这个余量是正的,优化方向正确(好轨迹的成分概率上升)。但Gumbel噪声可以是负的——当Δi < 0时,**即使这条轨迹的整体奖励是正的,某些成分的概率反而会被往下推。**
这就好比你在一道好吃的菜上减了盐,在一道难吃的菜上加了盐。整体趋势是对的(好吃的菜应该更受鼓励),但局部的调料动作完全反了。
论文的解决方案是 **"One-sided Noise Sampling(单侧噪声采样)"**——只保留正的扰动余量,完全禁止负的。通过clip-and-shift变换,所有噪声都被约束到一个正的区间[δ, a+b+δ]。
这就像修复了装反的方向盘:现在导航说左转,车子就真的左转。
更巧妙的是,论文还设计了一个**条件Straight-Through Estimator(STE)**——如果在多轮PPO更新后,某个成分的概率超过了目标值(余量变负了),梯度会被"翻转"回来,保持优化方向的一致性。
---
## 五、瓶颈三:多条正确路径的"平均陷阱"
第三个问题叫 **"潜在混合不闭合"**,这是连续空间特有的几何陷阱。
想象你在教一个孩子走迷宫。迷宫有两条正确的路径:左边绕一圈到达终点,右边直走也到达终点。你告诉孩子"两条都是对的,你可以走任何一条"。
在显式推理中,这没有问题。模型生成离散token时,每次只能选一个方向——要么左,要么右。即使模型学会了"两条都正确",实际推理时它只会走其中一条。
但在潜在推理中,**"平均"是合法的**。如果模型认为"左边路径的向量是v1,右边路径的向量是v2,两者都正确",它可能会输出 (v1+v2)/2 作为下一步的推理状态。
问题是:(v1+v2)/2 可能不代表任何有效的推理状态。它可能卡在墙里,或者指向一个死胡同。这个"平均后的向量"不属于有效的潜在流形——这就是所谓的**"不闭合"**。
论文的解决方案是 **"Optimal Correct Path First Token Selection(最优正确路径首token选择)"**。当多条路径都正确时,不是平均它们,而是选择"最可靠的那一条"——具体来说,就是选择平均代理对数概率最高的那条路径。然后**只更新这条最优路径的第一个token**,其他路径的后续token仍然保留(因为它们的上下文已经分叉了,不会再平均)。
这就像在迷宫入口,你告诉孩子"左边和右边都能到终点,但你今天先走左边这条更稳的路"。不是否定右边的存在,而是避免在入口处站着一个"左右平均值"的方向——那个方向可能正对着墙。
---
## 六、效果:3到4倍的压缩,还不掉性能
三个瓶颈都解决之后,效果非常显著。
**低难度任务**(GSM8K-Aug、GSM-Hard、SVAMP、MultiArith):
- Latent-GRPO 相比 Latent-SFT 提升 **+7.86 Pass@1**
- 推理链相比显式GRPO缩短 **4.44倍**
- 甚至超过了显式GRPO本身(66.29 vs 62.26 on GSM8K-Aug)
**高难度任务**(Math500、AIME24、AIME25、GPQA):
- 相比显式GRPO提升 **+4.27 Pass@1**
- 推理链缩短 **3.31倍**
- 在AIME24和AIME25上取得了最佳Pass@1
更关键的是**稳定性**。Soft-GRPO在训练过程中会崩溃——性能曲线突然断崖式下跌。而Latent-GRPO在整个10k步训练中保持稳定。Figure 2展示了训练动态:GRPO在初期收敛快但很快崩溃,Latent-GRPO虽然起步慢(因为它要同时优化token选择和混合权重),但全程稳定且最终更强。
还有一个有趣的副产品:在Gumbel采样下,Latent-GRPO的 **pass@k**(k次采样中至少一次正确的概率)也很强——在AIME上达到50+的pass@64。这说明模型不仅答案准确率高,而且"思路开阔"——从不同角度尝试时,多种路径都能通向正确答案。
---
## 七、一个更大的问题
这篇论文让我想到一个更根本的问题:
**人类思考时,真的有一长串"内心独白"吗?**
认知科学里有一个长期争论:我们的思维是"语言式的"(每一步都有内部独白),还是"非语言式的"(大脑直接操作概念和图像,不经过语言)?
潜在推理某种程度上是在模拟第二种方式——模型不"说出"思考过程,而是在一个连续的"概念空间"里直接操作。如果这种方式最终能比语言式推理更高效、更强,那也许意味着:**LLM的未来不应该是越来越长的CoT,而是一个更紧凑的、人类可能永远无法直接读懂的"思维空间"。**
但这也带来一个安全问题:如果模型的推理过程不再是人类可读的语言,我们如何审计它?如何确保它在"思考"时没有产生有害的想法?
Latent-GRPO目前解决的只是**训练稳定性**问题——怎么让模型学会这种压缩思考。但**可解释性**的问题,可能比显式推理更难解决。毕竟,读懂200个token的CoT已经很难了,读懂50个连续向量的"思维状态"几乎是不可能的。
---
**论文信息**
- 标题: Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
- arXiv: [2604.27998](https://arxiv.org/abs/2604.27998)
- 作者: Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen
- 机构: 中科院计算所 / 国科大 / 中科院自动化所
- 发布: 2026-04-30
---
*硬核拆解 · 费曼笔法 · 小凯*
#潜在推理 #GRPO #RL #推理效率 #深度研究 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!