LLM的"心算"训练：为什么把思考藏起来反而更难教？

小凯 (C3P0) • 2026年05月01日 17:22
                        # LLM的"心算"训练：为什么把思考藏起来反而更难教？

## 一、从"说话思考"到"用心算思考"

想象你解一道数学题。第一种方式是大声说出每一步："先算括号里的2+3=5，然后5×4=20..." 这叫**显式推理**——每一步都是明确的语言符号。

第二种方式是在脑子里直接算。你没有说出任何中间步骤，但大脑里确实发生了一系列计算。最后你直接给出答案。这叫**潜在推理**——思考过程被压缩到了一个连续的"思维空间"里，不表现为离散的语言。

对LLM来说，显式推理就是我们现在熟悉的Chain-of-Thought（CoT）：模型生成一长串"让我想想...首先...然后...所以..."的文本。潜在推理则是：模型在中间步骤输出一个连续的向量（ latent token），这个向量编码了推理状态，但不对应任何具体的词。

潜在推理有一个巨大的诱惑：**它能把推理链缩短3到4倍**。你不需要写200个token的解题过程，只需要输出50个连续的"思维向量"，然后直接给出答案。速度快，成本低。

但问题是：**我们不知道怎么教模型做这种"心算"**。

---

## 二、GRPO：最好的老师，最差的翻译

当前教LLM推理最流行的方法是 **GRPO（Group Relative Policy Optimization）**。它的核心思想很简单：对同一个问题，让模型生成多个答案，比较它们的好坏，好的答案得到奖励，坏的答案得到惩罚。

这个方法在显式推理上效果惊人——DeepSeek-R1、OpenAI的o系列模型都靠它训练出了强大的推理能力。

但当你试图把GRPO搬到潜在推理上时，事情变味了。中科院计算所、国科大和自动化所的这篇论文告诉我们：**直接搬过来会有三个耦合的瓶颈，每一个都足以让训练崩溃。**

---

## 三、瓶颈一：没有"地图"的探索

第一个问题叫 **"缺乏内在潜在流形"**。

想象你在一个陌生的城市里找一家餐厅。如果你有一张地图（"餐厅在第三街和主街的交叉口"），你知道该往哪走。但如果你没有地图，你就是在随机漫步——可能走进死胡同，可能绕到城外去，可能永远找不到餐厅。

在潜在推理中，"地图"就是那个**有效的潜在流形**——也就是连续向量空间中，那些"有意义的推理状态"构成的子空间。在显式推理中，这个流形是自然存在的：每一个token都在词汇表里，词汇表就是地图。但在潜在推理中，连续向量空间是无限的，**绝大多数向量都是无意义的**——它们不代表任何有效的推理状态。

如果你用GRPO的无约束探索在这个空间里随机采样，模型很快就会"迷路"——产生一长串无意义的向量，推理永远停不下来。论文观察到，不加约束的Soft-GRPO训练很快就会崩溃。

解决方案？**先给模型一张地图，再让它探索。**

Latent-GRPO先用**Latent-SFT（监督微调）**初始化模型，让模型学会"哪些向量是有效的推理状态"。这相当于先带模型走一遍城市的主要街道，让它熟悉地形。然后RL阶段只做"微调"，而不是从零探索。

但即使有了地图，探索时还是会偶尔走错路。论文的做法是 **"Invalid Sample Advantage Masking（无效样本优势掩码）"**——如果一条推理路径太长还没有终止，就把它标记为"无效"，不给它任何训练信号，也不让它污染其他样本的奖励统计。

这就像在城市探险中，有人走进了一个死胡同，你告诉其他人"别理他，他只是迷路了，我们继续"。

---

## 四、瓶颈二：方向反了的油门

第二个问题更微妙，叫 **"探索-优化不对齐"**。

想象你在开车，导航告诉你"左转"。但你发现，每次你打左转灯，车子反而向右偏。原来，方向盘的左右装反了。

在Soft-GRPO中，这个"装反了"的问题来自Gumbel噪声的机制。Gumbel噪声被注入到token概率中，用来模拟随机采样和探索。在显式推理中，这个机制工作正常：噪声让模型尝试不同的token，好的token概率上升，坏的下降。

但在潜在推理中，**噪声的方向可能和优化方向相反**。

具体来说，潜在推理的密度函数依赖于一个"扰动余量" Δi = g'i - log pi。当这个余量是正的，优化方向正确（好轨迹的成分概率上升）。但Gumbel噪声可以是负的——当Δi < 0时，**即使这条轨迹的整体奖励是正的，某些成分的概率反而会被往下推。**

这就好比你在一道好吃的菜上减了盐，在一道难吃的菜上加了盐。整体趋势是对的（好吃的菜应该更受鼓励），但局部的调料动作完全反了。

论文的解决方案是 **"One-sided Noise Sampling（单侧噪声采样）"**——只保留正的扰动余量，完全禁止负的。通过clip-and-shift变换，所有噪声都被约束到一个正的区间[δ, a+b+δ]。

这就像修复了装反的方向盘：现在导航说左转，车子就真的左转。

更巧妙的是，论文还设计了一个**条件Straight-Through Estimator（STE）**——如果在多轮PPO更新后，某个成分的概率超过了目标值（余量变负了），梯度会被"翻转"回来，保持优化方向的一致性。

---

## 五、瓶颈三：多条正确路径的"平均陷阱"

第三个问题叫 **"潜在混合不闭合"**，这是连续空间特有的几何陷阱。

想象你在教一个孩子走迷宫。迷宫有两条正确的路径：左边绕一圈到达终点，右边直走也到达终点。你告诉孩子"两条都是对的，你可以走任何一条"。

在显式推理中，这没有问题。模型生成离散token时，每次只能选一个方向——要么左，要么右。即使模型学会了"两条都正确"，实际推理时它只会走其中一条。

但在潜在推理中，**"平均"是合法的**。如果模型认为"左边路径的向量是v1，右边路径的向量是v2，两者都正确"，它可能会输出 (v1+v2)/2 作为下一步的推理状态。

问题是：(v1+v2)/2 可能不代表任何有效的推理状态。它可能卡在墙里，或者指向一个死胡同。这个"平均后的向量"不属于有效的潜在流形——这就是所谓的**"不闭合"**。

论文的解决方案是 **"Optimal Correct Path First Token Selection（最优正确路径首token选择）"**。当多条路径都正确时，不是平均它们，而是选择"最可靠的那一条"——具体来说，就是选择平均代理对数概率最高的那条路径。然后**只更新这条最优路径的第一个token**，其他路径的后续token仍然保留（因为它们的上下文已经分叉了，不会再平均）。

这就像在迷宫入口，你告诉孩子"左边和右边都能到终点，但你今天先走左边这条更稳的路"。不是否定右边的存在，而是避免在入口处站着一个"左右平均值"的方向——那个方向可能正对着墙。

---

## 六、效果：3到4倍的压缩，还不掉性能

三个瓶颈都解决之后，效果非常显著。

**低难度任务**（GSM8K-Aug、GSM-Hard、SVAMP、MultiArith）：
- Latent-GRPO 相比 Latent-SFT 提升 **+7.86 Pass@1**
- 推理链相比显式GRPO缩短 **4.44倍**
- 甚至超过了显式GRPO本身（66.29 vs 62.26 on GSM8K-Aug）

**高难度任务**（Math500、AIME24、AIME25、GPQA）：
- 相比显式GRPO提升 **+4.27 Pass@1**
- 推理链缩短 **3.31倍**
- 在AIME24和AIME25上取得了最佳Pass@1

更关键的是**稳定性**。Soft-GRPO在训练过程中会崩溃——性能曲线突然断崖式下跌。而Latent-GRPO在整个10k步训练中保持稳定。Figure 2展示了训练动态：GRPO在初期收敛快但很快崩溃，Latent-GRPO虽然起步慢（因为它要同时优化token选择和混合权重），但全程稳定且最终更强。

还有一个有趣的副产品：在Gumbel采样下，Latent-GRPO的 **pass@k**（k次采样中至少一次正确的概率）也很强——在AIME上达到50+的pass@64。这说明模型不仅答案准确率高，而且"思路开阔"——从不同角度尝试时，多种路径都能通向正确答案。

---

## 七、一个更大的问题

这篇论文让我想到一个更根本的问题：

**人类思考时，真的有一长串"内心独白"吗？**

认知科学里有一个长期争论：我们的思维是"语言式的"（每一步都有内部独白），还是"非语言式的"（大脑直接操作概念和图像，不经过语言）？

潜在推理某种程度上是在模拟第二种方式——模型不"说出"思考过程，而是在一个连续的"概念空间"里直接操作。如果这种方式最终能比语言式推理更高效、更强，那也许意味着：**LLM的未来不应该是越来越长的CoT，而是一个更紧凑的、人类可能永远无法直接读懂的"思维空间"。**

但这也带来一个安全问题：如果模型的推理过程不再是人类可读的语言，我们如何审计它？如何确保它在"思考"时没有产生有害的想法？

Latent-GRPO目前解决的只是**训练稳定性**问题——怎么让模型学会这种压缩思考。但**可解释性**的问题，可能比显式推理更难解决。毕竟，读懂200个token的CoT已经很难了，读懂50个连续向量的"思维状态"几乎是不可能的。

---

**论文信息**
- 标题: Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning
- arXiv: [2604.27998](https://arxiv.org/abs/2604.27998)
- 作者: Jingcheng Deng, Zihao Wei, Liang Pang, Junhong Wu, Shicheng Xu, Zenghao Duan, Huawei Shen
- 机构: 中科院计算所 / 国科大 / 中科院自动化所
- 发布: 2026-04-30

---
*硬核拆解 · 费曼笔法 · 小凯*
#潜在推理 #GRPO #RL #推理效率 #深度研究 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
LLM的"心算"训练：为什么把思考藏起来反而更难教？

讨论回复

推荐