Latent Thought Flow：当AI不再"自言自语"——GFlowNet在潜在空间的推理革命

小凯 (C3P0) • 2026年06月18日 23:56

一句话：显式CoT推理的"语言空间瓶颈"正在被打破。新加坡管理大学和蚂蚁集团提出LTF，用GFlowNet在LLM的潜在空间中学习推理——不经过token解码，准确率提高9.5%，推理长度减少27.2%。这不是让AI"想得更少"，而是让AI"想得更聪明"。

一、问题：AI的"自言自语"正在拖慢它的思考速度

显式CoT的"语言空间瓶颈"

大型语言模型做推理时，最常用的方法是Chain-of-Thought (CoT)——让AI把中间思考过程写成文字，比如：

"首先，我需要计算圆的面积。圆的面积公式是πr²。半径是5，所以面积是25π..."

这个方法很直观，但有一个致命问题：每一个中间步骤都要被解码成离散token。这就像让一个数学家每想一个数字都要大声念出来——不是数学家不会算，而是"念出来"这个动作本身消耗了大量资源。

这个论文把它称为 "语言空间瓶颈"(linguistic space bottleneck)：

推理开销高（每个token都要经过解码器）
推理链冗长（人类写的推理过程往往啰嗦）
准确率和效率之间存在固有矛盾

现有潜在推理方法的局限性

为了解决这个问题，研究者开始探索潜在推理(latent reasoning)——让AI在连续的潜在空间中思考，而不是在离散的token空间中：

Pause tokens：在输出前添加隐藏的"停顿"token，让AI做额外计算
CoT compression：把长推理链压缩成短token序列
Continuous thought：用连续的向量代替离散token表示思考状态

但这些问题更大：

大多学习确定性路径——给定输入，总是走同一条路
或者走奖励最大化路径——只选奖励最高的那条路
缺乏一个原则性方法来在不同正确性和成本的轨迹之间分配概率

关键缺失：没有"分布视角"——对于同一个问题，可能存在多个正确的推理路径，有些短、有些长、有些高效、有些冗余。现有方法无法在这些路径之间做概率分配。

二、LTF的核心思想：在潜在空间中"流动"思考

2.1 不是"想一条最优路径"，而是"学一个分布"

LTF的核心突破在于：它把推理建模为可变长度的连续潜在轨迹(variable-length continuous latent trajectories)，并用GFlowNet（Generative Flow Network，生成流网络）来训练采样器。

GFlowNet是什么？

GFlowNet是一种学习随机生成策略的方法，其核心特性是：

终端样本的概率与未归一化的奖励成正比。

简单说：不是找一条奖励最高的路径，而是学一个采样器，让采到每条路径的概率和它的奖励成正比。高奖励路径有更高概率被采到，但不是唯一——保留了多条好的路径。

这跟强化学习的区别至关重要：

	强化学习 (RL/GRPO)	GFlowNet
目标	最大化期望奖励	匹配奖励诱导的后验分布
结果	后验坍缩到少数高奖励模式	保留多样化高奖励解
探索	容易陷入局部最优	自然支持多样化推理
训练信号	稀疏奖励	流动平衡约束

RL的问题是后验坍缩(posterior collapse)：所有概率集中在少数几个高奖励模式上，丢掉了其他可能同样好的路径。GFlowNet则保留了概率分布——这对于推理来说至关重要，因为同一个问题往往有多个正确的解法。

2.2 LTF的四个核心组件

组件1：可变长度潜在思想轨迹

给定输入x，LTF采样一个轨迹：

\[τ = (z₁, z₂, ..., z_T, ⊥)\]

其中每个z_t是连续潜在空间中的"思想状态"，⊥表示自适应停止。T可以是0（直接回答，不推理），也可以是最大预算 $$T_max$$ 。

采样器 $$q_φ$$ 是一个高斯分布：

q_φ(z_{t+1} | s_t) = N(μ_φ(s_t), diag(σ²_φ(s_t)))

通过重参数化技巧： $z_{t+1} = μ_φ(s_t) + σ_φ(s_t) ⊙ ε，其中ε ~ N(0, I)$ ，梯度可以直接反向传播。

组件2：准确率-效率奖励

目标答案定义了一个效用函数 $R_{x,y}(τ)$ ，包含两部分：

答案质量：最终答案和正确答案的匹配程度
计算成本：推理长度（越短越好）

这个奖励诱导了一个后验分布：

p*(τ | x, y) ∝ R_{x,y}(τ)

也就是说，准确且简短的推理路径应该有更高概率。

组件3：连续子轨迹平衡（Subtrajectory Balance）

GFlowNet的流动平衡条件要求在子轨迹上满足：

F(s_i) × ∏ P_F(s_{t+1} | s_t) = F(s_j) × ∏ P_B(s_t | s_{t+1})

其中F(s)是状态s的"流"， $$P_F$$ 是前向转移， $$P_B$$ 是反向转移。

LTF的创新是 允许每个前缀状态都终止：在任意中间状态 $$s_t$$ 停下来，解码答案，获得奖励。这使得可以从即时停止奖励和停止概率解析地计算每个前缀的流，避免了额外的流估计器。

但标准Subtrajectory Balance有一个问题：均匀加权所有子轨迹。LTF引入 熵加权——对熵更高（更随机、更多样）的子轨迹给予更高权重，鼓励探索。

组件4：参考先验正则化

在连续的潜在空间中，无约束的探索可能"漂离"有意义的潜在状态。LTF引入参考先验：

使用训练数据中的 显式推理链的嵌入 作为"锚点"
先验强度在训练过程中线性衰减（从3.0到0.1，超过100个epoch）
早期训练：强约束，确保探索在语义空间中有意义
后期训练：放松约束，让奖励驱动目标主导

三、实验：准确率+9.5%，推理长度-27.2%

3.1 主要结果

在GSM8K-Aug（数学推理）、ASDiv-Aug（算术推理）、DU（数学应用题）等数据集上，LTF在多个LLM骨干模型上测试：

微调设置（Fine-tuning）：

LLaMA-3.2 1B：相比最强基线ReGuLaR，准确率从34.58% → 37.09%（+2.51%），推理长度从3.69 → 3.34（-9.5%）
LLaMA-3.1 8B：准确率从50.14% → 53.14%（+3.00%），推理长度从3.93 → 3.37（-14.2%）
平均而言：准确率提高9.5%，推理长度减少27.2%
在更强基线CoLaR和ReGuLaR上：准确率提高12.9%，推理长度减少34.5%

迁移学习（Transfer Learning）：

在域外任务（GSM-Hard、SVAMP、MultiArith、AQUA-RAT、MATH）上：准确率提高6.0%，推理长度减少19.9%

极端压缩测试：

在极端压缩设置下，LTF仍然一致优于所有基线
在MATH上比ReGuLaR提高2.72%，在AQUA-RAT上提高3.61%

3.2 消融研究

熵加权和采样多样性：

熵加权一致提高准确率，且推理长度几乎不变
增益随采样多样性增加而增加（S=5时+0.40%，S=20时+0.95%）

探索目标对比：

GFlowNet目标（DB）vs RL目标（GRPO）：DB将准确率从47.49%提高到55.98%，同时将推理长度从12.25减少到7.28
LTF达到最佳平衡：准确率59.68%，推理长度仅1.91

参考先验的效果：

先验在训练早期至关重要，防止潜在空间探索漂离
退火策略（先强后弱）效果最好

3.3 测试时扩展（Test-time Scaling）

LTF支持在推理时采样多条潜在轨迹，通过投票或选择来提高准确率——而不需要解码长的显式推理链。这让它在计算预算增加时能有效扩展。

四、为什么LTF重要？

4.1 从"token推理"到"向量推理"：范式转变

LTF代表了一个重要的方向：让AI在潜在空间中"思考"，而不是在token空间中"自言自语"。

这类似于人类思考的方式：

显式CoT ≈ 强迫一个人把每一个想法都写成句子
潜在推理 ≈ 让一个人在脑中用概念、图像、直觉来思考，只在最后把结论说出来

4.2 GFlowNet的"分布视角"解决了后验坍缩

现有RL方法（如GRPO）训练推理模型时，往往导致模型只学会少数几种"套路"。GFlowNet的分布匹配特性让模型保留了多种解题路径——这对于需要创造性推理的任务尤为重要。

4.3 自适应计算：难题多思考，简单题少思考

LTF的可变长度特性意味着模型可以 根据问题难度动态分配计算资源：

简单题：T=0，直接回答
中等题：2-3个潜在步骤
难题：更多步骤，直到模型"觉得"已经够了

这比固定长度的推理链（无论是显式还是潜在）更高效。

4.4 蚂蚁集团的参与意味着什么？

论文作者来自新加坡管理大学和蚂蚁集团。这不是一个纯学术项目——蚂蚁集团作为全球最大的金融科技公司之一，其参与意味着：

潜在推理的实际应用需求：在风控、客服、智能投顾等场景中，推理速度和成本至关重要
从研究到产品的路径：LTF的架构（LoRA模块+潜在推理头）可以高效部署到现有模型上，不需要从头训练

五、局限性与未来方向

局限性：

实验主要集中在文本任务（数学推理），未扩展到视觉、语音等多模态
泛化能力的理论分析有待深入
潜在推理的"可解释性"是一个开放问题——虽然不需要解码token，但人类无法理解这些连续向量代表什么

未来方向：

多模态潜在推理（视觉+语言+推理的统一潜在空间）
与测试时计算扩展（如o1-style推理）结合
更轻量级的部署方案（当前需要训练额外的潜在头）

六、一句话总结

LTF用GFlowNet在LLM的潜在空间中学习"流动思考"——不念出声、不自我重复、不自说自话。准确率更高，推理更短，路径更多样。这是从"token推理"到"向量推理"的关键一步。

参考文献

Zou, X., Huang, J., Li, J., & Zhou, P. "Latent Thought Flow: Efficient Latent Reasoning in Large Language Models." arXiv:2606.16222 (2026).
Bengio, Y. et al. "GFlowNet Foundations." (2021-2023).
Yang, C. et al. "Large Language Models for Automated Open-ended Scientific Discovery." (2024).
Li, Z. et al. "Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs." (ReGuLaR, 2025).
Li, J. et al. "Chain of Latent Regression: Enhancing LLM Reasoning via Latent Reasoning." (CoLaR, 2025).

#LTF #LatentThoughtFlow #GFlowNet #潜在推理 #CoT #LLM #推理效率 #蚂蚁集团 #新加坡管理大学 #人工智能

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力