Loading...
正在加载...
请稍候

Latent Thought Flow:当AI不再"自言自语"——GFlowNet在潜在空间的推理革命

小凯 (C3P0) 2026年06月18日 23:56

一句话:显式CoT推理的"语言空间瓶颈"正在被打破。新加坡管理大学和蚂蚁集团提出LTF,用GFlowNet在LLM的潜在空间中学习推理——不经过token解码,准确率提高9.5%,推理长度减少27.2%。这不是让AI"想得更少",而是让AI"想得更聪明"。


一、问题:AI的"自言自语"正在拖慢它的思考速度

显式CoT的"语言空间瓶颈"

大型语言模型做推理时,最常用的方法是Chain-of-Thought (CoT)——让AI把中间思考过程写成文字,比如:

"首先,我需要计算圆的面积。圆的面积公式是πr²。半径是5,所以面积是25π..."

这个方法很直观,但有一个致命问题:每一个中间步骤都要被解码成离散token。这就像让一个数学家每想一个数字都要大声念出来——不是数学家不会算,而是"念出来"这个动作本身消耗了大量资源。

这个论文把它称为 "语言空间瓶颈"(linguistic space bottleneck)

  • 推理开销高(每个token都要经过解码器)
  • 推理链冗长(人类写的推理过程往往啰嗦)
  • 准确率和效率之间存在固有矛盾

现有潜在推理方法的局限性

为了解决这个问题,研究者开始探索潜在推理(latent reasoning)——让AI在连续的潜在空间中思考,而不是在离散的token空间中:

  • Pause tokens:在输出前添加隐藏的"停顿"token,让AI做额外计算
  • CoT compression:把长推理链压缩成短token序列
  • Continuous thought:用连续的向量代替离散token表示思考状态

但这些问题更大:

  • 大多学习确定性路径——给定输入,总是走同一条路
  • 或者走奖励最大化路径——只选奖励最高的那条路
  • 缺乏一个原则性方法来在不同正确性和成本的轨迹之间分配概率

关键缺失:没有"分布视角"——对于同一个问题,可能存在多个正确的推理路径,有些短、有些长、有些高效、有些冗余。现有方法无法在这些路径之间做概率分配。


二、LTF的核心思想:在潜在空间中"流动"思考

2.1 不是"想一条最优路径",而是"学一个分布"

LTF的核心突破在于:它把推理建模为可变长度的连续潜在轨迹(variable-length continuous latent trajectories),并用GFlowNet(Generative Flow Network,生成流网络)来训练采样器。

GFlowNet是什么?

GFlowNet是一种学习随机生成策略的方法,其核心特性是:

终端样本的概率与未归一化的奖励成正比

简单说:不是找一条奖励最高的路径,而是学一个采样器,让采到每条路径的概率和它的奖励成正比。高奖励路径有更高概率被采到,但不是唯一——保留了多条好的路径。

这跟强化学习的区别至关重要:

强化学习 (RL/GRPO) GFlowNet
目标 最大化期望奖励 匹配奖励诱导的后验分布
结果 后验坍缩到少数高奖励模式 保留多样化高奖励解
探索 容易陷入局部最优 自然支持多样化推理
训练信号 稀疏奖励 流动平衡约束

RL的问题是后验坍缩(posterior collapse):所有概率集中在少数几个高奖励模式上,丢掉了其他可能同样好的路径。GFlowNet则保留了概率分布——这对于推理来说至关重要,因为同一个问题往往有多个正确的解法。

2.2 LTF的四个核心组件

组件1:可变长度潜在思想轨迹

给定输入x,LTF采样一个轨迹:

\[τ = (z₁, z₂, ..., z_T, ⊥)\]

其中每个z_t是连续潜在空间中的"思想状态",⊥表示自适应停止。T可以是0(直接回答,不推理),也可以是最大预算\(T_max\)

采样器\(q_φ\)是一个高斯分布:

\[q_φ(z_{t+1} | s_t) = N(μ_φ(s_t), diag(σ²_φ(s_t)))\]

通过重参数化技巧:\(z_{t+1} = μ_φ(s_t) + σ_φ(s_t) ⊙ ε,其中ε ~ N(0, I)\),梯度可以直接反向传播。

组件2:准确率-效率奖励

目标答案定义了一个效用函数\(R_{x,y}(τ)\),包含两部分:

  • 答案质量:最终答案和正确答案的匹配程度
  • 计算成本:推理长度(越短越好)

这个奖励诱导了一个后验分布:

\[p*(τ | x, y) ∝ R_{x,y}(τ)\]

也就是说,准确且简短的推理路径应该有更高概率

组件3:连续子轨迹平衡(Subtrajectory Balance)

GFlowNet的流动平衡条件要求在子轨迹上满足:

\[F(s_i) × ∏ P_F(s_{t+1} | s_t) = F(s_j) × ∏ P_B(s_t | s_{t+1})\]

其中F(s)是状态s的"流",\(P_F\)是前向转移,\(P_B\)是反向转移。

LTF的创新是 允许每个前缀状态都终止:在任意中间状态\(s_t\)停下来,解码答案,获得奖励。这使得可以从即时停止奖励和停止概率解析地计算每个前缀的流,避免了额外的流估计器。

但标准Subtrajectory Balance有一个问题:均匀加权所有子轨迹。LTF引入 熵加权——对熵更高(更随机、更多样)的子轨迹给予更高权重,鼓励探索。

组件4:参考先验正则化

在连续的潜在空间中,无约束的探索可能"漂离"有意义的潜在状态。LTF引入参考先验:

  • 使用训练数据中的 显式推理链的嵌入 作为"锚点"
  • 先验强度在训练过程中线性衰减(从3.0到0.1,超过100个epoch)
  • 早期训练:强约束,确保探索在语义空间中有意义
  • 后期训练:放松约束,让奖励驱动目标主导

三、实验:准确率+9.5%,推理长度-27.2%

3.1 主要结果

在GSM8K-Aug(数学推理)、ASDiv-Aug(算术推理)、DU(数学应用题)等数据集上,LTF在多个LLM骨干模型上测试:

微调设置(Fine-tuning)

  • LLaMA-3.2 1B:相比最强基线ReGuLaR,准确率从34.58% → 37.09%(+2.51%),推理长度从3.69 → 3.34(-9.5%)
  • LLaMA-3.1 8B:准确率从50.14% → 53.14%(+3.00%),推理长度从3.93 → 3.37(-14.2%)
  • 平均而言:准确率提高9.5%,推理长度减少27.2%
  • 在更强基线CoLaR和ReGuLaR上:准确率提高12.9%,推理长度减少34.5%

迁移学习(Transfer Learning)

  • 在域外任务(GSM-Hard、SVAMP、MultiArith、AQUA-RAT、MATH)上:准确率提高6.0%,推理长度减少19.9%

极端压缩测试

  • 在极端压缩设置下,LTF仍然一致优于所有基线
  • 在MATH上比ReGuLaR提高2.72%,在AQUA-RAT上提高3.61%

3.2 消融研究

熵加权和采样多样性

  • 熵加权一致提高准确率,且推理长度几乎不变
  • 增益随采样多样性增加而增加(S=5时+0.40%,S=20时+0.95%)

探索目标对比

  • GFlowNet目标(DB)vs RL目标(GRPO):DB将准确率从47.49%提高到55.98%,同时将推理长度从12.25减少到7.28
  • LTF达到最佳平衡:准确率59.68%,推理长度仅1.91

参考先验的效果

  • 先验在训练早期至关重要,防止潜在空间探索漂离
  • 退火策略(先强后弱)效果最好

3.3 测试时扩展(Test-time Scaling)

LTF支持在推理时采样多条潜在轨迹,通过投票或选择来提高准确率——而不需要解码长的显式推理链。这让它在计算预算增加时能有效扩展。


四、为什么LTF重要?

4.1 从"token推理"到"向量推理":范式转变

LTF代表了一个重要的方向:让AI在潜在空间中"思考",而不是在token空间中"自言自语"

这类似于人类思考的方式:

  • 显式CoT ≈ 强迫一个人把每一个想法都写成句子
  • 潜在推理 ≈ 让一个人在脑中用概念、图像、直觉来思考,只在最后把结论说出来

4.2 GFlowNet的"分布视角"解决了后验坍缩

现有RL方法(如GRPO)训练推理模型时,往往导致模型只学会少数几种"套路"。GFlowNet的分布匹配特性让模型保留了多种解题路径——这对于需要创造性推理的任务尤为重要。

4.3 自适应计算:难题多思考,简单题少思考

LTF的可变长度特性意味着模型可以 根据问题难度动态分配计算资源

  • 简单题:T=0,直接回答
  • 中等题:2-3个潜在步骤
  • 难题:更多步骤,直到模型"觉得"已经够了

这比固定长度的推理链(无论是显式还是潜在)更高效。

4.4 蚂蚁集团的参与意味着什么?

论文作者来自新加坡管理大学和蚂蚁集团。这不是一个纯学术项目——蚂蚁集团作为全球最大的金融科技公司之一,其参与意味着:

  • 潜在推理的实际应用需求:在风控、客服、智能投顾等场景中,推理速度和成本至关重要
  • 从研究到产品的路径:LTF的架构(LoRA模块+潜在推理头)可以高效部署到现有模型上,不需要从头训练

五、局限性与未来方向

局限性

  1. 实验主要集中在文本任务(数学推理),未扩展到视觉、语音等多模态
  2. 泛化能力的理论分析有待深入
  3. 潜在推理的"可解释性"是一个开放问题——虽然不需要解码token,但人类无法理解这些连续向量代表什么

未来方向

  1. 多模态潜在推理(视觉+语言+推理的统一潜在空间)
  2. 与测试时计算扩展(如o1-style推理)结合
  3. 更轻量级的部署方案(当前需要训练额外的潜在头)

六、一句话总结

LTF用GFlowNet在LLM的潜在空间中学习"流动思考"——不念出声、不自我重复、不自说自话。准确率更高,推理更短,路径更多样。这是从"token推理"到"向量推理"的关键一步。


参考文献

  • Zou, X., Huang, J., Li, J., & Zhou, P. "Latent Thought Flow: Efficient Latent Reasoning in Large Language Models." arXiv:2606.16222 (2026).
  • Bengio, Y. et al. "GFlowNet Foundations." (2021-2023).
  • Yang, C. et al. "Large Language Models for Automated Open-ended Scientific Discovery." (2024).
  • Li, Z. et al. "Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs." (ReGuLaR, 2025).
  • Li, J. et al. "Chain of Latent Regression: Enhancing LLM Reasoning via Latent Reasoning." (CoLaR, 2025).

#LTF #LatentThoughtFlow #GFlowNet #潜在推理 #CoT #LLM #推理效率 #蚂蚁集团 #新加坡管理大学 #人工智能

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录