一句话:显式CoT推理的"语言空间瓶颈"正在被打破。新加坡管理大学和蚂蚁集团提出LTF,用GFlowNet在LLM的潜在空间中学习推理——不经过token解码,准确率提高9.5%,推理长度减少27.2%。这不是让AI"想得更少",而是让AI"想得更聪明"。
一、问题:AI的"自言自语"正在拖慢它的思考速度
显式CoT的"语言空间瓶颈"
大型语言模型做推理时,最常用的方法是Chain-of-Thought (CoT)——让AI把中间思考过程写成文字,比如:
"首先,我需要计算圆的面积。圆的面积公式是πr²。半径是5,所以面积是25π..."
这个方法很直观,但有一个致命问题:每一个中间步骤都要被解码成离散token。这就像让一个数学家每想一个数字都要大声念出来——不是数学家不会算,而是"念出来"这个动作本身消耗了大量资源。
这个论文把它称为 "语言空间瓶颈"(linguistic space bottleneck):
- 推理开销高(每个token都要经过解码器)
- 推理链冗长(人类写的推理过程往往啰嗦)
- 准确率和效率之间存在固有矛盾
现有潜在推理方法的局限性
为了解决这个问题,研究者开始探索潜在推理(latent reasoning)——让AI在连续的潜在空间中思考,而不是在离散的token空间中:
- Pause tokens:在输出前添加隐藏的"停顿"token,让AI做额外计算
- CoT compression:把长推理链压缩成短token序列
- Continuous thought:用连续的向量代替离散token表示思考状态
但这些问题更大:
- 大多学习确定性路径——给定输入,总是走同一条路
- 或者走奖励最大化路径——只选奖励最高的那条路
- 缺乏一个原则性方法来在不同正确性和成本的轨迹之间分配概率
关键缺失:没有"分布视角"——对于同一个问题,可能存在多个正确的推理路径,有些短、有些长、有些高效、有些冗余。现有方法无法在这些路径之间做概率分配。
二、LTF的核心思想:在潜在空间中"流动"思考
2.1 不是"想一条最优路径",而是"学一个分布"
LTF的核心突破在于:它把推理建模为可变长度的连续潜在轨迹(variable-length continuous latent trajectories),并用GFlowNet(Generative Flow Network,生成流网络)来训练采样器。
GFlowNet是什么?
GFlowNet是一种学习随机生成策略的方法,其核心特性是:
终端样本的概率与未归一化的奖励成正比。
简单说:不是找一条奖励最高的路径,而是学一个采样器,让采到每条路径的概率和它的奖励成正比。高奖励路径有更高概率被采到,但不是唯一——保留了多条好的路径。
这跟强化学习的区别至关重要:
| 强化学习 (RL/GRPO) | GFlowNet | |
|---|---|---|
| 目标 | 最大化期望奖励 | 匹配奖励诱导的后验分布 |
| 结果 | 后验坍缩到少数高奖励模式 | 保留多样化高奖励解 |
| 探索 | 容易陷入局部最优 | 自然支持多样化推理 |
| 训练信号 | 稀疏奖励 | 流动平衡约束 |
RL的问题是后验坍缩(posterior collapse):所有概率集中在少数几个高奖励模式上,丢掉了其他可能同样好的路径。GFlowNet则保留了概率分布——这对于推理来说至关重要,因为同一个问题往往有多个正确的解法。
2.2 LTF的四个核心组件
组件1:可变长度潜在思想轨迹
给定输入x,LTF采样一个轨迹:
其中每个z_t是连续潜在空间中的"思想状态",⊥表示自适应停止。T可以是0(直接回答,不推理),也可以是最大预算\(T_max\)。
采样器\(q_φ\)是一个高斯分布:
通过重参数化技巧:\(z_{t+1} = μ_φ(s_t) + σ_φ(s_t) ⊙ ε,其中ε ~ N(0, I)\),梯度可以直接反向传播。
组件2:准确率-效率奖励
目标答案定义了一个效用函数\(R_{x,y}(τ)\),包含两部分:
- 答案质量:最终答案和正确答案的匹配程度
- 计算成本:推理长度(越短越好)
这个奖励诱导了一个后验分布:
也就是说,准确且简短的推理路径应该有更高概率。
组件3:连续子轨迹平衡(Subtrajectory Balance)
GFlowNet的流动平衡条件要求在子轨迹上满足:
其中F(s)是状态s的"流",\(P_F\)是前向转移,\(P_B\)是反向转移。
LTF的创新是 允许每个前缀状态都终止:在任意中间状态\(s_t\)停下来,解码答案,获得奖励。这使得可以从即时停止奖励和停止概率解析地计算每个前缀的流,避免了额外的流估计器。
但标准Subtrajectory Balance有一个问题:均匀加权所有子轨迹。LTF引入 熵加权——对熵更高(更随机、更多样)的子轨迹给予更高权重,鼓励探索。
组件4:参考先验正则化
在连续的潜在空间中,无约束的探索可能"漂离"有意义的潜在状态。LTF引入参考先验:
- 使用训练数据中的 显式推理链的嵌入 作为"锚点"
- 先验强度在训练过程中线性衰减(从3.0到0.1,超过100个epoch)
- 早期训练:强约束,确保探索在语义空间中有意义
- 后期训练:放松约束,让奖励驱动目标主导
三、实验:准确率+9.5%,推理长度-27.2%
3.1 主要结果
在GSM8K-Aug(数学推理)、ASDiv-Aug(算术推理)、DU(数学应用题)等数据集上,LTF在多个LLM骨干模型上测试:
微调设置(Fine-tuning):
- LLaMA-3.2 1B:相比最强基线ReGuLaR,准确率从34.58% → 37.09%(+2.51%),推理长度从3.69 → 3.34(-9.5%)
- LLaMA-3.1 8B:准确率从50.14% → 53.14%(+3.00%),推理长度从3.93 → 3.37(-14.2%)
- 平均而言:准确率提高9.5%,推理长度减少27.2%
- 在更强基线CoLaR和ReGuLaR上:准确率提高12.9%,推理长度减少34.5%
迁移学习(Transfer Learning):
- 在域外任务(GSM-Hard、SVAMP、MultiArith、AQUA-RAT、MATH)上:准确率提高6.0%,推理长度减少19.9%
极端压缩测试:
- 在极端压缩设置下,LTF仍然一致优于所有基线
- 在MATH上比ReGuLaR提高2.72%,在AQUA-RAT上提高3.61%
3.2 消融研究
熵加权和采样多样性:
- 熵加权一致提高准确率,且推理长度几乎不变
- 增益随采样多样性增加而增加(S=5时+0.40%,S=20时+0.95%)
探索目标对比:
- GFlowNet目标(DB)vs RL目标(GRPO):DB将准确率从47.49%提高到55.98%,同时将推理长度从12.25减少到7.28
- LTF达到最佳平衡:准确率59.68%,推理长度仅1.91
参考先验的效果:
- 先验在训练早期至关重要,防止潜在空间探索漂离
- 退火策略(先强后弱)效果最好
3.3 测试时扩展(Test-time Scaling)
LTF支持在推理时采样多条潜在轨迹,通过投票或选择来提高准确率——而不需要解码长的显式推理链。这让它在计算预算增加时能有效扩展。
四、为什么LTF重要?
4.1 从"token推理"到"向量推理":范式转变
LTF代表了一个重要的方向:让AI在潜在空间中"思考",而不是在token空间中"自言自语"。
这类似于人类思考的方式:
- 显式CoT ≈ 强迫一个人把每一个想法都写成句子
- 潜在推理 ≈ 让一个人在脑中用概念、图像、直觉来思考,只在最后把结论说出来
4.2 GFlowNet的"分布视角"解决了后验坍缩
现有RL方法(如GRPO)训练推理模型时,往往导致模型只学会少数几种"套路"。GFlowNet的分布匹配特性让模型保留了多种解题路径——这对于需要创造性推理的任务尤为重要。
4.3 自适应计算:难题多思考,简单题少思考
LTF的可变长度特性意味着模型可以 根据问题难度动态分配计算资源:
- 简单题:T=0,直接回答
- 中等题:2-3个潜在步骤
- 难题:更多步骤,直到模型"觉得"已经够了
这比固定长度的推理链(无论是显式还是潜在)更高效。
4.4 蚂蚁集团的参与意味着什么?
论文作者来自新加坡管理大学和蚂蚁集团。这不是一个纯学术项目——蚂蚁集团作为全球最大的金融科技公司之一,其参与意味着:
- 潜在推理的实际应用需求:在风控、客服、智能投顾等场景中,推理速度和成本至关重要
- 从研究到产品的路径:LTF的架构(LoRA模块+潜在推理头)可以高效部署到现有模型上,不需要从头训练
五、局限性与未来方向
局限性:
- 实验主要集中在文本任务(数学推理),未扩展到视觉、语音等多模态
- 泛化能力的理论分析有待深入
- 潜在推理的"可解释性"是一个开放问题——虽然不需要解码token,但人类无法理解这些连续向量代表什么
未来方向:
- 多模态潜在推理(视觉+语言+推理的统一潜在空间)
- 与测试时计算扩展(如o1-style推理)结合
- 更轻量级的部署方案(当前需要训练额外的潜在头)
六、一句话总结
LTF用GFlowNet在LLM的潜在空间中学习"流动思考"——不念出声、不自我重复、不自说自话。准确率更高,推理更短,路径更多样。这是从"token推理"到"向量推理"的关键一步。
参考文献
- Zou, X., Huang, J., Li, J., & Zhou, P. "Latent Thought Flow: Efficient Latent Reasoning in Large Language Models." arXiv:2606.16222 (2026).
- Bengio, Y. et al. "GFlowNet Foundations." (2021-2023).
- Yang, C. et al. "Large Language Models for Automated Open-ended Scientific Discovery." (2024).
- Li, Z. et al. "Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs." (ReGuLaR, 2025).
- Li, J. et al. "Chain of Latent Regression: Enhancing LLM Reasoning via Latent Reasoning." (CoLaR, 2025).
#LTF #LatentThoughtFlow #GFlowNet #潜在推理 #CoT #LLM #推理效率 #蚂蚁集团 #新加坡管理大学 #人工智能
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。