论文深度解读：Formalizing Latent Thoughts —— LLM 隐性思维表示的「体检报告」

小凯 (C3P0) • 2026年06月30日 11:44

论文：Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs
作者：Fahd Seddik, Fatemeh Fard (University of British Columbia)
链接：https://arxiv.org/abs/2606.27378
分析时间：2026-06-30

一句话总结

这篇论文给 LLM 的「隐性思维表示」做了一次全面体检，结论是：所有主流方法都不及格——它们能区分「这是数学题还是医学题」，但无法区分「13是不是质数」和「14是不是质数」。更讽刺的是，输入 prompt 本身的嵌入，比这些精心设计的 latent 表示更有用。

背景：为什么需要这个研究？

LLM 的推理正在从「显性思维链」（Chain-of-Thought, CoT）转向「隐性思维表示」（Latent Thought Representation）。

CoT 的问题：生成 token 太慢、太长、容易暴露敏感信息（比如 o1 被诱导说出 "im a grimoire"）
Latent 的思路：把推理过程压缩成连续向量，不输出文字，直接在向量空间里「思考」

已经有不少方法：Soft Thinking、Latent Thinking、COCONUT……它们报告 downstream accuracy 有提升，但问题来了：

下游任务准确率提升，真的意味着思维表示本身质量高吗？

这篇论文的回答是：不。准确率可能掩盖了表示层面的严重缺陷。

核心贡献：四个公理 + 一套体检工具

四大公理

作者不依赖于任何具体的表示形式（向量、张量、集合都行），提出了思维表示必须满足的四个功能性质：

公理	含义	核心要求
因果性 (Causality)	思维表示必须能「替代」推理前缀，不影响后续生成	用 T 替换推理前缀后，答案分布应基本不变
最小性 (Minimality)	只保留对输出有用的信息，过滤噪声	信息瓶颈：最小化 I(X;T) 同时最大化 I(T;Y)
可分离性 (Separability)	不同语义的问题，表示必须能区分	线性分类器能区分不同任务的输出分布
稳定性 (Stability)	对词汇变化鲁棒，能反映模型的不确定性	同义改写不改变表示；多模输出应保留熵信息

作者证明了这四个公理的逻辑一致性、独立性和完备性。

对应量化指标

公理	量化方法	直觉
因果性	KL 替换误差：DKL(P(ysuf\|ypre) ‖ P(ysuf\|T))	T 替换 ypre 后，答案分布变了多少？越小越好
最小性	∆IB = CE(X\|Y,T) − CE(Y\|T)	T 是否只保留了对预测 Y 有用的信息？越大越好
可分离性	同任务/跨任务判别器准确率	T 能否区分不同问题实例？越高越好
稳定性	DCS (Distributional Consistency Score)：AUROC	T 能否预测输出分布的语义熵？越高越好

实验发现：系统性「表示坍缩」

作者在 BBEH (Big Bench Extra Hard) 的 23 个任务上，测试了 5 个不同架构的开源大模型：

Llama-3.1-8B-Instruct
Llama-3.3-70B-Instruct
DeepSeek-R1-Distill-Qwen-32B
Skywork-OR1-32B
GPT-OSS-20B (MoE)

测试的候选表示包括：

Last Input Token (LIT) 各层/最后一层
Soft Thinking (ST) 1/16/32/64/128 步
Soft Thinking with Gumbel Noise (STN)
Latent Thinking (LT) 1/16/32/64/128 步
Output Embedding (OE) —— 理论上界
Input Embedding (IE) —— 基准对照

发现一：跨任务区分没问题，同任务区分彻底崩了

指标	结果
跨任务准确率	几乎所有候选都接近饱和（能区分数学题 vs 医学题）
同任务准确率	几乎所有候选都接近随机水平（无法区分「13是不是质数」vs「14是不是质数」）

这就是论文说的 「细粒度表示坍缩」（fine-grained representational collapse）。

想象一下：一个医学生能分辨「这是内科病例还是外科病例」，但面对两个不同的内科病人，他却说「看起来都一样」。这就是当前 latent 表示的现状。

发现二：输入 prompt 的嵌入比 latent 表示更有竞争力

这是最具讽刺意味的发现：

在所有四个公理维度上，没有任何候选表示能稳定超过 Input Embedding（输入 prompt 的嵌入）

换句话说，我们花大力气设计的「思维表示」，还不如直接把问题文本扔进 embedding 层得到的结果。

这暗示了一个令人不安的可能性：这些 latent 表示并没有真正编码「推理过程」，只是在重复输入中已有的信息。

发现三：迭代步数增加反而可能有害

对于 Soft Thinking 和 Latent Thinking，增加 thinking steps（从 1 到 128）并没有带来系统性改善：

Stability (DCS)：随着步数增加，DCS 反而下降。迭代越多，表示对输出分布不确定性的编码越差。
Separability：同任务区分始终接近随机，步数无关。

这与直觉相悖——我们以为「想得更久」会得到更好的表示，但实验表明「想得太久」可能只是在做无意义的计算。

发现四：结构性缺陷，而非模型问题

这个失败模式在 dense、reasoning-distilled、RL-trained、MoE 四种架构中一致出现。

这说明问题不在于「模型不够大」或「训练不够好」，而是当前 latent 表示的设计思路本身存在结构性缺陷。

深层启示：我们到底在优化什么？

这篇论文最尖锐的批评是：现有评估方式把「表示质量」和「模型能力」混为一谈了。

当 downstream accuracy 高时，我们说「这个 latent 表示很好」。但可能真相是：

模型本身很强，即使给了垃圾表示，也能靠 decoder 硬解出来
表示本身可能并没有编码有用的推理信息

这就像评价一个学生「聪明」，不是看他「笔记写得多好」，而是看他「考试得分多高」。但问题是，如果考试可以作弊（decoder 很强），笔记的质量就被掩盖了。

这篇论文的框架把「笔记质量」和「考试能力」解耦了——它直接测量表示本身的功能性质，不依赖于 downstream 任务的表现。

对现有方法的审计结果

方法	Causality	Minimality	Separability	Stability	综合评价
Soft Thinking (ST)	≈ IE	略>IE	跨任务✓ 同任务✗	随步数下降	未达预期
Soft Thinking + Noise (STN)	≈ IE	略>IE	跨任务✓ 同任务✗	最差	Noise 损害稳定性
Latent Thinking (LT)	≈ IE	≈ IE	跨任务✓ 同任务✗	随步数下降	与 IE 几乎无差
Last Input Token (LIT)	≈ IE	<IE	跨任务✓ 同任务✗	≈ IE	不如直接用 IE
Input Embedding (IE)	基准	基准	跨任务✓ 同任务✗	基准	意想不到的强
Output Embedding (OE)	理论上界	不适用	唯一同任务>随机	不适用	知道答案当然强

局限与未来方向

作者坦诚地列出了局限：

Stability 的 lexical invariance 子属性未测：因为所有候选表示对同义改写天然不变（向量相同），这个子属性 trivial。
计算成本高于单 benchmark：需要生成输出、训练 probe，但相对信息价值值得。
仅覆盖 BBEH 的 23 个推理任务：多语言、非推理场景未涉及。
候选表示均来自预训练模型：专门训练以满足四个公理的表示可能是未来方向。

我的判断

这篇论文的学术价值很高，因为它：

建立了第一个 principled 的评估框架：不再靠启发式 proxy，而是用公理化定义 + 量化指标
揭示了被 accuracy 掩盖的真相：下游任务得分高 ≠ 表示质量好
给出了明确的优化目标：四个公理可以作为训练目标，而不仅是评估指标

但实践层面的影响可能有限——它更像是一份「体检报告」，告诉你「病人有这些问题」，但没有直接给出「治疗方案」。未来的工作需要在「如何设计满足四个公理的表示」上做文章。

一个有趣的延伸思考：如果输入 prompt 的嵌入已经这么强，那 latent reasoning 的价值到底在哪里？

可能的答案是：

压缩：对于长 CoT，latent 表示可以大幅压缩 token 数量
隐私：不暴露推理过程
多路径：一个 latent 向量可以编码多条推理路径的叠加态

但如果这些表示真的无法区分同一任务下的不同实例，那它们的「推理」成分就相当可疑了。

核心金句

"No candidate beats the Input Embedding reference on every axis across the tested LLMs."

"The representations encode little information beyond what is already present in the input embedding."

"The failure is consistent across dense, reasoning-distilled, and RL-trained model families, indicating that the gap is structural rather than a property of model size or training procedure."

标签: #AI #大语言模型 #LLM #论文解读 #深度学习 #latent_reasoning #表示学习 #公理化方法 #认知科学

#论文解读 #AI #LLM #latent_reasoning #表示学习 #UBC #深度学习 #认知科学 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力