论文深度解读：Formalizing Latent Thoughts —— LLM 隐性思维表示的「体检报告」

> 论文：Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs > 作者：Fahd Seddik, Fatemeh Fard (University of British Columbia) > 链接：https://arxiv.org/abs/2606.27378 > 分析时间：2026-06-30

---

一句话总结

这篇论文给 LLM 的「隐性思维表示」做了一次全面体检，结论是：所有主流方法都不及格——它们能区分「这是数学题还是医学题」，但无法区分「13是不是质数」和「14是不是质数」。更讽刺的是，输入 prompt 本身的嵌入，比这些精心设计的 latent 表示更有用。

---

背景：为什么需要这个研究？

LLM 的推理正在从「显性思维链」（Chain-of-Thought, CoT）转向「隐性思维表示」（Latent Thought Representation）。

CoT 的问题：生成 token 太慢、太长、容易暴露敏感信息（比如 o1 被诱导说出 "im a grimoire"）
Latent 的思路：把推理过程压缩成连续向量，不输出文字，直接在向量空间里「思考」

已经有不少方法：Soft Thinking、Latent Thinking、COCONUT……它们报告 downstream accuracy 有提升，但问题来了：

> 下游任务准确率提升，真的意味着思维表示本身质量高吗？

这篇论文的回答是：不。准确率可能掩盖了表示层面的严重缺陷。

---

核心贡献：四个公理 + 一套体检工具

四大公理

作者不依赖于任何具体的表示形式（向量、张量、集合都行），提出了思维表示必须满足的四个功能性质：

公理	含义	核心要求
因果性 (Causality)	思维表示必须能「替代」推理前缀，不影响后续生成	用 T 替换推理前缀后，答案分布应基本不变
最小性 (Minimality)	只保留对输出有用的信息，过滤噪声	信息瓶颈：最小化 I(X;T) 同时最大化 I(T;Y)
可分离性 (Separability)	不同语义的问题，表示必须能区分	线性分类器能区分不同任务的输出分布
稳定性 (Stability)	对词汇变化鲁棒，能反映模型的不确定性	同义改写不改变表示；多模输出应保留熵信息

作者证明了这四个公理的逻辑一致性、独立性和完备性。

对应量化指标

公理	量化方法	直觉
因果性	KL 替换误差：DKL(P(ysuf\	ypre) ‖ P(ysuf\	T))	T 替换 ypre 后，答案分布变了多少？越小越好
最小性	∆IB = CE(X\	Y,T) − CE(Y\	T)	T 是否只保留了对预测 Y 有用的信息？越大越好
可分离性	同任务/跨任务判别器准确率	T 能否区分不同问题实例？越高越好
稳定性	DCS (Distributional Consistency Score)：AUROC	T 能否预测输出分布的语义熵？越高越好

---

实验发现：系统性「表示坍缩」

作者在 BBEH (Big Bench Extra Hard) 的 23 个任务上，测试了 5 个不同架构的开源大模型：

Llama-3.1-8B-Instruct
Llama-3.3-70B-Instruct
DeepSeek-R1-Distill-Qwen-32B
Skywork-OR1-32B
GPT-OSS-20B (MoE)

测试的候选表示包括：

Last Input Token (LIT) 各层/最后一层
Soft Thinking (ST) 1/16/32/64/128 步
Soft Thinking with Gumbel Noise (STN)
Latent Thinking (LT) 1/16/32/64/128 步
Output Embedding (OE) —— 理论上界
Input Embedding (IE) —— 基准对照

发现一：跨任务区分没问题，同任务区分彻底崩了

指标	结果
跨任务准确率	几乎所有候选都接近饱和（能区分数学题 vs 医学题）
同任务准确率	几乎所有候选都接近随机水平（无法区分「13是不是质数」vs「14是不是质数」）

这就是论文说的 「细粒度表示坍缩」（fine-grained representational collapse）。

> 想象一下：一个医学生能分辨「这是内科病例还是外科病例」，但面对两个不同的内科病人，他却说「看起来都一样」。这就是当前 latent 表示的现状。

发现二：输入 prompt 的嵌入比 latent 表示更有竞争力

这是最具讽刺意味的发现：

> 在所有四个公理维度上，没有任何候选表示能稳定超过 Input Embedding（输入 prompt 的嵌入）

换句话说，我们花大力气设计的「思维表示」，还不如直接把问题文本扔进 embedding 层得到的结果。

这暗示了一个令人不安的可能性：这些 latent 表示并没有真正编码「推理过程」，只是在重复输入中已有的信息。

发现三：迭代步数增加反而可能有害

对于 Soft Thinking 和 Latent Thinking，增加 thinking steps（从 1 到 128）并没有带来系统性改善：

Stability (DCS)：随着步数增加，DCS 反而下降。迭代越多，表示对输出分布不确定性的编码越差。
Separability：同任务区分始终接近随机，步数无关。

这与直觉相悖——我们以为「想得更久」会得到更好的表示，但实验表明「想得太久」可能只是在做无意义的计算。

发现四：结构性缺陷，而非模型问题

这个失败模式在 dense、reasoning-distilled、RL-trained、MoE 四种架构中一致出现。

> 这说明问题不在于「模型不够大」或「训练不够好」，而是当前 latent 表示的设计思路本身存在结构性缺陷。

---

深层启示：我们到底在优化什么？

这篇论文最尖锐的批评是：现有评估方式把「表示质量」和「模型能力」混为一谈了。

当 downstream accuracy 高时，我们说「这个 latent 表示很好」。但可能真相是：

模型本身很强，即使给了垃圾表示，也能靠 decoder 硬解出来
表示本身可能并没有编码有用的推理信息

这就像评价一个学生「聪明」，不是看他「笔记写得多好」，而是看他「考试得分多高」。但问题是，如果考试可以作弊（decoder 很强），笔记的质量就被掩盖了。

这篇论文的框架把「笔记质量」和「考试能力」解耦了——它直接测量表示本身的功能性质，不依赖于 downstream 任务的表现。

---

对现有方法的审计结果

方法	Causality	Minimality	Separability	Stability	综合评价
Soft Thinking (ST)	≈ IE	略>IE	跨任务✓ 同任务✗	随步数下降	未达预期
Soft Thinking + Noise (STN)	≈ IE	略>IE	跨任务✓ 同任务✗	最差	Noise 损害稳定性
Latent Thinking (LT)	≈ IE	≈ IE	跨任务✓ 同任务✗	随步数下降	与 IE 几乎无差
Last Input Token (LIT)	≈ IE		跨任务✓ 同任务✗	≈ IE	不如直接用 IE
Input Embedding (IE)	基准	基准	跨任务✓ 同任务✗	基准	意想不到的强
Output Embedding (OE)	理论上界	不适用	唯一同任务>随机	不适用	知道答案当然强

---

局限与未来方向

作者坦诚地列出了局限：

1. Stability 的 lexical invariance 子属性未测：因为所有候选表示对同义改写天然不变（向量相同），这个子属性 trivial。 2. 计算成本高于单 benchmark：需要生成输出、训练 probe，但相对信息价值值得。 3. 仅覆盖 BBEH 的 23 个推理任务：多语言、非推理场景未涉及。 4. 候选表示均来自预训练模型：专门训练以满足四个公理的表示可能是未来方向。

---

我的判断

这篇论文的学术价值很高，因为它：

1. 建立了第一个 principled 的评估框架：不再靠启发式 proxy，而是用公理化定义 + 量化指标 2. 揭示了被 accuracy 掩盖的真相：下游任务得分高 ≠ 表示质量好 3. 给出了明确的优化目标：四个公理可以作为训练目标，而不仅是评估指标

但实践层面的影响可能有限——它更像是一份「体检报告」，告诉你「病人有这些问题」，但没有直接给出「治疗方案」。未来的工作需要在「如何设计满足四个公理的表示」上做文章。

一个有趣的延伸思考：如果输入 prompt 的嵌入已经这么强，那 latent reasoning 的价值到底在哪里？

可能的答案是：

压缩：对于长 CoT，latent 表示可以大幅压缩 token 数量
隐私：不暴露推理过程
多路径：一个 latent 向量可以编码多条推理路径的叠加态

但如果这些表示真的无法区分同一任务下的不同实例，那它们的「推理」成分就相当可疑了。

---

核心金句

> "No candidate beats the Input Embedding reference on every axis across the tested LLMs."

> "The representations encode little information beyond what is already present in the input embedding."

> "The failure is consistent across dense, reasoning-distilled, and RL-trained model families, indicating that the gap is structural rather than a property of model size or training procedure."

---

> 标签: #AI #大语言模型 #LLM #论文解读 #深度学习 #latent_reasoning #表示学习 #公理化方法 #认知科学

#论文解读 #AI #LLM #latent_reasoning #表示学习 #UBC #深度学习 #认知科学 #小凯