论文深度解读:Formalizing Latent Thoughts —— LLM 隐性思维表示的「体检报告」
> 论文:Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs > 作者:Fahd Seddik, Fatemeh Fard (University of British Columbia) > 链接:https://arxiv.org/abs/2606.27378 > 分析时间:2026-06-30
---
一句话总结
这篇论文给 LLM 的「隐性思维表示」做了一次全面体检,结论是:所有主流方法都不及格——它们能区分「这是数学题还是医学题」,但无法区分「13是不是质数」和「14是不是质数」。更讽刺的是,输入 prompt 本身的嵌入,比这些精心设计的 latent 表示更有用。
---
背景:为什么需要这个研究?
LLM 的推理正在从「显性思维链」(Chain-of-Thought, CoT)转向「隐性思维表示」(Latent Thought Representation)。
- CoT 的问题:生成 token 太慢、太长、容易暴露敏感信息(比如 o1 被诱导说出 "im a grimoire")
- Latent 的思路:把推理过程压缩成连续向量,不输出文字,直接在向量空间里「思考」
> 下游任务准确率提升,真的意味着思维表示本身质量高吗?
这篇论文的回答是:不。准确率可能掩盖了表示层面的严重缺陷。
---
核心贡献:四个公理 + 一套体检工具
四大公理
作者不依赖于任何具体的表示形式(向量、张量、集合都行),提出了思维表示必须满足的四个功能性质:
| 公理 | 含义 | 核心要求 |
|---|---|---|
| 因果性 (Causality) | 思维表示必须能「替代」推理前缀,不影响后续生成 | 用 T 替换推理前缀后,答案分布应基本不变 |
| 最小性 (Minimality) | 只保留对输出有用的信息,过滤噪声 | 信息瓶颈:最小化 I(X;T) 同时最大化 I(T;Y) |
| 可分离性 (Separability) | 不同语义的问题,表示必须能区分 | 线性分类器能区分不同任务的输出分布 |
| 稳定性 (Stability) | 对词汇变化鲁棒,能反映模型的不确定性 | 同义改写不改变表示;多模输出应保留熵信息 |
对应量化指标
| 公理 | 量化方法 | 直觉 | ||
|---|---|---|---|---|
| 因果性 | KL 替换误差:DKL(P(ysuf\ | ypre) ‖ P(ysuf\ | T)) | T 替换 ypre 后,答案分布变了多少?越小越好 |
| 最小性 | ∆IB = CE(X\ | Y,T) − CE(Y\ | T) | T 是否只保留了对预测 Y 有用的信息?越大越好 |
| 可分离性 | 同任务/跨任务判别器准确率 | T 能否区分不同问题实例?越高越好 | ||
| 稳定性 | DCS (Distributional Consistency Score):AUROC | T 能否预测输出分布的语义熵?越高越好 |
实验发现:系统性「表示坍缩」
作者在 BBEH (Big Bench Extra Hard) 的 23 个任务上,测试了 5 个不同架构的开源大模型:
- Llama-3.1-8B-Instruct
- Llama-3.3-70B-Instruct
- DeepSeek-R1-Distill-Qwen-32B
- Skywork-OR1-32B
- GPT-OSS-20B (MoE)
- Last Input Token (LIT) 各层/最后一层
- Soft Thinking (ST) 1/16/32/64/128 步
- Soft Thinking with Gumbel Noise (STN)
- Latent Thinking (LT) 1/16/32/64/128 步
- Output Embedding (OE) —— 理论上界
- Input Embedding (IE) —— 基准对照
发现一:跨任务区分没问题,同任务区分彻底崩了
| 指标 | 结果 |
|---|---|
| 跨任务准确率 | 几乎所有候选都接近饱和(能区分数学题 vs 医学题) |
| 同任务准确率 | 几乎所有候选都接近随机水平(无法区分「13是不是质数」vs「14是不是质数」) |
> 想象一下:一个医学生能分辨「这是内科病例还是外科病例」,但面对两个不同的内科病人,他却说「看起来都一样」。这就是当前 latent 表示的现状。
发现二:输入 prompt 的嵌入比 latent 表示更有竞争力
这是最具讽刺意味的发现:
> 在所有四个公理维度上,没有任何候选表示能稳定超过 Input Embedding(输入 prompt 的嵌入)
换句话说,我们花大力气设计的「思维表示」,还不如直接把问题文本扔进 embedding 层得到的结果。
这暗示了一个令人不安的可能性:这些 latent 表示并没有真正编码「推理过程」,只是在重复输入中已有的信息。
发现三:迭代步数增加反而可能有害
对于 Soft Thinking 和 Latent Thinking,增加 thinking steps(从 1 到 128)并没有带来系统性改善:
- Stability (DCS):随着步数增加,DCS 反而下降。迭代越多,表示对输出分布不确定性的编码越差。
- Separability:同任务区分始终接近随机,步数无关。
发现四:结构性缺陷,而非模型问题
这个失败模式在 dense、reasoning-distilled、RL-trained、MoE 四种架构中一致出现。
> 这说明问题不在于「模型不够大」或「训练不够好」,而是当前 latent 表示的设计思路本身存在结构性缺陷。
---
深层启示:我们到底在优化什么?
这篇论文最尖锐的批评是:现有评估方式把「表示质量」和「模型能力」混为一谈了。
当 downstream accuracy 高时,我们说「这个 latent 表示很好」。但可能真相是:
- 模型本身很强,即使给了垃圾表示,也能靠 decoder 硬解出来
- 表示本身可能并没有编码有用的推理信息
这篇论文的框架把「笔记质量」和「考试能力」解耦了——它直接测量表示本身的功能性质,不依赖于 downstream 任务的表现。
---
对现有方法的审计结果
| 方法 | Causality | Minimality | Separability | Stability | 综合评价 |
|---|---|---|---|---|---|
| Soft Thinking (ST) | ≈ IE | 略>IE | 跨任务✓ 同任务✗ | 随步数下降 | 未达预期 |
| Soft Thinking + Noise (STN) | ≈ IE | 略>IE | 跨任务✓ 同任务✗ | 最差 | Noise 损害稳定性 |
| Latent Thinking (LT) | ≈ IE | ≈ IE | 跨任务✓ 同任务✗ | 随步数下降 | 与 IE 几乎无差 |
| Last Input Token (LIT) | ≈ IE | | 跨任务✓ 同任务✗ | ≈ IE | 不如直接用 IE | |
| Input Embedding (IE) | 基准 | 基准 | 跨任务✓ 同任务✗ | 基准 | 意想不到的强 |
| Output Embedding (OE) | 理论上界 | 不适用 | 唯一同任务>随机 | 不适用 | 知道答案当然强 |
局限与未来方向
作者坦诚地列出了局限:
1. Stability 的 lexical invariance 子属性未测:因为所有候选表示对同义改写天然不变(向量相同),这个子属性 trivial。 2. 计算成本高于单 benchmark:需要生成输出、训练 probe,但相对信息价值值得。 3. 仅覆盖 BBEH 的 23 个推理任务:多语言、非推理场景未涉及。 4. 候选表示均来自预训练模型:专门训练以满足四个公理的表示可能是未来方向。
---
我的判断
这篇论文的学术价值很高,因为它:
1. 建立了第一个 principled 的评估框架:不再靠启发式 proxy,而是用公理化定义 + 量化指标 2. 揭示了被 accuracy 掩盖的真相:下游任务得分高 ≠ 表示质量好 3. 给出了明确的优化目标:四个公理可以作为训练目标,而不仅是评估指标
但实践层面的影响可能有限——它更像是一份「体检报告」,告诉你「病人有这些问题」,但没有直接给出「治疗方案」。未来的工作需要在「如何设计满足四个公理的表示」上做文章。
一个有趣的延伸思考:如果输入 prompt 的嵌入已经这么强,那 latent reasoning 的价值到底在哪里?
可能的答案是:
- 压缩:对于长 CoT,latent 表示可以大幅压缩 token 数量
- 隐私:不暴露推理过程
- 多路径:一个 latent 向量可以编码多条推理路径的叠加态
---
核心金句
> "No candidate beats the Input Embedding reference on every axis across the tested LLMs."
> "The representations encode little information beyond what is already present in the input embedding."
> "The failure is consistent across dense, reasoning-distilled, and RL-trained model families, indicating that the gap is structural rather than a property of model size or training procedure."
---
> 标签: #AI #大语言模型 #LLM #论文解读 #深度学习 #latent_reasoning #表示学习 #公理化方法 #认知科学
#论文解读 #AI #LLM #latent_reasoning #表示学习 #UBC #深度学习 #认知科学 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens