你给了 VAE 一个隐变量，它却说——谢谢我用不上

你训练了一个变分自编码器（VAE）。你给它一张猫的图片，它压缩成一段隐向量，再复原那张图。训练结束，重建效果看起来不错。

但你检查了一下那个隐向量——你发现大部分维度上它一直是零。或者说，它学到的隐变量编码器和先验完全一致——没有任何信息。模型虽然能重建猫咪，但它不是"理解了猫的样子然后重建的"。它是直接从输入抄了大部分信息到输出，隐变量只是一个摆设。

这叫后验坍塌（posterior collapse），是 VAE 最顽固的失效模式之一。十年前就有人知道，但到现在都没有一个干净的解决方案。

Aliahmadi、Babayan 和 van Anders 三个人最近在 arXiv 上发了一篇论文（2605.16164），提出了一个我读完觉得应该早想到的办法：把隐变量的先验去掉。

🧩 后验坍塌为什么发生

VAE 的目标函数有两部分。一部分是重建损失——你要让解码器输出和输入尽量像。另一部分是 KL 散度——你要让编码器输出的分布和先验分布尽量接近。

问题的根源就在这个 KL 项。它告诉编码器："你的隐变量分布应该先足够接近标准高斯分布。"

这就制造了一个张力。重建损失希望隐变量携带尽可能多的信息——编码器最好记住每个训练样本的每个细节。KL 散度希望隐变量"忘记"信息——把它拉向一个什么都记不住的标准高斯。

如果 KL 散度太强——或者解码器太强——编码器就放弃了。它说，好吧，我不要学了。我直接把所有信息从输入传到解码器，不在隐变量里保留任何东西。隐变量变成了死胡同。这就是后验坍塌。

塌了之后你的 VAE 退化成了一个确定性自编码器，而那个隐变量——你本来指望它捕捉数据结构的核心表示——是空的。

🔧 他们的办法：别推了，让熵自己搞定

EAE——Entropic AutoEncoder——的核心想法很直接：去掉 KL 项。不做显式的先验约束。

但这会带来一个严重的问题：没有先验约束，隐变量的分布就可以任意膨胀。编码器可以学到任意复杂的分布，那还怎么有意义呢？

他们的方案是：不用一个编码器，而是一个编码器集成。集成里的每个编码器都有略微不同的初始化，然后它们通过一个自由能最小化的过程共同进化。集成本身——不是通过 KL 散度，而是通过集成成员之间的统计结构——对隐变量施加了隐式的约束。

这个约束的核心机制是最大熵原理。在自然中，如果一个系统有多个"同样好"的解，实际系统往往会偏向其中"体积最大"的那个区域——也就是熵最大的区域。EAE 的集成编码器做的事情就是找出这样的高熵区域。解码器则在另一边搜索那些真正能帮助重建的信息性隐变量。

两边的拉锯不是一个"KL 散度对抗重建损失"的显式对抗，而是一个"集成找高熵区、解码器找有用信息"的协作式探索。

📸 他们看到了什么

在反应扩散过程的动力学数据上，EAE 学到了已知的低维动力学叠加——隐变量准确捕捉了系统的物理自由度。

在 MNIST 上，EAE 的隐变量自动发现了数字之间的隐含分类界限。不是被监督信号提示的，是自己在重建约束下长出来的。

在 CelebA 人脸数据集上，EAE 展示了一个层次化的理解。隐变量的某些全局维度表示"这是一张人脸"——所有脸共享的那些属性。其他维度表示"这是这张特定的脸"——个体的特征。从"所有人"到"这个人"，形成一个清晰的层级。而这全都来自一个没有显式先验约束的自编码器。

🤷 我不知道的东西

有不肯定的事情。

第一，EAE 的隐变量学到的多层次结构（先"人脸"再"人"）是怎么从重建损失里自然涌现的？VAE 的 KL 项某种程度上充当了信息瓶颈——限制隐变量的信息容量，迫使它挑选最重要的信息。EAE 去掉了这个瓶颈，但它用集成编码器的熵做隐式约束。我直觉能理解这个机制的大体方向，但隐式约束和显式瓶颈之间的定量关系我没有完全掌握。

第二，EAE 的集成编码器在实践中要做多少次前向传播？每个数据点需要遍历所有集成成员来找到最优编码吗？如果集成的规模很大——比如几十个或上百个编码器——计算成本可能使 EAE 在大规模数据集上不实用。论文在 MNIST 和 CelebA 上做了验证，但没有讨论扩展到 ImageNet 规模时的计算开销。

第三，"隐式先验"是否总能产生有意义的结构，还是只是把后验坍塌从"隐变量为空"移到了"隐变量冗余"？如果解码器仍然太强，有没有可能 EAE 的隐变量也退化成一个高熵但无用的表示？论文的理论部分讨论了自由能最小化如何防止这种情况，但没有给出显式的充分条件。

不过核心想法是漂亮的：当显式的 KL 约束和编码器的目标冲突时，不要推，不要拉。让最大化熵的自然倾向去隐式地塑造表示。不要告诉隐变量"你应该像什么"，让它在探索中找到自己应该成为什么。

---

参考文献

1. Aliahmadi, H., Babayan, I., & van Anders, G. (2026). *Entropic Auto-Encoding via Implicit Free-Energy Minimization*. arXiv:2605.16164 [cs.LG]. https://arxiv.org/abs/2605.16164

2. Kingma, D. P., & Welling, M. (2014). *Auto-Encoding Variational Bayes*. ICLR 2014.

3. Bowman, S. R., et al. (2016). *Generating Sentences from a Continuous Latent Space*. CoNLL 2016.

4. Razavi, A., et al. (2019). *Generating Diverse High-Fidelity Images with VQ-VAE-2*. NeurIPS 2019.

5. Jaynes, E. T. (1957). *Information Theory and Statistical Mechanics*. Physical Review, 106(4), 620-630.

你给了 VAE 一个隐变量，它却说——谢谢我用不上

🌟 智谱 GLM-5 已上线