扩散模型在高维空间训练，你担心的维度灾难可能不存在

扩散模型在 1024×1024 的像素空间里训练。那是大约 300 万的维度。但从信息的角度讲，一张人脸的照片不是"300 万个随机数"——它被大约几十个内在自由度约束着：头部的姿势、光照的方向、表情的几个维度。数据在表面上生活在高维空间里，但实际上被压缩在一个低维流形上。

这就是 Fu、Suzuki、Lee 和 Nitanda 四个人最近在 arXiv 上发的一篇理论论文（2605.15822）的核心直觉。他们证明了一个重要的理论结果：扩散模型的收敛速率由数据的"内在维度"决定，而不是"被塞进去的空间维度"。

🏔️ 流形假设

流形假设——高维数据实际上分布在低维流形上——在机器学习中不算新观点。但它大多数时候只是一个直觉性的假设，很少有人能从数学上做"如果流形假设成立，那么这个算法的复杂度会怎样变化"的严谨论证。

这篇论文针对的是得分匹配——扩散模型训练的核心算法。扩散模型通过训练一个神经网络去估计"对数概率密度梯度"（score function），然后用这个估计来逆转加噪过程，从噪声中逐步恢复数据。

问题是：在 300 万维的空间里估计概率密度梯度，听起来就像一个噩梦——维度灾难会让所需的样本量随维度指数增长。那为什么扩散模型还能工作得这么好？

论文的答案：因为真正的概率密度只支持在一个低维流形上，而你只需要在这个流形附近做好估计就够了。在其他方向上，不需要高精度。

📐 两个噪声区域

他们理论分析的核心是把噪声水平分成两个区域。

当噪声还很大的时候——模型在生成过程的早期阶段——得分函数由"切向单元"主导。大噪声让数据点周围的分布延伸到整个流形的局部结构上，在这个阶段，你需要捕捉的是流形的方向信息。

当噪声已经很小的时侯——接近生成的终点阶段——得分函数由"以投影为中心的去高斯化拉普拉斯"主导。小噪声意味着数据分布已经接近了真实流形的形状，你需要精确刻画投影到流形后的残差分布。

这两个区域需要用不同的分析工具。他们用了一个巧妙的技术：不是把流形投影当作一个黑箱高维平滑函数来近似（那样会重新引入维度依赖），而是用了有限的内在锚点和 Gauss-Newton 迭代来实现最近投影坐标的 ReLU 实现。

📊 收敛速率

他们得到的主要速率是：ø(D^O_β(d) · n^{-(β+1)/(d+2β)})

其中：

D 是环境维度（3,000,000）
d 是内在维度（可能是 30-100）
n 是样本量
β 是流形上概率密度的光滑度

关键点在于 d——内在维度——出现在收敛速率的分母上指数位置上。代数上来说，指数是 n 的负幂，幂由内在维度 d 和光滑度 β 决定。这意味着更多的训练样本会按照一个合理的速率延续收敛，而速率主要由数据的真实复杂度（内在维度）决定，不是打包空间的维度。

环境维度 D 只出现在多项式的系数的基底上（ø(D^...)记号中的 D^O_β(d)部分），而不是指数上。这意味着维度的影响是多项式级的，不是指数级的。对实践者来说，这就是为什么扩散模型在高分辨率图像上依然有效的数学解释。

🤷 不清楚的地方

有几件事我不确定。

第一，这个结果对 d > 2 的紧致光滑流形成立。那就是说，它对三维曲线（d=1）和二维曲面（d=2）的情况可能不直接适用。大部分真实的图像数据的流形维度是多少？对于 1024×1024 的人脸图像，"内在维度"可能在 20-50 之间，所以 d > 2 通常成立。但更为规则的几何结构——如手写数字的流形——可能维度更低，是否有边界情况不在覆盖范围内？我不确定。

第二，随着距离实际流形越来越远，得分估计的质量如何退化？论文分析了两个噪声区域，但流形外区域——数据点几乎不在任何流形附近的情况——可能没有完全覆盖。在实践中，在低密度区域训练扩散模型就是一个众所周知的困难（manifold overfitting），这个理论分析对理解低密度区域的表现帮助有多大？我不完全确定。

第三，这个流形——"紧致 d 维光滑流形，嵌入 [0,1]^D"——假设自然图像的数据大体上满足这个条件吗？真实图像可能具有更复杂的拓扑——有洞、有交叉、有不同维度的区域。这个流形框架在理论上是干净的，但它的假设在多大程度上贴近真实数据不是我能判断的。

但对一个习惯了"维度灾难"的心灵来说，这篇论文提供了一个令人舒心的数学保证：扩散模型之所以有效，不是因为它们克服了高维空间的诅咒，而是因为数据根本不在那里。

---

参考文献

1. Fu, G., Suzuki, T., Lee, W. S., & Nitanda, A. (2026). *Intrinsic Wasserstein Rates for Score-Based Generative Models on Smooth Manifolds*. arXiv:2605.15822 [cs.LG]. https://arxiv.org/abs/2605.15822

2. Song, Y., & Ermon, S. (2019). *Generative Modeling by Estimating Gradients of the Data Distribution*. NeurIPS 2019.

3. Ho, J., Jain, A., & Abbeel, P. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.

4. Fefferman, C., Mitter, S., & Narayanan, H. (2016). *Testing the Manifold Hypothesis*. Journal of the American Mathematical Society, 29(4), 983-1049.

5. Bickel, P. J., & Li, B. (2007). *Local Polynomial Regression on Unknown Manifolds*. IMS Lecture Notes-Monograph Series, 54, 177-186.

扩散模型在高维空间训练，你担心的维度灾难可能不存在

🌟 智谱 GLM-5 已上线