🎨 扩散模型为什么会画出六指的手？答案藏在「流形的褶皱」里

你见过扩散模型画的手吗？

大多数时候栩栩如生，但偶尔会冒出一只长了六根手指的手——像某种超现实主义的噩梦。你揉揉眼睛再看，模型却一脸无辜："统计上，这只手跟训练数据里的其他手没什么两样。"

这就是 结构性幻觉 (structural hallucination)：样本在统计上与训练数据一致，却违背了底层的结构规则 🖐️➕

来自华沙理工大学和哈佛医学院的研究者刚刚放出一篇论文，提出了一个令人耳目一新的视角：

> 幻觉不是时间的问题，而是空间的问题。它不是反向扩散过程中某个阶段的怪癖，而是模型诱导流形上的几何不稳定性。

换句话说，扩散模型不是在"画错了时间"，它是在"捏橡皮泥时把某个区域捏出了不该有的褶皱"。

---

1. 两种视角：时间 vs 空间

之前最火的解释来自 Aithal 等人 (2024) 的模式插值 (mode interpolation) 理论：

扩散模型在训练数据的不同模式之间做平滑插值。比如训练数据里有"五指手A"和"五指手B"，模型在两者之间的插值路径上，可能经过"六指手"这个训练分布之外的地方。

> 模式插值 (Mode Interpolation)：生成模型在训练数据分布的不同峰值（模式）之间生成平滑过渡样本时，可能会经过训练数据从未覆盖过的区域，从而产生虚假的、不真实的样本。

基于这个"时间视角"，Aithal 提出了 TVF (Trajectory Variance Filter)：监测反向扩散过程中样本轨迹的方差，方差大的样本更可能是幻觉。

但 Sobieski 团队问了一个更根本的问题：如果幻觉真的是流形几何的问题，我们能不能直接在空间上检测它？

---

2. LID：流形上的「皱褶探测器」

想象数据分布是一块橡皮泥。真实的人脸、手、猫的照片，都躺在这块橡皮泥的表面上。这个表面不是平坦的——它有褶皱、有山谷、有凸起。

局部内在维度 (Local Intrinsic Dimension, LID) 测量的是：在橡皮泥的某个具体位置，表面有多少个"独立的方向"可以延伸。

> 局部内在维度 (LID)：在流形学习的语境中，LID 描述的是数据流形在某一点附近的有效维度。如果数据真的躺在一个低维流形上（比如人脸照片虽然像素很多，但实际自由度只有几十个），那么 LID 应该接近这个低维数。如果 LID 突然膨胀，说明该区域的流形结构出现了"皱褶"或"膨胀"。

用数学语言说：扩散模型的生成器 $G_\theta$ 把噪声空间映射到数据流形 $M_\theta$。在点 $x_0$ 处，$G_\theta$ 的 Jacobian 矩阵有 $n$ 个奇异值 $\sigma_1, \sigma_2, \ldots, \sigma_n$。

理论上，大部分奇异值应该接近零（因为数据流形是低维的），只有前 $d$ 个显著非零：

$$\|J\|_F^2 = \sum_{i=1}^n \sigma_i^2 \approx \sum_{i=1}^{\lfloor \text{LID} \rfloor} \sigma_i^2$$

> Jacobian 矩阵：多元函数的一阶导数矩阵，描述了函数在某一点附近的局部线性近似。在生成模型中，Jacobian 的奇异值告诉我们：模型在输出空间的某个方向上有多敏感。

> Frobenius 范数 $\|J\|_F$：矩阵所有元素平方和的平方根，等于所有奇异值平方和的平方根。它衡量的是生成映射的"总体放大倍数"。

当 LID 膨胀时，意味着模型在某个区域创造了过多的自由度。 就像捏橡皮泥时，一个本来应该光滑的手掌部位突然起皱——这些褶皱就是"多余的手指"。

Sobieski 团队证明了两个关键命题：

Proposition 1：局部流形不稳定性 LMI 正比于 Jacobian 的 Frobenius 范数：

$$\text{LMI}(x_1) \approx \beta^2 \|J\|_F^2$$

Proposition 2：标准的 DSM 损失本身就是 LID 的无偏估计：

$$\mathcal{L}_{\text{DSM}}(x_0, t, \theta) = \text{LID}_\theta(x_0)$$

> DSM (Denoising Score Matching)：扩散模型训练的核心损失函数，让模型学习去噪。这里的关键发现是：DSM 损失不仅仅是训练目标，它还隐式编码了生成样本的局部内在维度！

这意味着什么？扩散模型在训练时，已经在无意识中学习了对 LID 的估计。 我们只需要把它"读出来"，就能知道哪个样本在"起皱"。

---

3. IQ：给流形「熨烫褶皱」

发现 LID 是幻觉的驱动因素后，作者提出了 Intrinsic Quenching (IQ) ——一个热力学启发的纠正机制。

IQ 的核心思想很简单：在反向扩散的某些时间步，给 score 函数加上一个"压平褶皱"的力：

$$\tilde{s}_\theta(x_t) = s_\theta(x_t) - \lambda_t \nabla_{x_t} \text{LID}_\theta(\hat{x}^\theta_0(x_t))$$

> Score 函数 $s_\theta(x_t)$：扩散模型学习的是数据分布对数的梯度 $\nabla \log p(x_t)$，称为 score。在反向过程中，score 指导噪声如何逐步变成真实样本。

从概率角度看，这等价于从一个Boltzmann 分布采样：

$$p_t^{\theta, \lambda_t}(x_t) \propto p_t^\theta(x_t) \cdot \mathbb{E}_{p_\theta(x_0|x_t)}\left[\exp(-\lambda_t \cdot \text{LID}_\theta(x_0))\right]$$

> Boltzmann 分布：统计物理中的经典分布，形式为 $P(x) \propto \exp(-E(x)/kT)$，其中能量低的态概率高。这里 LID 被当作"能量"：LID 越高的样本，生成概率被指数级抑制。

IQ 的工作机制就像一位雕塑家的手：

正常的 score 函数把 noise 推向数据流形（像把泥团拍成大致形状）
IQ 的额外项把样本推向流形上 LID 更低的区域（像用手指把不该有的褶皱抹平）

为了防止"过度压平"（把所有细节都磨没了），IQ 使用动态过滤：只有当 LID 超过阈值 $q$ 时才启用校正。稳定的样本不受影响，只有"起皱"的样本被干预。

---

4. 数据说话：HR 暴跌，UP 飙升

Sobieski 团队在 6 个数据集上做了大规模人工标注评估。结果相当震撼：

11kHands（手部图像，幻觉重灾区）

方法	幻觉率 HR↓	感知质量 UP↑
Baseline	29.3%	39.8%
DG	29.7%	39.5%
AAM	29.3%	40.6%
RODSCAS	25.8%	40.2%
IQ	9.0% 🔥	68.0% 🔥

幻觉率降低 69%，感知质量提升 71%。这不是微调，这是质变。

合成数据集（更干净的对照）

数据集	Baseline HR	IQ HR	降幅
MNIST	37.3%	10.2%	-73%
SimpleShapes	25.8%	9.4%	-64%
GaussianGrid	20.2%	8.9%	-56%

自然图像

数据集	Baseline HR	IQ HR
FFHQ	8.2%	4.2%
AFHQV2	6.9%	5.9%

自然图像上的基线幻觉率已经较低，但 IQ 仍能进一步压低。

医学图像：RSNA 骨骼数据集

方法	mAP↑	mROC↑
Baseline	0.27	0.85
IQ	0.31	0.86

> mAP (mean Average Precision)：目标检测/分割任务中衡量模型精度的指标，综合考虑了精确率和召回率。

> mROC (mean Area Under ROC Curve)：衡量二分类器区分正负样本能力的指标，值越接近 1 越好。

在医学图像生成中，幻觉不是"有趣的小错误"——它可能意味着在 CT 重建中凭空长出一段骨头，或在肿瘤分割中漏掉一个病灶。IQ 在这里的改进虽然数字上看起来不大，但临床意义巨大。

---

5. 为什么其他方法没这么好？

论文对比了四种基线方法：

方法	原理	局限
DG (Discriminator Guidance)	用判别器引导采样远离低概率区域	判别器有偏，导致采样不均匀
AAM (Adaptive Attention Modulation)	调节注意力图	需要训练异常检测模型，泛化性受限
RODSCAS	鲁棒优化采样	在某些数据集上反而增加幻觉
RODSSAS	单步自适应采样	与 RODSCAS 类似，效果不稳定

IQ 的独特优势在于它直接操作的是几何量（LID），而不是统计量（概率）或实现细节（注意力图）。 概率低的样本不一定是幻觉（可能是罕见但真实的样本），但几何结构不稳定的样本几乎一定是幻觉。

---

6. 局限与开放问题

作者诚实地指出了边界 🚧：

1. 计算成本：LID 需要计算 Jacobian 的奇异值分解，这在高维图像空间中是昂贵的 2. 阈值选择：动态过滤的阈值 $q$ 需要针对每个数据集调优 3. 只针对结构性幻觉：对语义级幻觉（比如"一只猫在开车"这种概念错误）可能无效 4. LID 估计的准确性：Proposition 2 的等式依赖于"充分小的时间步 $t$"假设

---

7. 我的赌注

我押注：LID 将成为生成模型质量评估的标准工具，就像 FID 和 IS 一样。

不仅仅因为它能检测幻觉，更因为它揭示了一个深层真相：生成模型的失败模式本质上是几何失败模式。当我们说"这只手画错了"，我们真正说的是"模型在这个流形区域的几何结构坍塌了"。

如果我是扩散模型的工程师，我会在每次生成后都检查 LID 分布。如果某批样本的 LID 直方图右移了——不管它们看起来多么"逼真"——我都会知道：模型正在起皱，需要熨一熨了 🔥

---

附录：论文详细信息（已核实 ✅）

字段	内容
标题	Local Intrinsic Dimension Unveils Hallucinations in Diffusion Models
作者	Bartlomiej Sobieski, Matthew Tivnan, Dawid Płudowski, Michał Jan Włodarczyk, Pengfei Jin, Przemyslaw Biecek, Quanzheng Li
机构	Centre for Credible AI, Warsaw University of Technology; University of Warsaw; Massachusetts General Hospital; Harvard Medical School
arXiv ID	2605.05026
日期	2026-05-06
核心发现	LID（局部内在维度）是扩散模型结构性幻觉的主要驱动因素；DSM 损失是 LID 的无偏估计；IQ 方法在 11kHands 上将幻觉率从 29.3% 降至 9.0%
方法	Intrinsic Quenching (IQ)：在反向扩散中通过修正 score 函数动态降低 LID，等价于从 Boltzmann 分布采样
实验规模	6 个数据集（11kHands, FFHQ, AFHQV2, MNIST, SimpleShapes, GaussianGrid）+ RSNA 医学图像；大规模人工标注

#CrushAI #扩散模型 #生成式AI #幻觉检测 #流形学习 #智柴系统实验室🎙️🎨