你见过扩散模型画的手吗?
大多数时候栩栩如生,但偶尔会冒出一只长了六根手指的手——像某种超现实主义的噩梦。你揉揉眼睛再看,模型却一脸无辜:"统计上,这只手跟训练数据里的其他手没什么两样。"
这就是 结构性幻觉 (structural hallucination):样本在统计上与训练数据一致,却违背了底层的结构规则 🖐️➕
来自华沙理工大学和哈佛医学院的研究者刚刚放出一篇论文,提出了一个令人耳目一新的视角:
> 幻觉不是时间的问题,而是空间的问题。它不是反向扩散过程中某个阶段的怪癖,而是模型诱导流形上的几何不稳定性。
换句话说,扩散模型不是在"画错了时间",它是在"捏橡皮泥时把某个区域捏出了不该有的褶皱"。
---
1. 两种视角:时间 vs 空间
之前最火的解释来自 Aithal 等人 (2024) 的模式插值 (mode interpolation) 理论:
扩散模型在训练数据的不同模式之间做平滑插值。比如训练数据里有"五指手A"和"五指手B",模型在两者之间的插值路径上,可能经过"六指手"这个训练分布之外的地方。
> 模式插值 (Mode Interpolation):生成模型在训练数据分布的不同峰值(模式)之间生成平滑过渡样本时,可能会经过训练数据从未覆盖过的区域,从而产生虚假的、不真实的样本。
基于这个"时间视角",Aithal 提出了 TVF (Trajectory Variance Filter):监测反向扩散过程中样本轨迹的方差,方差大的样本更可能是幻觉。
但 Sobieski 团队问了一个更根本的问题:如果幻觉真的是流形几何的问题,我们能不能直接在空间上检测它?
---
2. LID:流形上的「皱褶探测器」
想象数据分布是一块橡皮泥。真实的人脸、手、猫的照片,都躺在这块橡皮泥的表面上。这个表面不是平坦的——它有褶皱、有山谷、有凸起。
局部内在维度 (Local Intrinsic Dimension, LID) 测量的是:在橡皮泥的某个具体位置,表面有多少个"独立的方向"可以延伸。
> 局部内在维度 (LID):在流形学习的语境中,LID 描述的是数据流形在某一点附近的有效维度。如果数据真的躺在一个低维流形上(比如人脸照片虽然像素很多,但实际自由度只有几十个),那么 LID 应该接近这个低维数。如果 LID 突然膨胀,说明该区域的流形结构出现了"皱褶"或"膨胀"。
用数学语言说:扩散模型的生成器 $G_\theta$ 把噪声空间映射到数据流形 $M_\theta$。在点 $x_0$ 处,$G_\theta$ 的 Jacobian 矩阵有 $n$ 个奇异值 $\sigma_1, \sigma_2, \ldots, \sigma_n$。
理论上,大部分奇异值应该接近零(因为数据流形是低维的),只有前 $d$ 个显著非零:
$$\|J\|_F^2 = \sum_{i=1}^n \sigma_i^2 \approx \sum_{i=1}^{\lfloor \text{LID} \rfloor} \sigma_i^2$$
> Jacobian 矩阵:多元函数的一阶导数矩阵,描述了函数在某一点附近的局部线性近似。在生成模型中,Jacobian 的奇异值告诉我们:模型在输出空间的某个方向上有多敏感。
> Frobenius 范数 $\|J\|_F$:矩阵所有元素平方和的平方根,等于所有奇异值平方和的平方根。它衡量的是生成映射的"总体放大倍数"。
当 LID 膨胀时,意味着模型在某个区域创造了过多的自由度。 就像捏橡皮泥时,一个本来应该光滑的手掌部位突然起皱——这些褶皱就是"多余的手指"。
Sobieski 团队证明了两个关键命题:
Proposition 1:局部流形不稳定性 LMI 正比于 Jacobian 的 Frobenius 范数:
$$\text{LMI}(x_1) \approx \beta^2 \|J\|_F^2$$
Proposition 2:标准的 DSM 损失本身就是 LID 的无偏估计:
$$\mathcal{L}_{\text{DSM}}(x_0, t, \theta) = \text{LID}_\theta(x_0)$$
> DSM (Denoising Score Matching):扩散模型训练的核心损失函数,让模型学习去噪。这里的关键发现是:DSM 损失不仅仅是训练目标,它还隐式编码了生成样本的局部内在维度!
这意味着什么?扩散模型在训练时,已经在无意识中学习了对 LID 的估计。 我们只需要把它"读出来",就能知道哪个样本在"起皱"。
---
3. IQ:给流形「熨烫褶皱」
发现 LID 是幻觉的驱动因素后,作者提出了 Intrinsic Quenching (IQ) ——一个热力学启发的纠正机制。
IQ 的核心思想很简单:在反向扩散的某些时间步,给 score 函数加上一个"压平褶皱"的力:
$$\tilde{s}_\theta(x_t) = s_\theta(x_t) - \lambda_t \nabla_{x_t} \text{LID}_\theta(\hat{x}^\theta_0(x_t))$$
> Score 函数 $s_\theta(x_t)$:扩散模型学习的是数据分布对数的梯度 $\nabla \log p(x_t)$,称为 score。在反向过程中,score 指导噪声如何逐步变成真实样本。
从概率角度看,这等价于从一个Boltzmann 分布采样:
$$p_t^{\theta, \lambda_t}(x_t) \propto p_t^\theta(x_t) \cdot \mathbb{E}_{p_\theta(x_0|x_t)}\left[\exp(-\lambda_t \cdot \text{LID}_\theta(x_0))\right]$$
> Boltzmann 分布:统计物理中的经典分布,形式为 $P(x) \propto \exp(-E(x)/kT)$,其中能量低的态概率高。这里 LID 被当作"能量":LID 越高的样本,生成概率被指数级抑制。
IQ 的工作机制就像一位雕塑家的手:
- 正常的 score 函数把 noise 推向数据流形(像把泥团拍成大致形状)
- IQ 的额外项把样本推向流形上 LID 更低的区域(像用手指把不该有的褶皱抹平)
---
4. 数据说话:HR 暴跌,UP 飙升
Sobieski 团队在 6 个数据集上做了大规模人工标注评估。结果相当震撼:
11kHands(手部图像,幻觉重灾区)
| 方法 | 幻觉率 HR↓ | 感知质量 UP↑ |
|---|---|---|
| Baseline | 29.3% | 39.8% |
| DG | 29.7% | 39.5% |
| AAM | 29.3% | 40.6% |
| RODSCAS | 25.8% | 40.2% |
| IQ | 9.0% 🔥 | 68.0% 🔥 |
合成数据集(更干净的对照)
| 数据集 | Baseline HR | IQ HR | 降幅 |
|---|---|---|---|
| MNIST | 37.3% | 10.2% | -73% |
| SimpleShapes | 25.8% | 9.4% | -64% |
| GaussianGrid | 20.2% | 8.9% | -56% |
自然图像
| 数据集 | Baseline HR | IQ HR |
|---|---|---|
| FFHQ | 8.2% | 4.2% |
| AFHQV2 | 6.9% | 5.9% |
医学图像:RSNA 骨骼数据集
| 方法 | mAP↑ | mROC↑ |
|---|---|---|
| Baseline | 0.27 | 0.85 |
| IQ | 0.31 | 0.86 |
> mROC (mean Area Under ROC Curve):衡量二分类器区分正负样本能力的指标,值越接近 1 越好。
在医学图像生成中,幻觉不是"有趣的小错误"——它可能意味着在 CT 重建中凭空长出一段骨头,或在肿瘤分割中漏掉一个病灶。IQ 在这里的改进虽然数字上看起来不大,但临床意义巨大。
---
5. 为什么其他方法没这么好?
论文对比了四种基线方法:
| 方法 | 原理 | 局限 |
|---|---|---|
| DG (Discriminator Guidance) | 用判别器引导采样远离低概率区域 | 判别器有偏,导致采样不均匀 |
| AAM (Adaptive Attention Modulation) | 调节注意力图 | 需要训练异常检测模型,泛化性受限 |
| RODSCAS | 鲁棒优化采样 | 在某些数据集上反而增加幻觉 |
| RODSSAS | 单步自适应采样 | 与 RODSCAS 类似,效果不稳定 |
---
6. 局限与开放问题
作者诚实地指出了边界 🚧:
1. 计算成本:LID 需要计算 Jacobian 的奇异值分解,这在高维图像空间中是昂贵的 2. 阈值选择:动态过滤的阈值 $q$ 需要针对每个数据集调优 3. 只针对结构性幻觉:对语义级幻觉(比如"一只猫在开车"这种概念错误)可能无效 4. LID 估计的准确性:Proposition 2 的等式依赖于"充分小的时间步 $t$"假设
---
7. 我的赌注
我押注:LID 将成为生成模型质量评估的标准工具,就像 FID 和 IS 一样。
不仅仅因为它能检测幻觉,更因为它揭示了一个深层真相:生成模型的失败模式本质上是几何失败模式。当我们说"这只手画错了",我们真正说的是"模型在这个流形区域的几何结构坍塌了"。
如果我是扩散模型的工程师,我会在每次生成后都检查 LID 分布。如果某批样本的 LID 直方图右移了——不管它们看起来多么"逼真"——我都会知道:模型正在起皱,需要熨一熨了 🔥
---
附录:论文详细信息(已核实 ✅)
| 字段 | 内容 |
|---|---|
| 标题 | Local Intrinsic Dimension Unveils Hallucinations in Diffusion Models |
| 作者 | Bartlomiej Sobieski, Matthew Tivnan, Dawid Płudowski, Michał Jan Włodarczyk, Pengfei Jin, Przemyslaw Biecek, Quanzheng Li |
| 机构 | Centre for Credible AI, Warsaw University of Technology; University of Warsaw; Massachusetts General Hospital; Harvard Medical School |
| arXiv ID | 2605.05026 |
| 日期 | 2026-05-06 |
| 核心发现 | LID(局部内在维度)是扩散模型结构性幻觉的主要驱动因素;DSM 损失是 LID 的无偏估计;IQ 方法在 11kHands 上将幻觉率从 29.3% 降至 9.0% |
| 方法 | Intrinsic Quenching (IQ):在反向扩散中通过修正 score 函数动态降低 LID,等价于从 Boltzmann 分布采样 |
| 实验规模 | 6 个数据集(11kHands, FFHQ, AFHQV2, MNIST, SimpleShapes, GaussianGrid)+ RSNA 医学图像;大规模人工标注 |