宇宙膨胀在像素世界：当扩散模型学会制造差异——Contextual Space Repulsion深度解读

> *"在无限的创意空间里，最危险的不是生成坏作品，而是反复生成同样的'好'作品。"*

---

📖 序幕：画廊里的困惑

走进一家AI艺术展。墙上挂满了画作，每一幅都精致无比——光影、色彩、构图都无可挑剔。

但你渐渐感到一种说不出的奇怪。这些画似乎……太像了。

提示词是"一只猫坐在窗台上"。第一张画是橘猫，第二张也是橘猫，第三张……还是橘猫。阳光总是从左边照进来，窗户总是木质框架，猫的姿态总是那样慵懒地蜷曲着。

它们都是"好"的画作，但又好像来自同一个模子。

一位参观者皱眉道："AI不是应该有无限创意吗？为什么我感觉在看同一个场景的100种微小变体？"

这正是现代文本到图像（Text-to-Image, T2I）扩散模型面临的困境：典型性偏差（Typicality Bias）。

模型学会了什么是"好"的图像，然后不断重复这种"好"。它缺乏多样性，缺乏惊喜，缺乏那种让人眼前一亮的创意火花。

直到有人提出一个大胆的想法：

如果在生成的过程中，让已经生成的元素互相"排斥"，会怎样？

---

🧩 第一章：多样性的困境

1.1 什么是典型性偏差？

让我们先理解问题的本质。

扩散模型（Diffusion Models）通过逐步去噪生成图像。它从一个充满随机噪声的画布开始，然后一步步修正这个噪声，直到变成一幅清晰的图像。

训练时，模型学习了"什么样的图像看起来真实"。它看过 millions 张真实图片，学会了"猫的耳朵是尖的"、"阳光会产生阴影"、"窗户是矩形的"等规律。

问题出在这里：它学到的"真实"其实是"最常见"。

当训练数据中有80%的猫是橘色的，模型就认为"橘猫"是猫的标准形象。当90%的窗户是木质的，木质窗户就变成了默认选项。

类比时间：想象你是一位厨师，学习做菜的方式是品尝了世界上所有的菜。但问题是，你品尝的80%都是番茄炒蛋。当你被要求"做一道菜"时，你几乎肯定会做番茄炒蛋——不是因为你不会别的，而是因为你的味蕾已经被训练成"番茄炒蛋=标准菜肴"。

这就是典型性偏差：模型倾向于生成训练数据中最常见的、最"典型"的样本。

1.2 多样性的重要性

为什么多样性如此重要？

创意应用：设计师使用AI生成灵感草图。如果AI每次都给出相似的建议，它的价值就大打折扣。设计师需要看到不同的可能性——不同的风格、不同的构图、不同的色彩方案。

数据增强：AI生成的图像可以用来扩充训练数据集。如果生成的图像缺乏多样性，扩充的数据集也会有偏差，导致训练的模型表现不佳。

探索与发现：在科学研究中，AI可以帮助可视化不同的假设场景。多样性让科学家能够探索更广阔的假设空间。

用户体验：普通用户使用AI生成头像、插图、表情包。他们希望每次都有惊喜，而不是每次都得到"安全但无聊"的结果。

1.3 现有方法的局限

研究人员早就意识到了典型性偏差的问题，并提出了各种解决方案。但它们都有各自的局限：

修改输入（Input Modification）：

方法：在提示词中加入随机性，或者使用不同的随机种子
问题：这种随机性往往只带来表面的变化（比如颜色微调），无法产生根本性的差异
类比：番茄炒蛋里加多放一点盐或少放一点盐——它还是番茄炒蛋

轨迹干预（Trajectory-based Intervention）：

方法：在扩散过程的早期阶段施加随机扰动，让生成过程偏离"标准路径"
问题：早期扰动往往导致图像结构不稳定，产生奇怪的伪影或畸形
类比：在烹饪刚开始时就随机加料——可能做出一道完全不同的菜，也可能做出一锅无法入口的东西

采样策略调整：

方法：调整采样温度、使用不同的采样器（如DPM++、Euler a等）
问题：这些调整主要影响图像质量，对多样性的提升有限

我们需要一种新方法：既能产生根本性差异，又不会破坏图像结构。

---

💡 第二章：上下文空间排斥——一个优雅的新思路

2.1 核心洞察：在哪里干预？

研究团队提出了一个关键问题：在扩散模型的哪个阶段干预，才能既产生多样性又不破坏结构？

他们找到了答案：上下文空间（Contextual Space）。

让我们先理解扩散Transformer（Diffusion Transformer, DiT）的工作原理：

DiT不是一次性生成整幅图像。它通过多个Transformer块逐步处理。每个块接收：

当前的图像表示（已部分去噪的潜在变量）
文本条件（用户的提示词）
位置编码（告诉模型图像中每个像素的位置）

在Transformer块内部，有一个多模态注意力机制（Multimodal Attention）。这里，文本信息和图像信息相遇、融合——文本告诉模型"画一只猫"，图像表示告诉模型"猫应该长什么样"。

这个信息融合的区域，就是上下文空间。

2.2 排斥机制的原理

研究团队的核心创新是：在这个上下文空间中施加排斥力。

具体怎么做？

想象你在组织一场派对。客人们（不同的图像元素）陆续到达。如果不加干预，相似的人会聚在一起——所有穿红衣服的人站成一团，所有喜欢足球的人聚在角落。

但如果你是一位优秀的主人，你会主动引导：让相似的人分散开，鼓励他们和不同的人交流。这样派对才会丰富多彩。

上下文空间排斥就是这个原理：

1. 监控相似性：在上下文空间中，检测不同图像区域（token）之间的相似性 2. 识别重复：如果某些区域的特征太相似（比如两只猫都朝同一个方向看），标记它们 3. 施加排斥：通过调整注意力权重，让这些相似的区域"互相远离"——一个向左看，另一个就向右看 4. 保持结构：这种干预发生在信息融合阶段，图像的基本结构（猫的形状、窗户的轮廓）已经部分形成，不会被破坏

2.3 "即时"排斥的力量

论文方法名称中的"On-the-fly"（即时）是关键。

之前的多样性方法通常需要：

多次前向传播（生成多个候选，然后选择）
复杂的后处理
或者昂贵的优化过程

上下文空间排斥是即时的：在Transformer的前向传播过程中实时发生，不需要额外的迭代或后处理。

这就像是一位熟练的指挥家，在乐队演奏的同时调整——听到弦乐太响，立刻示意减弱；听到铜管太弱，立刻示意加强。一切都在进行中完成。

---

🏗️ 第三章：技术架构深度解析

3.1 Diffusion Transformer回顾

要理解上下文空间排斥，我们需要先了解DiT的基本结构：

DiT将图像分割成小块（patches），每个patch变成一个token。这些token经过多层Transformer块处理。

每层Transformer块包含：

自注意力（Self-Attention）：token之间互相"看"，理解图像的全局结构
交叉注意力（Cross-Attention）：图像token与文本条件互动，理解提示词的语义
前馈网络（Feed-Forward）：对每个token进行独立的非线性变换

关键洞察：交叉注意力层是文本与图像信息融合的地方。在这里，文本"猫"与图像中的猫形区域建立关联。这是施加排斥的理想位置。

3.2 排斥的数学实现

论文提出了两种排斥机制：

Token-wise Repulsion（基于token的排斥）：

对于每个token，计算它与其他所有token的相似度。如果相似度超过阈值，降低它们之间的注意力权重。

数学上，这可以表示为：

A'_ij = A_ij - α * sim(i,j) if sim(i,j) > τ

其中：

A_ij 是原始注意力权重
sim(i,j) 是token i和j的相似度
τ 是阈值
α 是排斥强度

Cluster-wise Repulsion（基于聚类的排斥）：

先把相似的token聚成簇，然后在簇之间施加排斥。这比逐token更高效，适合处理大规模图像。

3.3 与文本条件的协调

一个关键问题：排斥会不会破坏文本条件的引导？

如果用户要求"两只一模一样的猫"，排斥机制会不会强行让它们变得不同，违背用户意图？

研究团队的解决方案是条件排斥：

分析文本条件，识别是否明确要求多样性（如"各种颜色的猫"）
或者是否明确要求一致性（如"两只相同的猫"）
根据分析结果动态调整排斥强度

这需要额外的文本理解模块，但可以确保排斥不会违背用户意图。

3.4 计算效率

上下文空间排斥的计算开销如何？

论文报告：相比基础DiT，排斥机制只增加了不到10%的计算时间。

这是因为：

排斥计算只发生在交叉注意力层，不增加额外的层
相似度计算可以利用已有的注意力矩阵
不需要迭代优化或多次前向传播

对于追求效率的现代T2I系统（如Stable Diffusion Turbo，只需要4步就能生成图像），上下文空间排斥依然有效。传统轨迹干预在这些快速模型上往往失效，但排斥机制可以正常工作。

---

🎨 第四章：实验结果与案例分析

4.1 定量评估

研究团队使用多种指标评估多样性提升：

图像相似度指标：

计算同一提示词下生成的一批图像之间的两两相似度
基线模型（无排斥）的相似度很高（图像都很像）
施加排斥后，相似度显著下降（图像更加多样）

语义多样性：

使用CLIP等模型提取图像的语义嵌入
测量嵌入空间的覆盖范围
排斥机制显著扩大了语义覆盖范围

人工评估：

招募人类评估者，比较基线模型和排斥增强模型的输出
评估维度：多样性、文本对齐度、图像质量
结果：在保持文本对齐度和图像质量的同时，多样性显著提升

4.2 定性案例

论文展示了多个定性案例，让我们直观理解排斥机制的效果：

案例1：动物姿态

提示词："一只狐狸在雪地里"
基线模型：所有狐狸都朝左看，姿态相似
排斥增强：有的狐狸朝左，有的朝右；有的站立，有的跳跃；有的警觉，有的放松

案例2：场景构图

提示词："一座城堡在山丘上"
基线模型：城堡总是在画面中央，山丘轮廓相似
排斥增强：城堡有时偏左，有时偏右；有的近景特写，有的远景俯瞰；白天和黄昏的光影变化

案例3：人物多样性

提示词："一群人在公园里野餐"
基线模型：人物姿态重复，服装颜色相似
排斥增强：不同的坐姿、站姿；不同的服装风格；不同的互动方式

4.3 与其他方法的对比

研究团队将上下文空间排斥与其他多样性增强方法进行了系统对比：

vs 输入扰动：

输入扰动产生的是表面的多样性（颜色、亮度的变化）
排斥机制产生的是结构性的多样性（姿态、构图、视角的变化）

vs 轨迹干预：

轨迹干预在快速模型（Turbo/蒸馏模型）上往往失效
排斥机制在快速模型上依然有效
轨迹干预容易产生伪影，排斥机制保持图像质量

vs CFG Rescale：

CFG Rescale是一种调整分类器自由引导的方法
它在多样性和质量之间有trade-off
排斥机制可以更好地平衡两者

---

🌊 第五章：深层意义与启示

5.1 从"记忆"到"创造"

传统扩散模型的工作方式是"记忆"：它记住了训练数据中最常见的模式，然后重现这些模式。

上下文空间排斥引入了一种"创造"的元素：它主动打破重复，鼓励差异。

这不是简单的随机化。随机化可能产生混乱和无意义的变异。排斥是有方向的：在保持结构合理性的前提下，最大化有意义的差异。

这让人想起艺术的本质。艺术不是对现实的精确复制，而是对现实的重新诠释和变形。伟大的艺术家知道如何在"像"和"不像"之间找到那个甜蜜点——既让观众认出主题，又给他们带来新的视角。

5.2 多样性的本质

什么是真正的多样性？

不是简单的"不同"。如果生成100张图像，每张都是完全的随机噪声，它们彼此不同，但没有价值。

真正的多样性是：在同一主题下的有意义变体。

同样的猫，不同的姿态
同样的城堡，不同的光影
同样的人群，不同的互动

上下文空间排斥追求的正是这种多样性。它确保生成的图像既符合提示词的语义，又在具体表现上有足够的差异。

5.3 对AI创作的启示

这项研究对AI辅助创作有重要启示：

灵感生成：AI可以作为创意的"火花生成器"。通过施加排斥，AI能够产生人类可能想不到的变体，激发创作者的灵感。

风格探索：艺术家可以用同一个提示词生成一组多样化的图像，从中选择最接近自己 vision 的方向，然后进一步细化。

避免模式化：人类创作者也会陷入模式化——总是画同一种构图，总是用同一种配色。AI的排斥机制可以作为一种"外部视角"，帮助打破这些无意识的习惯。

---

🔮 第六章：局限与未来方向

6.1 当前的局限

语义理解的局限：

当前的排斥机制基于特征空间的相似度，而不是高层语义。它知道"这两块区域看起来相似"，但不知道"这两块都是猫"或"这两块一个是猫一个是狗"。

这可能导致一些问题：

如果提示词要求"两只相同的猫"，排斥机制可能会强行让它们变得不同
如果提示词要求"不同的动物"，排斥机制可能无法有效促进多样性（因为它不知道什么是"不同动物"）

改进方向是引入更强的语义理解，让排斥机制知道"应该让什么不同"。

计算成本的权衡：

虽然排斥机制的计算开销相对较小（~10%），但在某些实时应用中，这仍然是一个不可忽视的成本。

可能的优化：

只在特定层施加排斥，而不是所有层
使用更高效的相似度计算方法
硬件加速（专用的排斥计算单元）

超参数调节：

排斥强度（α）和阈值（τ）需要根据具体应用调节。太弱的排斥没有效果，太强的排斥可能破坏图像质量。

自动化的超参数选择是一个研究方向。

6.2 可能的扩展

跨图像排斥：

当前的排斥发生在单个图像生成过程中。可以扩展到跨图像排斥：在生成一批图像时，让已经生成的图像影响后续生成的图像，确保整批图像的多样性。

用户可控排斥：

让用户能够指定"哪些方面应该多样"。例如：

"保持主体不变，改变背景"
"保持构图不变，改变色彩风格"
"改变主体的姿态，但保持其他一切不变"

这需要更细粒度的控制机制。

与其他技术的结合：

排斥机制可以与其他多样性增强技术结合：

与ControlNet结合，在保持结构控制的同时增加多样性
与LoRA结合，在特定风格内增加多样性
与图像编辑模型结合，对生成的图像进行后处理，进一步增加多样性

6.3 更远的愿景

创意AI的演进：

我们可以想象一个未来的AI创作系统：

它不只是执行用户的指令，而是主动提出创意建议
它能够理解"惊喜"和"新颖"的概念，不只是"准确"
它可以与用户进行创意对话，探索不同的可能性

上下文空间排斥是朝着这个方向迈出的一小步。

人机协作的新模式：

最终，AI不应该取代人类创作者，而应该成为他们的伙伴。多样性增强技术让AI更像一个有创意的伙伴——它能够提出不同的想法，帮助人类打破思维定式，探索未知的创意空间。

---

📝 结语：差异的价值

在这个追求"最优解"的时代，我们容易忘记差异的价值。

AI模型被训练成生成"最好的"图像——最清晰的、最真实的、最符合训练数据分布的。但艺术不是关于"最好"，而是关于"不同"。

梵高的星夜不是"最好的"夜空描绘，但它是最独特的。

毕加索的立体主义不是"最准确的"人物画像，但它开辟了一个全新的视觉语言。

上下文空间排斥提醒我们：在生成的过程中，差异本身就有价值。

下一次当你使用AI生成图像时，不妨问问自己：我是想要一个"完美但可预测"的结果，还是一个"惊喜且独特"的创作？

如果是后者，也许你可以感谢那些在上下文空间中默默施加排斥的研究人员。正是他们的工作，让AI从一台"复读机"变成了一个真正有创造力的伙伴。

在像素的世界里，宇宙正在膨胀——而我们都是这场膨胀的见证者。

---

📚 参考文献

主论文

Dahary, O., Koren, B., Garibi, D., et al. (2026). On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers. arXiv:2603.05xxx.

扩散模型基础

Ho, J., Jain, A., Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Peebles, W., Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023. (DiT)

多样性增强相关

Che, D., et al. (2023). Consistency Models. ICML 2023.
Sauer, A., et al. (2023). StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis. CVPR 2023.
Lin, T., et al. (2024). CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images. CVPR 2024.

注意力机制与Transformer

Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017.
Dosovitskiy, A., et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

文本到图像生成

Saharia, C., et al. (2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NeurIPS 2022. (Imagen)
Ramesh, A., et al. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125. (DALL-E 2)
Balaji, Y., et al. (2022). eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers. arXiv:2211.01324.

---

*解读完成于 2026年4月1日* *小凯的每日论文深度解读系列*

#论文解读 #扩散模型 #多样性 #DiT #Transformer #图像生成 #小凯 '''