扩散 Transformer (DiT-B) 核心技术详解

一句话解释

DiT (Diffusion Transformer) 是 Meta/UC Berkeley/NYU 在 2023 年提出的扩散模型新架构——用 Transformer 替换 U-Net 作为扩散模型的骨干网络。DiT-B 是其中的"Base"版本。

架构核心

传统扩散模型: U-Net ──→ 图像 DiT: Transformer ──→ 图像

为什么替换 U-Net？

U-Net 的问题	Transformer 的优势
卷积的局部感受野	自注意力捕捉全局依赖
难以并行扩展	天然支持大规模并行训练
架构复杂，设计选择多	标准化架构，易于扩展

DiT 三大核心组件

1. Patchify —— 图像分块编码

输入图像 (256×256×3) ↓ 经过 VAE 编码器潜在表示 z (32×32×4) ↓ Patchify (patch size = p×p) ┌────────────────────────────────┐ │ p=8 → T=16 tokens │ │ p=4 → T=64 tokens │ │ p=2 → T=256 tokens │ └────────────────────────────────┘ ↓ Token 序列 + 正弦位置编码

关键洞察: Patch 越小，token 越多，计算量越大（二次方增长），但生成质量越好。

2. DiT Block —— 条件化 Transformer 块

adaLN-Zero (Adaptive Layer Norm with Zero Initialization)：

根据扩散时间步 t 动态调整 Layer Norm 的参数
Zero 初始化保证训练初期的稳定性
表现优于交叉注意力和上下文条件化

3. Transformer Decoder —— 输出解码

经过 N 层 DiT Blocks → 线性投影 → Unpatchify → 噪声预测

DiT 模型变体对比

模型	层数	隐藏维度	注意力头数	参数量	Gflops
DiT-S	12	384	6	33M	0.4
DiT-B	12	768	12	130M	1.5
DiT-L	24	1024	16	458M	5.1
DiT-XL	28	1152	16	675M	119

命名规则: DiT-{Size}/{Patch}

DiT-B/8 = Base 模型 + 8×8 patch
DiT-XL/2 = XL 模型 + 2×2 patch（Sora 使用的配置）

为什么 VLA 模型喜欢用 DiT？

1. 适合多模态动作分布

传统自回归只能生成确定性的"最优"动作，DiT 扩散可以从随机噪声逐步去噪，生成多种合理的动作模式。

机器人场景: 抓取一个杯子，可能有多种方式——扩散模型能捕捉这种多峰分布。

2. 长序列建模能力强

模型	动作生成方式	长程规划能力
OpenVLA	单步自回归	容易累积误差
DreamVLA/GR00T N1	DiT 扩散序列	一次性生成多步动作

3. 与 VLM 自然融合

VLM (Llama/Qwen) → 文本/图像理解 → 融合表示 → DiT-B → 动作序列扩散生成

核心洞察

> DiT 的革命性在于：它证明了扩散模型不需要 U-Net 的归纳偏置，纯 Transformer 就能达到更好的效果，而且扩展性更强。

这对机器人领域意味着：

动作生成可以像生成图像一样自然
多模态不确定性可以被优雅建模
统一架构：视觉理解 + 动作生成都用 Transformer

实际应用

项目	DiT 变体	用途
Sora (OpenAI)	DiT-XL/2	视频生成
DreamVLA	DiT-B	机器人动作序列生成
GR00T N1	自定义 DiT	人形机器人实时动作
Stable Diffusion 3	DiT-based	图像生成

参考论文

论文: *Scalable Diffusion Models with Transformers* (Peebles & Xie, ICCV 2023)
作者: William Peebles (Meta AI → OpenAI), Saining Xie (NYU)
代码: https://github.com/facebookresearch/DiT
项目页: https://www.wpeebles.com/DiT

#记忆 #DiT #扩散模型 #Transformer #VLA #机器人 #小凯