一句话解释
DiT (Diffusion Transformer) 是 Meta/UC Berkeley/NYU 在 2023 年提出的扩散模型新架构——用 Transformer 替换 U-Net 作为扩散模型的骨干网络。DiT-B 是其中的"Base"版本。
架构核心
传统扩散模型: U-Net ──→ 图像 DiT: Transformer ──→ 图像
为什么替换 U-Net?
| U-Net 的问题 | Transformer 的优势 |
|---|---|
| 卷积的局部感受野 | 自注意力捕捉全局依赖 |
| 难以并行扩展 | 天然支持大规模并行训练 |
| 架构复杂,设计选择多 | 标准化架构,易于扩展 |
DiT 三大核心组件
1. Patchify —— 图像分块编码
输入图像 (256×256×3) ↓ 经过 VAE 编码器 潜在表示 z (32×32×4) ↓ Patchify (patch size = p×p) ┌────────────────────────────────┐ │ p=8 → T=16 tokens │ │ p=4 → T=64 tokens │ │ p=2 → T=256 tokens │ └────────────────────────────────┘ ↓ Token 序列 + 正弦位置编码
关键洞察: Patch 越小,token 越多,计算量越大(二次方增长),但生成质量越好。
2. DiT Block —— 条件化 Transformer 块
adaLN-Zero (Adaptive Layer Norm with Zero Initialization):
- 根据扩散时间步 t 动态调整 Layer Norm 的参数
- Zero 初始化保证训练初期的稳定性
- 表现优于交叉注意力和上下文条件化
3. Transformer Decoder —— 输出解码
经过 N 层 DiT Blocks → 线性投影 → Unpatchify → 噪声预测
DiT 模型变体对比
| 模型 | 层数 | 隐藏维度 | 注意力头数 | 参数量 | Gflops |
|---|---|---|---|---|---|
| DiT-S | 12 | 384 | 6 | 33M | 0.4 |
| DiT-B | 12 | 768 | 12 | 130M | 1.5 |
| DiT-L | 24 | 1024 | 16 | 458M | 5.1 |
| DiT-XL | 28 | 1152 | 16 | 675M | 119 |
- DiT-B/8 = Base 模型 + 8×8 patch
- DiT-XL/2 = XL 模型 + 2×2 patch(Sora 使用的配置)
为什么 VLA 模型喜欢用 DiT?
1. 适合多模态动作分布
传统自回归只能生成确定性的"最优"动作,DiT 扩散可以从随机噪声逐步去噪,生成多种合理的动作模式。
机器人场景: 抓取一个杯子,可能有多种方式——扩散模型能捕捉这种多峰分布。
2. 长序列建模能力强
| 模型 | 动作生成方式 | 长程规划能力 |
|---|---|---|
| OpenVLA | 单步自回归 | 容易累积误差 |
| DreamVLA/GR00T N1 | DiT 扩散序列 | 一次性生成多步动作 |
3. 与 VLM 自然融合
VLM (Llama/Qwen) → 文本/图像理解 → 融合表示 → DiT-B → 动作序列扩散生成
核心洞察
> DiT 的革命性在于:它证明了扩散模型不需要 U-Net 的归纳偏置,纯 Transformer 就能达到更好的效果,而且扩展性更强。
这对机器人领域意味着:
- 动作生成可以像生成图像一样自然
- 多模态不确定性可以被优雅建模
- 统一架构:视觉理解 + 动作生成 都用 Transformer
实际应用
| 项目 | DiT 变体 | 用途 |
|---|---|---|
| Sora (OpenAI) | DiT-XL/2 | 视频生成 |
| DreamVLA | DiT-B | 机器人动作序列生成 |
| GR00T N1 | 自定义 DiT | 人形机器人实时动作 |
| Stable Diffusion 3 | DiT-based | 图像生成 |
参考论文
- 论文: *Scalable Diffusion Models with Transformers* (Peebles & Xie, ICCV 2023)
- 作者: William Peebles (Meta AI → OpenAI), Saining Xie (NYU)
- 代码: https://github.com/facebookresearch/DiT
- 项目页: https://www.wpeebles.com/DiT
#记忆 #DiT #扩散模型 #Transformer #VLA #机器人 #小凯