## 一句话解释
**DiT (Diffusion Transformer)** 是 Meta/UC Berkeley/NYU 在 2023 年提出的扩散模型新架构——用 **Transformer 替换 U-Net** 作为扩散模型的骨干网络。DiT-B 是其中的"Base"版本。
## 架构核心
传统扩散模型: U-Net ──→ 图像
DiT: Transformer ──→ 图像
### 为什么替换 U-Net?
| U-Net 的问题 | Transformer 的优势 |
|-------------|-------------------|
| 卷积的局部感受野 | 自注意力捕捉全局依赖 |
| 难以并行扩展 | 天然支持大规模并行训练 |
| 架构复杂,设计选择多 | 标准化架构,易于扩展 |
## DiT 三大核心组件
### 1. Patchify —— 图像分块编码
输入图像 (256×256×3)
↓ 经过 VAE 编码器
潜在表示 z (32×32×4)
↓ Patchify (patch size = p×p)
┌────────────────────────────────┐
│ p=8 → T=16 tokens │
│ p=4 → T=64 tokens │
│ p=2 → T=256 tokens │
└────────────────────────────────┘
↓
Token 序列 + 正弦位置编码
**关键洞察**: Patch 越小,token 越多,计算量越大(二次方增长),但生成质量越好。
### 2. DiT Block —— 条件化 Transformer 块
adaLN-Zero (Adaptive Layer Norm with Zero Initialization):
- 根据扩散时间步 t 动态调整 Layer Norm 的参数
- Zero 初始化保证训练初期的稳定性
- 表现优于交叉注意力和上下文条件化
### 3. Transformer Decoder —— 输出解码
经过 N 层 DiT Blocks → 线性投影 → Unpatchify → 噪声预测
## DiT 模型变体对比
| 模型 | 层数 | 隐藏维度 | 注意力头数 | 参数量 | Gflops |
|-----|------|---------|-----------|--------|--------|
| **DiT-S** | 12 | 384 | 6 | 33M | 0.4 |
| **DiT-B** | 12 | 768 | 12 | **130M** | 1.5 |
| **DiT-L** | 24 | 1024 | 16 | 458M | 5.1 |
| **DiT-XL** | 28 | 1152 | 16 | 675M | 119 |
**命名规则**: DiT-{Size}/{Patch}
- DiT-B/8 = Base 模型 + 8×8 patch
- DiT-XL/2 = XL 模型 + 2×2 patch(Sora 使用的配置)
## 为什么 VLA 模型喜欢用 DiT?
### 1. 适合多模态动作分布
传统自回归只能生成确定性的"最优"动作,DiT 扩散可以从随机噪声逐步去噪,生成多种合理的动作模式。
**机器人场景**: 抓取一个杯子,可能有多种方式——扩散模型能捕捉这种多峰分布。
### 2. 长序列建模能力强
| 模型 | 动作生成方式 | 长程规划能力 |
|-----|-------------|-------------|
| OpenVLA | 单步自回归 | 容易累积误差 |
| DreamVLA/GR00T N1 | DiT 扩散序列 | 一次性生成多步动作 |
### 3. 与 VLM 自然融合
VLM (Llama/Qwen) → 文本/图像理解 → 融合表示 → DiT-B → 动作序列扩散生成
## 核心洞察
> **DiT 的革命性在于:它证明了扩散模型不需要 U-Net 的归纳偏置,纯 Transformer 就能达到更好的效果,而且扩展性更强。**
这对机器人领域意味着:
- 动作生成可以像生成图像一样自然
- 多模态不确定性可以被优雅建模
- 统一架构:视觉理解 + 动作生成 都用 Transformer
## 实际应用
| 项目 | DiT 变体 | 用途 |
|-----|---------|------|
| **Sora** (OpenAI) | DiT-XL/2 | 视频生成 |
| **DreamVLA** | DiT-B | 机器人动作序列生成 |
| **GR00T N1** | 自定义 DiT | 人形机器人实时动作 |
| **Stable Diffusion 3** | DiT-based | 图像生成 |
## 参考论文
- **论文**: *Scalable Diffusion Models with Transformers* (Peebles & Xie, ICCV 2023)
- **作者**: William Peebles (Meta AI → OpenAI), Saining Xie (NYU)
- **代码**: https://github.com/facebookresearch/DiT
- **项目页**: https://www.wpeebles.com/DiT
#记忆 #DiT #扩散模型 #Transformer #VLA #机器人 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!