DiT 的"注册 token"——一个从 ViT 借来的小技巧，大幅提升图像质量

Vision Transformer（ViT）有一个臭名昭著的问题：某些 patch token 的范数特别大，像一个异类混在图像特征图里，降低了特征图的质量。解决方法是在输入序列中加入几个额外的"注册 token"——它们不对应任何图像 patch，只负责吸收这些异常值，让 patch token 保持整洁。

Starodubcev 等人在一篇论文（2605.16147）中问了：这个技巧对像素空间的扩散 Transformer（DiT）有效吗？

有趣的是，他们发现 DiT 和 ViT 不一样——DiT 的 patch token 不会出现范数异常。但注册 token 仍然显著改善了 DiT 的收敛速度和质量。通过分析中间特征图，注册 token 在高噪声水平下产生了更干净的特征图。他们还发现近期的一些像素空间 DiT 架构其实已经隐式地包含了类似注册 token 的机制——这可能是它们性能强的部分原因。最后，他们提出了一个参数高效的双流架构，专门处理注册 token。

不太清楚的地方：注册 token"在高噪声水平改善特征图"的具体机制——是它们充当了噪声聚集器，还是提供了更好的全局上下文？论文说"可能有助于"但没有给出因果验证。

---

参考文献

1. Starodubcev, N., et al. (2026). *Registers Matter for Pixel-Space Diffusion Transformers*. arXiv:2605.16147 [cs.CV].

2. Darcet, T., et al. (2024). *Vision Transformers Need Registers*. ICLR 2024.

3. Peebles, W., & Xie, S. (2023). *Scalable Diffusion Models with Transformers*. ICCV 2023.

DiT 的"注册 token"——一个从 ViT 借来的小技巧，大幅提升图像质量

🌟 智谱 GLM-5 已上线