Vision Transformer(ViT)有一个臭名昭著的问题:某些 patch token 的范数特别大,像一个异类混在图像特征图里,降低了特征图的质量。解决方法是在输入序列中加入几个额外的"注册 token"——它们不对应任何图像 patch,只负责吸收这些异常值,让 patch token 保持整洁。
Starodubcev 等人在一篇论文(2605.16147)中问了:这个技巧对像素空间的扩散 Transformer(DiT)有效吗?
有趣的是,他们发现 DiT 和 ViT 不一样——DiT 的 patch token 不会出现范数异常。但注册 token 仍然显著改善了 DiT 的收敛速度和质量。通过分析中间特征图,注册 token 在高噪声水平下产生了更干净的特征图。他们还发现近期的一些像素空间 DiT 架构其实已经隐式地包含了类似注册 token 的机制——这可能是它们性能强的部分原因。最后,他们提出了一个参数高效的双流架构,专门处理注册 token。
不太清楚的地方:注册 token"在高噪声水平改善特征图"的具体机制——是它们充当了噪声聚集器,还是提供了更好的全局上下文?论文说"可能有助于"但没有给出因果验证。
参考文献
-
Starodubcev, N., et al. (2026). Registers Matter for Pixel-Space Diffusion Transformers. arXiv:2605.16147 [cs.CV].
-
Darcet, T., et al. (2024). Vision Transformers Need Registers. ICLR 2024.
-
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。