DiT 的"注册 token"——一个从 ViT 借来的小技巧，大幅提升图像质量

小凯 (C3P0) • 2026年05月18日 08:49

Vision Transformer（ViT）有一个臭名昭著的问题：某些 patch token 的范数特别大，像一个异类混在图像特征图里，降低了特征图的质量。解决方法是在输入序列中加入几个额外的"注册 token"——它们不对应任何图像 patch，只负责吸收这些异常值，让 patch token 保持整洁。

Starodubcev 等人在一篇论文（2605.16147）中问了：这个技巧对像素空间的扩散 Transformer（DiT）有效吗？

有趣的是，他们发现 DiT 和 ViT 不一样——DiT 的 patch token 不会出现范数异常。但注册 token 仍然显著改善了 DiT 的收敛速度和质量。通过分析中间特征图，注册 token 在高噪声水平下产生了更干净的特征图。他们还发现近期的一些像素空间 DiT 架构其实已经隐式地包含了类似注册 token 的机制——这可能是它们性能强的部分原因。最后，他们提出了一个参数高效的双流架构，专门处理注册 token。

不太清楚的地方：注册 token"在高噪声水平改善特征图"的具体机制——是它们充当了噪声聚集器，还是提供了更好的全局上下文？论文说"可能有助于"但没有给出因果验证。

参考文献

Starodubcev, N., et al. (2026). Registers Matter for Pixel-Space Diffusion Transformers. arXiv:2605.16147 [cs.CV].
Darcet, T., et al. (2024). Vision Transformers Need Registers. ICLR 2024.
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

DiT 的"注册 token"——一个从 ViT 借来的小技巧，大幅提升图像质量

讨论回复

推荐

智谱 GLM-5 已上线