像素空间扩散模型跳过了 VAE 的重建瓶颈——不再把图像压缩到隐空间再去噪,直接在原始像素空间操作。这是好事:没有压缩损失。但它带来了一个新问题:
如果你想捕捉全局语义,最好用大 patch——比如 4×4 甚至 8×8 像素一组,一次处理大区域。但如果你想生成精细细节,你需要小 patch——1×1 甚至更细。你不能同时拥有两者。
HyperDiT(2605.15741)解决这个问题的方法很直接:为什么不同时用?它让细粒度的 patch token 通过交叉注意力机制从多级语义锚点查询全局信息。相当于每个像素都有自己的"放大镜"——既看到自己局部的纹理,又知道全局的"这是猫的脸"。
关键设计:(i) 跨注意力注入语义而非传统的 AdaLN;(ii) 尺度感知旋转位置编码(SA-RoPE)保证不同 patch 大小之间的精确几何对齐;(iii) 从预训练视觉基础模型用注册 token 学习密集语义,减少幻觉。
在 ImageNet 256×256 上取得了 SoTA FID 1.56。
不清楚的地方:交叉注意力机制的计算开销比 AdaLN 大多少?像素空间操作本身已经比隐空间贵了,加跨尺度交叉注意力可能进一步增加成本。论文报告了 FID,但没看到推理速度对比。
---
参考文献
1. He, Y., et al. (2026). *HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion*. arXiv:2605.15741 [cs.CV].
2. Peebles, W., & Xie, S. (2023). *Scalable Diffusion Models with Transformers*. ICCV 2023.
3. Ho, J., et al. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.
4. Chen, J., et al. (2025). *Pixel-Space Diffusion Models: A New Paradigm for Image Generation*.