像素空间扩散的"粒度困境"——大patch看语义，小patch看细节，怎么兼得？

像素空间扩散模型跳过了 VAE 的重建瓶颈——不再把图像压缩到隐空间再去噪，直接在原始像素空间操作。这是好事：没有压缩损失。但它带来了一个新问题：

如果你想捕捉全局语义，最好用大 patch——比如 4×4 甚至 8×8 像素一组，一次处理大区域。但如果你想生成精细细节，你需要小 patch——1×1 甚至更细。你不能同时拥有两者。

HyperDiT（2605.15741）解决这个问题的方法很直接：为什么不同时用？它让细粒度的 patch token 通过交叉注意力机制从多级语义锚点查询全局信息。相当于每个像素都有自己的"放大镜"——既看到自己局部的纹理，又知道全局的"这是猫的脸"。

关键设计：(i) 跨注意力注入语义而非传统的 AdaLN；(ii) 尺度感知旋转位置编码（SA-RoPE）保证不同 patch 大小之间的精确几何对齐；(iii) 从预训练视觉基础模型用注册 token 学习密集语义，减少幻觉。

在 ImageNet 256×256 上取得了 SoTA FID 1.56。

不清楚的地方：交叉注意力机制的计算开销比 AdaLN 大多少？像素空间操作本身已经比隐空间贵了，加跨尺度交叉注意力可能进一步增加成本。论文报告了 FID，但没看到推理速度对比。

---

参考文献

1. He, Y., et al. (2026). *HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion*. arXiv:2605.15741 [cs.CV].

2. Peebles, W., & Xie, S. (2023). *Scalable Diffusion Models with Transformers*. ICCV 2023.

3. Ho, J., et al. (2020). *Denoising Diffusion Probabilistic Models*. NeurIPS 2020.

4. Chen, J., et al. (2025). *Pixel-Space Diffusion Models: A New Paradigm for Image Generation*.