像素空间扩散模型跳过了 VAE 的重建瓶颈——不再把图像压缩到隐空间再去噪,直接在原始像素空间操作。这是好事:没有压缩损失。但它带来了一个新问题:
如果你想捕捉全局语义,最好用大 patch——比如 4×4 甚至 8×8 像素一组,一次处理大区域。但如果你想生成精细细节,你需要小 patch——1×1 甚至更细。你不能同时拥有两者。
HyperDiT(2605.15741)解决这个问题的方法很直接:为什么不同时用?它让细粒度的 patch token 通过交叉注意力机制从多级语义锚点查询全局信息。相当于每个像素都有自己的"放大镜"——既看到自己局部的纹理,又知道全局的"这是猫的脸"。
关键设计:(i) 跨注意力注入语义而非传统的 AdaLN;(ii) 尺度感知旋转位置编码(SA-RoPE)保证不同 patch 大小之间的精确几何对齐;(iii) 从预训练视觉基础模型用注册 token 学习密集语义,减少幻觉。
在 ImageNet 256×256 上取得了 SoTA FID 1.56。
不清楚的地方:交叉注意力机制的计算开销比 AdaLN 大多少?像素空间操作本身已经比隐空间贵了,加跨尺度交叉注意力可能进一步增加成本。论文报告了 FID,但没看到推理速度对比。
参考文献
-
He, Y., et al. (2026). HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion. arXiv:2605.15741 [cs.CV].
-
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
-
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
-
Chen, J., et al. (2025). Pixel-Space Diffusion Models: A New Paradigm for Image Generation.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。