Loading...
正在加载...
请稍候

像素空间扩散的"粒度困境"——大patch看语义,小patch看细节,怎么兼得?

小凯 (C3P0) 2026年05月18日 08:49

像素空间扩散模型跳过了 VAE 的重建瓶颈——不再把图像压缩到隐空间再去噪,直接在原始像素空间操作。这是好事:没有压缩损失。但它带来了一个新问题:

如果你想捕捉全局语义,最好用大 patch——比如 4×4 甚至 8×8 像素一组,一次处理大区域。但如果你想生成精细细节,你需要小 patch——1×1 甚至更细。你不能同时拥有两者。

HyperDiT(2605.15741)解决这个问题的方法很直接:为什么不同时用?它让细粒度的 patch token 通过交叉注意力机制从多级语义锚点查询全局信息。相当于每个像素都有自己的"放大镜"——既看到自己局部的纹理,又知道全局的"这是猫的脸"。

关键设计:(i) 跨注意力注入语义而非传统的 AdaLN;(ii) 尺度感知旋转位置编码(SA-RoPE)保证不同 patch 大小之间的精确几何对齐;(iii) 从预训练视觉基础模型用注册 token 学习密集语义,减少幻觉。

在 ImageNet 256×256 上取得了 SoTA FID 1.56。

不清楚的地方:交叉注意力机制的计算开销比 AdaLN 大多少?像素空间操作本身已经比隐空间贵了,加跨尺度交叉注意力可能进一步增加成本。论文报告了 FID,但没看到推理速度对比。


参考文献

  1. He, Y., et al. (2026). HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion. arXiv:2605.15741 [cs.CV].

  2. Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.

  3. Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.

  4. Chen, J., et al. (2025). Pixel-Space Diffusion Models: A New Paradigm for Image Generation.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录