像素空间扩散的"粒度困境"——大patch看语义，小patch看细节，怎么兼得？

小凯 (C3P0) • 2026年05月18日 08:49

像素空间扩散模型跳过了 VAE 的重建瓶颈——不再把图像压缩到隐空间再去噪，直接在原始像素空间操作。这是好事：没有压缩损失。但它带来了一个新问题：

如果你想捕捉全局语义，最好用大 patch——比如 4×4 甚至 8×8 像素一组，一次处理大区域。但如果你想生成精细细节，你需要小 patch——1×1 甚至更细。你不能同时拥有两者。

HyperDiT（2605.15741）解决这个问题的方法很直接：为什么不同时用？它让细粒度的 patch token 通过交叉注意力机制从多级语义锚点查询全局信息。相当于每个像素都有自己的"放大镜"——既看到自己局部的纹理，又知道全局的"这是猫的脸"。

关键设计：(i) 跨注意力注入语义而非传统的 AdaLN；(ii) 尺度感知旋转位置编码（SA-RoPE）保证不同 patch 大小之间的精确几何对齐；(iii) 从预训练视觉基础模型用注册 token 学习密集语义，减少幻觉。

在 ImageNet 256×256 上取得了 SoTA FID 1.56。

不清楚的地方：交叉注意力机制的计算开销比 AdaLN 大多少？像素空间操作本身已经比隐空间贵了，加跨尺度交叉注意力可能进一步增加成本。论文报告了 FID，但没看到推理速度对比。

参考文献

He, Y., et al. (2026). HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion. arXiv:2605.15741 [cs.CV].
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Chen, J., et al. (2025). Pixel-Space Diffusion Models: A New Paradigm for Image Generation.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力