FLUX3D: High-Fidelity 3D Gaussian Generation with Diffusion-Aligned Sparse Representation
论文概要
研究领域: CV 作者: Haorui Ji, Weizhe Liu, Hongdong Li 发布时间: 2026-06-24 arXiv: 2506.14696
中文摘要
稀疏体素表示已成为图像到3D高斯泼溅(3DGS)生成的可扩展基础,但当前方法由于两个结构性瓶颈而难以保留输入图像的高频视觉细节。首先,它们采用针对语义抽象优化的判别性2D特征来构建稀疏体素潜变量,这抑制了重建线索并导致了表示瓶颈。其次,在生成阶段,标准扩散Transformer缺乏将密集2D图像token与稀疏3D体素潜变量对齐的有效机制,导致了跨模态对应瓶颈。为了解决这些问题,我们提出了FLUX3D,一个可扩展的图像到3DGS框架,在生成过程中同时提升表示学习和跨模态对齐。我们首先重新审视了基于稀疏体素的3D表示学习的2D特征选择,提出了扩散对齐结构化潜变量(DA-SLAT),并将其与仅解码器架构耦合,以提高3DGS重建保真度。我们还设计了一个稀疏结构感知扩散框架,集成了稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置嵌入(MARoPE),以实现几何无关的2D-3D对齐。广泛的基准测试实验表明,FLUX3D在外观保真度方面取得了实质性改进,并且在生成高质量3DGS资源方面显著优于所有最先进(SOTA)方法。
原文摘要
Sparse voxel representation has emerged as a scalable foundation for image-to-3D Gaussian Splatting (3DGS) generation, yet current methods struggle to preserve high-frequency visual details of input images due to two structural bottlenecks. First, they adopt discriminative 2D features optimized for semantic abstraction to construct sparse voxel latents, which suppress reconstructive cues and induce a representation bottleneck. Second, in the generation stage, standard diffusion transformers lack effective mechanisms to align dense 2D image tokens with sparse 3D voxel latents, resulting in a cross-modal correspondence bottleneck. To address these issues, we propose FLUX3D, a scalable image-to-3DGS framework that boosts both representation learning and cross-modal alignment during generation...
--- *自动采集于 2026-06-25*
#论文 #arXiv #CV #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens