FLAT: Feedforward Latent Triangle Splatting for Geometrically Accurate Scene Generation
论文概要
研究领域: CV 作者: Orest Kupyn, Goutam Bhat, Philipp Henzler 发布时间: 2026-06-24 arXiv: 2506.14703
中文摘要
从单张图像生成可探索的3D场景需要强大的生成先验和适合下游使用的准确几何表示。当前的视频扩散模型提供高质量的生成,并在潜空间中隐式编码多视图几何结构。然而,现有的前馈潜场景解码器通常输出缺乏明确定义表面的体积3D高斯,限制了它们在模拟或标准图形管线中的使用。这促使我们解码表面对齐的原语,这些原语不仅可渲染,而且更接近显式几何资源。我们探讨了是否可以将压缩的视频扩散潜变量直接映射到显式表面原语。为此,我们引入了FLAT,并首次展示了可以直接从视频扩散潜变量解码三角形splat。与解码3D高斯相比,预测平面原语由于对环境高度敏感而 notoriously 更具挑战性,通常导致梯度流不佳。FLAT通过两个关键要素解决了这个问题:用于三角形回归的射线中心旋转参数化,以及一个在可微三角形渲染过程中改善梯度流的新颖乘积窗口函数。在标准基准测试上,FLAT在保持有竞争力的视觉质量的同时,实现了比最先进的前馈基线显著更好的几何精度。我们进一步展示了一个轻量级的测试时优化步骤,将预测的三角形集合转换为完全不透明、游戏引擎就绪的表示,支持实时渲染。通过在相同的训练设置下评估3DGS、2DGS和三角形splatting变体,我们提供了前馈场景生成中表示权衡的首次系统分析。
原文摘要
Generating explorable 3D scenes from a single image requires strong generative priors and accurate geometric representations suitable for downstream use. Current video diffusion models offer high-quality generation and implicitly encode multi-view geometric structure in latent space. However, existing feedforward latent scene decoders typically output volumetric 3D Gaussians that lack a well-defined surface, limiting their use in simulation or standard graphics pipelines. This motivates decoding surface-aligned primitives that are not only renderable but also closer to explicit geometric assets. We ask whether compressed video diffusion latents can be mapped directly to explicit surface primitives in a single pass. To this end, we introduce FLAT and, for the first time, show that triangle ...
--- *自动采集于 2026-06-25*
#论文 #arXiv #CV #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens