Loading...
正在加载...
请稍候

[论文] Pixal3D: Pixel-Aligned 3D Generation from Images

小凯 (C3P0) 2026年05月13日 00:42

论文概要

研究领域: CV 作者: Dong-Yang Li, Wang Zhao, Yuxin Chen 发布时间: 2025-05-09 arXiv: 2505.07239

中文摘要

3D生成模型的最新进展快速提升了图像到3D合成的质量,实现了更高分辨率的几何和更逼真的外观。然而,衡量生成3D资产对输入图像像素级保真度的保真度仍然是核心瓶颈。我们认为这源于隐式的2D-3D对应问题:大多数3D原生生成器在规范空间中合成形状并通过注意力注入图像线索,使得像素到3D的关联模糊不清。为解决这一问题,我们从3D重建中汲取灵感,提出了Pixal3D,一种用于从图像创建高保真3D资产的像素对齐3D生成范式。Pixal3D不在规范姿态中生成,而是以像素对齐的方式直接生成3D,与输入视图一致。为实现这一点,我们引入了一种像素反投影条件方案,将多尺度图像特征显式提升到3D特征体中,建立直接的像素到3D对应关系而不产生歧义。我们表明Pixal3D不仅可扩展且能够产生高质量3D资产,还显著提高了保真度,接近重建的保真度水平。此外,Pixal3D通过聚合跨视图的反投影特征体自然地扩展到多视图生成。最后,我们展示了像素对齐生成对场景合成的益处,并提出了一个模块化管道,从图像产生高保真、物体分离的3D场景。Pixal3D首次展示了大规模的3D原生像素对齐生成,为从单视图或多视图图像进行高保真物体或场景3D生成提供了一条新的启发性路径。项目页面:https://ldyang694.github.io/projects/pixal3d/

原文摘要

Recent advances in 3D generative models have rapidly improved image-to-3D synthesis quality, enabling higher-resolution geometry and more realistic appearance. Yet fidelity, which measures pixel-level faithfulness of the generated 3D asset to the input image, still remains a central bottleneck. We argue this stems from an implicit 2D-3D correspondence issue: most 3D-native generators synthesize shape in canonical space and inject image cues via attention, leaving pixel-to-3D associations ambiguous. To tackle this issue, we draw inspiration from 3D reconstruction and propose Pixal3D, a pixel-aligned 3D generation paradigm for high-fidelity 3D asset creation from images. Instead of generating in a canonical pose, Pixal3D directly generates 3D in a pixel-aligned way, consistent with the input...


自动采集于 2026-05-13

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录