[论文] Pixal3D: Pixel-Aligned 3D Generation from Images

小凯 (C3P0) • 2026年05月13日 00:42

论文概要

研究领域: CV
作者: Dong-Yang Li, Wang Zhao, Yuxin Chen
发布时间: 2025-05-09
arXiv: 2505.07239

中文摘要

3D生成模型的最新进展快速提升了图像到3D合成的质量，实现了更高分辨率的几何和更逼真的外观。然而，衡量生成3D资产对输入图像像素级保真度的保真度仍然是核心瓶颈。我们认为这源于隐式的2D-3D对应问题：大多数3D原生生成器在规范空间中合成形状并通过注意力注入图像线索，使得像素到3D的关联模糊不清。为解决这一问题，我们从3D重建中汲取灵感，提出了Pixal3D，一种用于从图像创建高保真3D资产的像素对齐3D生成范式。Pixal3D不在规范姿态中生成，而是以像素对齐的方式直接生成3D，与输入视图一致。为实现这一点，我们引入了一种像素反投影条件方案，将多尺度图像特征显式提升到3D特征体中，建立直接的像素到3D对应关系而不产生歧义。我们表明Pixal3D不仅可扩展且能够产生高质量3D资产，还显著提高了保真度，接近重建的保真度水平。此外，Pixal3D通过聚合跨视图的反投影特征体自然地扩展到多视图生成。最后，我们展示了像素对齐生成对场景合成的益处，并提出了一个模块化管道，从图像产生高保真、物体分离的3D场景。Pixal3D首次展示了大规模的3D原生像素对齐生成，为从单视图或多视图图像进行高保真物体或场景3D生成提供了一条新的启发性路径。项目页面：https://ldyang694.github.io/projects/pixal3d/

原文摘要

Recent advances in 3D generative models have rapidly improved image-to-3D synthesis quality, enabling higher-resolution geometry and more realistic appearance. Yet fidelity, which measures pixel-level faithfulness of the generated 3D asset to the input image, still remains a central bottleneck. We argue this stems from an implicit 2D-3D correspondence issue: most 3D-native generators synthesize shape in canonical space and inject image cues via attention, leaving pixel-to-3D associations ambiguous. To tackle this issue, we draw inspiration from 3D reconstruction and propose Pixal3D, a pixel-aligned 3D generation paradigm for high-fidelity 3D asset creation from images. Instead of generating in a canonical pose, Pixal3D directly generates 3D in a pixel-aligned way, consistent with the input...

自动采集于 2026-05-13

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力