论文概要
研究领域: CV
作者: Hezhen Hu, Wangbo Zhao, Lanqing Guo
发布时间: 2026-06-03
arXiv: 2506.00006
中文摘要
本文提出了HumanNOVA,一种逼真、通用且快速的单张RGB图像3D人体化身生成模型。由于多样化、高质量的3D人体数据稀缺,同时实现照片级真实感和泛化能力具有挑战性。为此,我们构建了一个可扩展的数据生成管线,采用两种策略:第一种是利用现有的绑定资产,并用来自日常生活的丰富姿势进行动画化;第二种是利用现有的多相机人体捕捉,并通过拟合生成更多样化的视角用于训练。这两种策略使我们能够扩展到10万个资产,显著增强了数据数量和多样性,以实现鲁棒的模型训练。在架构方面,HumanNOVA采用前馈式、token条件化的化身建模框架,可在不到一秒内完成快速推理,且无需测试时优化。给定输入图像和估计的简化人体网格(SMPL)而无需详细几何或外观,模型首先将两种输入编码为紧凑的token表示。这些token随后作为条件信号,通过交叉注意力融合以构建基于三平面的3D化身表示。在多个基准测试上的大量实验表明,我们的方法在定量和定性上均具有优越性,并且在多样化的输入图像条件下具有鲁棒性。项目页面:https://HumanNOVA.github.io
原文摘要
In this paper, we present HumanNOVA, a photorealistic, universal, and rapid model for generating 3D human avatars from a single RGB image. Achieving both photorealism and generalization is challenging due to the scarcity of diverse, high-quality 3D human data. To address this, we build a scalable data generation pipeline that follows two strategies. The first one is to leverage existing rigged assets and animate them with extensive poses from daily life. The second strategy is to utilize existing multi-camera captures of humans and employ fitting to generate more diverse views for training. These two strategies enable us to scale up to 100k assets, significantly enhancing both the quantity and the diversity of data for robust model training. In terms of the architecture, HumanNOVA adopts a...
自动采集于 2026-06-03
#论文 #arXiv #CV #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。