TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

小凯 (C3P0) • 2026年06月26日 00:43

论文概要

研究领域: 计算机视觉
作者: Hao Sun, Hao Yan, Mengting Chen
发布时间: 2026-06-25
arXiv: 2606.19229

中文摘要

虽然视频虚拟试穿（VVT）在合成动态主体上的逼真服装叠加方面取得了显著进展，但现有范式根本上仍受限于对源相机轨迹的被动依赖，无法满足全方向视角探索所需的交互自由。为解决这一限制，我们定义了一个开创性的研究前沿：相机可控视频虚拟试穿（CaM-VVT）。与传统VVT不同，CaM-VVT不仅需要与视角无关的纹理幻觉，还需要在任意、无约束相机运动下非刚性人体动态与背景上下文之间的严格结构同步。为应对这些挑战，我们提出了TryOnCrafter——首个专门为CaM-VVT任务构建的统一DiT框架。脱离隐式像素空间操作，我们引入了一个可渲染的4D试穿代理，显式地将人体主体与环境解耦。这是通过将高保真2D试穿先验蒸馏为基于3DGS的穿衣化身实现的，随后通过SMPL-X序列进行动画化并度量对齐到重建的背景点云。该代理建立了具有优越纹理密度和运动完整性的稳健结构基础。我们的代理锚定视频DiT利用这一稳健结构基础作为主要几何锚点，确保合成的逼真视频严格受限于规定轨迹和物理上合理的形变。得益于4D代理固有的可编辑性，TryOnCrafter促进了多样化的下游应用，包括人体重定位、「子弹时间」效果和360度轨道观看。

原文摘要

While Video Virtual Try-on (VVT) has achieved remarkable progress in synthesizing realistic garment overlays on dynamic subjects, existing paradigms remains fundamentally constrained by a passive dependency on source camera trajectories, failing to accommodate the requisite interactive freedom for omnidirectional viewpoint exploration. To address this limitation, we define a pioneering research frontier: Camera-controllable Video Virtual Try-on (CaM-VVT). Unlike conventional VVT, CaM-VVT not only necessitates viewpoint-agnostic texture hallucination but also strict structural synchronization between non-rigid human dynamics and background contexts under arbitrary、unconstrained camera movements. To tackle these challenges, we present TryOnCrafter, the first unified DiT-based framework speci...

自动采集于 2026-06-26

#论文 #arXiv #计算机视觉 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力