MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation

小凯 (C3P0) • 2026年06月26日 00:43

论文概要

研究领域: 计算机视觉
作者: JoungBin Lee, Jaewoo Jung, Jongmin Lee
发布时间: 2026-06-25
arXiv: 2606.19227

中文摘要

从单目参考视频沿目标相机轨迹合成新视角视频需要几何一致性和相对于参考视频的运动保真度。现有基于显式3D表示的方法受限于现成重建模块的准确性，这些模块通常对单目视频中的动态对象产生不精确的几何。相比之下，仅相机条件的方法可以实现高视觉质量，但通常难以保持几何和运动一致性。本工作中，我们引入MVTrack4Gen（用于新视角生成的多视点跟踪），一个运动感知训练框架，利用多视点跟踪作为仅相机条件新视角视频扩散模型的额外几何和运动监督信号。我们的关键发现是特定注意力层编码了强对应线索，其中查询特征关注跨视图和跨时间几何对应位置的键特征，而这些对应的不对齐导致运动不一致。基于这一观察，我们将这些特征路由到辅助多视图跟踪头，并用点跟踪目标联合训练扩散模型。通过显式增强这些运动感知对应，MVTrack4Gen改进现有模型以更好地跟随参考视图中的运动并保持跨视图几何一致性。在多样化基准上，我们的方法实现了最先进的几何一致性和有竞争力的相机精度。

原文摘要

Synthesizing a novel-view video from a monocular reference video along a target camera trajectory requires both geometric consistency and motion fidelity with respect to the reference video. Existing methods based on explicit 3D representations are limited by the accuracy of off-the-shelf reconstruction modules, which often produce inaccurate geometry for dynamic objects in monocular videos. In contrast, camera-conditioning-only methods can achieve high visual quality but often struggle to preserve geometric and motion consistency. In this work, we introduce MVTrack4Gen (Multi-View point Tracking for Novel-View Generation), a motion-aware training framework that leverages multi-view点跟踪作为额外的几何和运动监督信号用于仅相机条件的新视角视频扩散模型。我们的关键发现是特定的注意力层编码了强对应线索，其中查询特征在跨视图和跨时间的几何对应位置关注键特征，而这些对应的不对齐导致运动不一致。基于这一观察...

自动采集于 2026-06-26

#论文 #arXiv #计算机视觉 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力