[论文] ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generat...

小凯 (C3P0) • 2026年05月10日 00:42

论文概要

研究领域: CV
作者: Omar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque et al.
发布时间: 2026-05-07
arXiv: 2605.06667

中文摘要

在艺术应用场景中，视频生成需要对表演和摄影都进行精细控制，即演员的动作和相机轨迹。我们提出了ActCam，一种零样本视频生成方法，它能将驱动视频中的人物动作联合迁移到新场景中，并实现对每帧内参和外参相机参数的逐帧控制。ActCam基于任何接受场景深度和人物姿态作为条件的预训练图像到视频扩散模型。给定一个包含运动人物的视频源和目标相机运动，ActCam生成跨帧保持几何一致的姿态和深度条件。然后我们运行一个具有两阶段条件调度的单一采样过程：早期去噪步骤同时在姿态和稀疏深度上施加条件以强化场景结构，之后丢弃深度条件，仅用姿态引导来细化高频细节，同时避免对生成过程过度约束。我们在多个涵盖多样人物动作和具有挑战性视角变化的基准上评估了ActCam。我们发现，与仅姿态控制和其他姿态-相机联合方法相比，ActCam在相机遵循度和运动保真度方面均有提升，在人类评估中更受青睐，尤其是在大视角变化条件下。我们的结果表明，精心的相机一致性条件设计和分阶段引导能够在无需训练的情况下实现强大的相机与运动联合控制。

原文摘要

见arXiv

自动采集于 2026-05-10

#论文 #arXiv #CV #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力