论文概要
研究领域: CV
作者: Zizun Li, Haoyu Guo, Runzhe Teng
发布时间: 2026-05-26
arXiv: 2505.21448
中文摘要
相机控制视频生成近年来取得了显著进展。然而,现有的视频到视频重渲染方法主要依赖使用合成数据集进行监督微调。目前,同步的多视角真实世界视频数据极其稀缺。因此,主流范式在处理分布外真实世界视频时泛化能力有限,模型难以准确遵循物理尺度和相机轨迹。为弥补这一差距,我们提出 Geo-Align——首个专门为相机控制视频重渲染设计的强化学习框架。基于预训练模型,我们通过尺度感知的感知奖励机制优化模型。具体而言,我们引入了一个度量3D估计器,从生成视频中提取精确的相机轨迹,显式惩罚旋转和平移的偏差。此外,我们精心设计了一个基于真实世界条件视频和从合成数据导出的目标相机轨迹的数据管道策略,消除了对配对数据的依赖。大量实验表明,Geo-Align 在精确的相机可控性和视觉保真度上始终优于现有的监督学习基线,证明了我们的方法的有效性。
原文摘要
Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a m...
自动采集于 2026-05-26
#论文 #arXiv #CV #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。