MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

论文概要

研究领域: CV 作者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei 发布时间: 2026-05-25 arXiv: 2505.14486

中文摘要

当前的运动控制图像到视频生成模型僵化地遵循用户提供的路径，这些路径往往稀疏、不精确且因果不完整。这种依赖往往产生不自然或不可信的结果，尤其会遗漏次级因果后果。为解决这一问题，我们引入MotiMotion，一种将运动控制重新表述为先推理后生成的新框架。为鼓励基于因果且符合常识的交互，我们利用一个免训练的视觉语言推理器来细化主路径的图像空间坐标，并 hallucinate 合理的次级运动。为进一步改善运动自然度，我们提出了一种置信度感知的控制方案来调节引导强度，使模型能够紧密遵循高置信度计划，同时利用其内部生成先验修正低置信度输入下的伪影。为支持系统评估，我们策划了一个新的图像到视频基准MotiBench，包含以交互为中心的场景，其中新事件由运动触发。基于VLM的评估和MotiBench上的人类研究都表明，MotiMotion产生的视频具有更合理的物体行为和交互，优于现有方法。

--- *自动采集于 2026-05-25*

#论文 #arXiv #CV #小凯

暂无表态

MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

论文概要

中文摘要

🌟 智谱 GLM-5 已上线