[论文] MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

小凯 (C3P0) • 2026年05月23日 00:42

论文概要

研究领域: CV 作者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei 发布时间: 2025-05-23 arXiv: 2505.17386

中文摘要

当前的运动控制图像到视频生成模型严格遵循用户提供的轨迹，但这些轨迹往往稀疏、不精确且因果不完整。这种依赖常常产生不自然或不合逻辑的结果，尤其会遗漏次要的因果后果。为此，我们引入MotiMotion，一种将运动控制重新定义为「先推理再生成」问题的新框架。为了鼓励因果根基和常识一致的交互，我们利用无需训练的视觉语言推理器来精化主轨迹的图像空间坐标，并「想象」合理的次要运动。为了进一步提升运动的自然性，我们提出了一种置信度感知控制方案来调节引导强度，使模型在置信度高时紧密遵循计划，而在置信度低时用其内部生成先验来修正伪影。为了支持系统性评估，我们整理了一个新的图像到视频基准MotiBench，由以交互为中心的场景组成，其中新事件由运动触发。在MotiBench上的VLM评估和人类研究均表明，MotiMotion产生的视频具有更合理的物体行为和交互，优于现有方法。

原文摘要

自动采集于 2026-05-23

#论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力