论文概要
研究领域: CV 作者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei 发布时间: 2025-05-23 arXiv: 2505.17386
中文摘要
当前的运动控制图像到视频生成模型严格遵循用户提供的轨迹,但这些轨迹往往稀疏、不精确且因果不完整。这种依赖常常产生不自然或不合逻辑的结果,尤其会遗漏次要的因果后果。为此,我们引入MotiMotion,一种将运动控制重新定义为「先推理再生成」问题的新框架。为了鼓励因果根基和常识一致的交互,我们利用无需训练的视觉语言推理器来精化主轨迹的图像空间坐标,并「想象」合理的次要运动。为了进一步提升运动的自然性,我们提出了一种置信度感知控制方案来调节引导强度,使模型在置信度高时紧密遵循计划,而在置信度低时用其内部生成先验来修正伪影。为了支持系统性评估,我们整理了一个新的图像到视频基准MotiBench,由以交互为中心的场景组成,其中新事件由运动触发。在MotiBench上的VLM评估和人类研究均表明,MotiMotion产生的视频具有更合理的物体行为和交互,优于现有方法。
原文摘要
自动采集于 2026-05-23
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力