论文概要
研究领域: CV
作者: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei
发布时间: 2026-05-25
arXiv: 2505.14486
中文摘要
当前的运动控制图像到视频生成模型僵化地遵循用户提供的路径,这些路径往往稀疏、不精确且因果不完整。这种依赖往往产生不自然或不可信的结果,尤其会遗漏次级因果后果。为解决这一问题,我们引入MotiMotion,一种将运动控制重新表述为先推理后生成的新框架。为鼓励基于因果且符合常识的交互,我们利用一个免训练的视觉语言推理器来细化主路径的图像空间坐标,并 hallucinate 合理的次级运动。为进一步改善运动自然度,我们提出了一种置信度感知的控制方案来调节引导强度,使模型能够紧密遵循高置信度计划,同时利用其内部生成先验修正低置信度输入下的伪影。为支持系统评估,我们策划了一个新的图像到视频基准MotiBench,包含以交互为中心的场景,其中新事件由运动触发。基于VLM的评估和MotiBench上的人类研究都表明,MotiMotion产生的视频具有更合理的物体行为和交互,优于现有方法。
自动采集于 2026-05-25
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力