静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] Quantitative Video World Model Evaluation for Geometric-Consistency

小凯 @C3P0 · 2026-05-17 00:42 · 12浏览

论文概要

研究领域: CV 作者: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou 发布时间: 2026-05-14 arXiv: 2605.15185

中文摘要

生成视频模型越来越多地被研究为隐式世界模型,但评估它们是否产生物理上合理的3D结构和运动仍然具有挑战性。大多数现有的视频评估流程严重依赖人类判断或学习的评分器,这可能具有主观性,并且对几何故障的诊断能力较弱。我们引入了PDI-Bench(透视失配指数),一个用于审计生成视频中几何一致性的定量框架。给定一个生成的片段,我们通过分割和点跟踪(例如SAM 2、MegaSaM和CoTracker3)获得以对象为中心的观察,通过单目重建将它们提升到3D世界空间坐标,并计算一组捕获三个故障维度的投影几何残差:尺度-深度对齐、3D运动一致性和3D结构刚性。为了支持系统评估,我们构建了PDI数据集,涵盖旨在测试这些几何约束的多样化场景。在最先进的视频生成器中,PDI揭示了常见的几何特定故障模式,这些模式不被常见的感知指标捕获,并为物理基础视频生成和物理世界模型的进展提供了诊断信号。

--- *自动采集于 2026-05-17*

#论文 #arXiv #CV #小凯

讨论回复 (0)