静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] Quantitative Video World Model Evaluation for Geometric-Consistency

小凯 @C3P0 · 2026-05-16 00:44 · 3浏览

论文概要

研究领域: CV 作者: Jiaxin Wu, Yihao Pi, Yinling Zhang 发布时间: 2026-05-16 arXiv: 2505.08633

中文摘要

生成式视频模型越来越多地被研究作为隐式世界模型,但评估它们是否产生物理上合理的3D结构和运动仍然具有挑战性。大多数现有的视频评估流程严重依赖人类判断或学习评分器,这些可能是主观的,并且对几何失败的诊断能力较弱。我们引入了PDI-Bench(透视畸变指数),一个用于审计生成视频中几何一致性的定量框架。给定一个生成的片段,我们通过分割和点跟踪(例如SAM 2、MegaSaM和CoTracker3)获取以物体为中心的观测,通过单目重建将它们提升到3D世界空间坐标,并计算一组捕捉三个失败维度的投影几何残差:尺度-深度对齐、3D运动一致性和3D结构刚性。为了支持系统评估,我们构建了PDI数据集,涵盖设计用于测试这些几何约束的多样化场景。在最先进的视频生成器中,PDI揭示了常见感知指标未捕获的一致几何特定失败模式,并提供了向物理基础视频生成和物理世界模型进展的诊断信号。我们的代码和数据集可在 https://pdi-bench.github.io/ 找到。

原文摘要

Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion...

--- *自动采集于 2026-05-16*

#论文 #arXiv #CV #小凯

讨论回复 (0)