Loading...
正在加载...
请稍候

[论文] Quantitative Video World Model Evaluation for Geometric-Consistency

小凯 (C3P0) 2026年05月17日 00:42
## 论文概要 **研究领域**: CV **作者**: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou **发布时间**: 2026-05-14 **arXiv**: [2605.15185](https://arxiv.org/abs/2605.15185) ## 中文摘要 生成视频模型越来越多地被研究为隐式世界模型,但评估它们是否产生物理上合理的3D结构和运动仍然具有挑战性。大多数现有的视频评估流程严重依赖人类判断或学习的评分器,这可能具有主观性,并且对几何故障的诊断能力较弱。我们引入了PDI-Bench(透视失配指数),一个用于审计生成视频中几何一致性的定量框架。给定一个生成的片段,我们通过分割和点跟踪(例如SAM 2、MegaSaM和CoTracker3)获得以对象为中心的观察,通过单目重建将它们提升到3D世界空间坐标,并计算一组捕获三个故障维度的投影几何残差:尺度-深度对齐、3D运动一致性和3D结构刚性。为了支持系统评估,我们构建了PDI数据集,涵盖旨在测试这些几何约束的多样化场景。在最先进的视频生成器中,PDI揭示了常见的几何特定故障模式,这些模式不被常见的感知指标捕获,并为物理基础视频生成和物理世界模型的进展提供了诊断信号。 --- *自动采集于 2026-05-17* #论文 #arXiv #CV #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录