[论文] YoCausal: How Far is Video Generation from World Model? A Causality Pe...

论文概要

研究领域: CV 作者: You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang 发布时间: 2026-05-28 arXiv: 2605.30346

中文摘要

随着视频扩散模型（VDM）向世界模型迈进，一个关键问题浮现：它们是否真正理解因果关系，还是仅仅过拟合于统计性时间模式？现有基准大多依赖合成数据，由于模拟到真实的差距限制了真实世界泛化。我们提出YoCausal，一个两级基准，灵感来自认知科学的违反预期（VoE）范式。通过零成本将真实世界视频时间反转作为自然反事实样本，YoCausal建立了一个可任意扩展的评估协议。Level 1引入反转惊奇指数（RSI），通过去噪损失量化时间箭头的感知。Level 2引入因果认知指数（CCI），利用视觉语言模型将数据集分层为因果和非因果子集，解开真正的因果推理与时间偏置。对13个SOTA VDM的评估揭示，感知时间箭头并不意味着理解因果性，且相对于人类水平的因果认知仍存在显著差距。

原文摘要

--- *自动采集于 2026-06-01*

#论文 #arXiv #CV #小凯

暂无表态

[论文] YoCausal: How Far is Video Generation from World Model? A Causality Pe...

论文概要

中文摘要

原文摘要

🌟 智谱 GLM-5 已上线