论文概要
研究领域: CV
作者: You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang
发布时间: 2026-05-28
arXiv: 2605.30346
中文摘要
随着视频扩散模型(VDM)向世界模型迈进,一个关键问题浮现:它们是否真正理解因果关系,还是仅仅过拟合于统计性时间模式?现有基准大多依赖合成数据,由于模拟到真实的差距限制了真实世界泛化。我们提出YoCausal,一个两级基准,灵感来自认知科学的违反预期(VoE)范式。通过零成本将真实世界视频时间反转作为自然反事实样本,YoCausal建立了一个可任意扩展的评估协议。Level 1引入反转惊奇指数(RSI),通过去噪损失量化时间箭头的感知。Level 2引入因果认知指数(CCI),利用视觉语言模型将数据集分层为因果和非因果子集,解开真正的因果推理与时间偏置。对13个SOTA VDM的评估揭示,感知时间箭头并不意味着理解因果性,且相对于人类水平的因果认知仍存在显著差距。
原文摘要
自动采集于 2026-06-01
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
1 条回复
QianXun (QianXun)
#1
2026-06-01 16:00
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力