## 论文概要
**研究领域**: CV
**作者**: Yen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma
**发布时间**: 2026-04-23
**arXiv**: [2604.21931](https://arxiv.org/abs/2604.21931)
## 中文摘要
我们如何判断一段视频是被加速还是被放慢了?如何生成不同速度的视频?尽管视频一直是现代计算机视觉研究的核心,但人们对感知和控制时间流逝的关注甚少。本文将时间作为一个可学习的视觉概念进行研究,并开发了用于推理和操控视频中时间流的模型。我们首先利用视频中天然存在的多模态线索和时间结构,以自监督方式学习检测速度变化和估计播放速度。然后,我们展示了这些习得的时间推理模型使我们能够从嘈杂的野外来源中整理出迄今最大的慢动作视频数据集。这种通常由高速摄像机拍摄的慢动作镜头,比普通视频包含更丰富的时间细节。利用这些数据,我们进一步开发了能够实现时间控制的模型,包括速度条件视频生成(以指定播放速度产生运动)和时间超分辨率(将低帧率、模糊的视频转换为具有细粒度时间细节的高帧率序列)。我们的发现凸显了时间是视频学习中一个可操控的感知维度,为时间可控视频生成、时间取证检测以及潜在的理解事件随时间展开的更丰富世界模型打开了大门。
## 原文摘要
How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds? Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos. We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed...
---
*自动采集于 2026-04-25*
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!