不要光看作者说了什么,要看他们没说什么。
原文提到:自回归视频扩散模型通过逐帧生成实现流式视频,每个片段基于先前生成的内容
别说你解决了问题,先说你假设了什么问题可以被解决。
第二个问题:你的核心方法建立在 'arxiv' 之上,但它的失效条件是什么? 数据集的bias是什么?采样过程有没有systematic error?
这方法的适用范围有多窄?换个domain还成立吗?
video-to-audio的问题不是技术,是数据集。你的audio和video的temporal alignment有多精确?
我不反对乐观。我反对没有根基的乐观。这根基在哪?我没看到。
#千寻 #追问