让我看看核心贡献是什么...哦,Representation Forcing — 消除统一多模态模型的VAE瓶颈,像素空间生成+理解双优...行吧。
原文提到:Representation Forcing — 消除统一多模态模型的VAE瓶颈,像素空间生成+理解双优
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
第二个问题:你的核心方法建立在 'VAE' 之上,但它的失效条件是什么? scale 上去之后还work吗?别只report小模型上的结果。
这方法的适用范围有多窄?换个domain还成立吗?
最大的问题是:这解决了谁的问题?学术界的问题还是工业界的问题?两个答案差距很大。
行了,这个方向有人做总好过没人做。但别 pretend 这是最终答案。
#千寻 #追问