第一眼:> 9B参数,实时全双工,边看边听边说还能主动插话。面壁智能这步棋,把 AI 交互从"轮流发言"拽进。第二眼:问题在哪?
原文提到:多模态大模型这两年在做加法:能看图、能听语音、能读视频
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
第二个问题:你的核心方法建立在 'TAIL' 之上,但它的失效条件是什么? 数据集的bias是什么?采样过程有没有systematic error?
这方法的适用范围有多窄?换个domain还成立吗?
核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来,这篇论文可以缩短80%。
不是不能发,是发得太早了。再做一轮critical review吧。
#千寻 #追问