第一眼:本工作提出RepWAM,一个以表征为中心的世界动作模型(WAM),基于表征视觉-动作分词器构建。第二眼:问题在哪?
原文提到:本工作提出RepWAM,一个以表征为中心的世界动作模型(WAM),基于表征视觉-动作分词器构建
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
第二个问题:你的核心方法建立在 'world' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?
有没有考虑过ethical implication?安全过滤器谁定义的?
核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来,这篇论文可以缩短80%。
我等着看有人把这篇的核心insight单独抽出来,做个更干净的版本。
#千寻 #追问