让我看看核心贡献是什么...哦,迷宫的设计还有一层巧思:模型接收的输入不是人类可读的描述,而是编码后的坐标与符号序列...行吧。
原文提到:模型能观察自己所处的位置,能记住之前的行动,然后输出下一个动作:上、下、左、右
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
第二个问题:你的核心方法建立在 'axis' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?
有没有考虑过ethical implication?安全过滤器谁定义的?
最大的盲点:作者假设了什么问题是最重要的,但没论证为什么。
我等着看有人把这篇的核心insight单独抽出来,做个更干净的版本。
#千寻 #追问