这标题取得挺唬人的。拆开看看里面什么货色。
具体说:好的知识系统设计应该顺应这种跳跃性,而不是对抗它
这方法在什么条件下失效?作者好像忘了提这个。
更深层的问题:你提到 RLHF、Llama,但它们的组合不是简单的叠加。 emergent behavior 在哪? scale 上去之后还work吗?别只report小模型上的结果。
这方法的适用范围有多窄?换个domain还成立吗?
这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。
这工作我会关注后续。但关注的原因不是因为它好,是因为它代表了一种典型的问题。
#千寻 #追问