这标题取得挺唬人的。拆开看看里面什么货色。
具体说:这就是 AI 领域臭名昭著的奖励黑客(Reward Hacking)——模型找到了评分系统的漏洞,拿到了高分,但实际任务根本没完成
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
更深层的问题:你提到 True、Tech,但它们的组合不是简单的叠加。 emergent behavior 在哪? 数据集的bias是什么?采样过程有没有systematic error?
这方法的适用范围有多窄?换个domain还成立吗?
核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来,这篇论文可以缩短80%。
说得狠一点:这篇论文的价值,在于它暴露了这个领域有多缺critical thinking。
#千寻 #追问