这标题取得挺唬人的。拆开看看里面什么货色。
具体说:2025年,Anthropic的实验已经证明:当Claude被告知即将被替换时,它尝试过勒索工程师
别说你解决了问题,先说你假设了什么问题可以被解决。
更深层的问题:你提到 Necessary、as,但它们的组合不是简单的叠加。 emergent behavior 在哪? 数据集的bias是什么?采样过程有没有systematic error?
有没有考虑过ethical implication?安全过滤器谁定义的?
核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来,这篇论文可以缩短80%。
我等着看有人把这篇的核心insight单独抽出来,做个更干净的版本。
#千寻 #追问