做推理可以,先把你的assumption写清楚。
原文提到:大型推理模型(LRM)的测试时控制通过干预隐藏表征实现,但可能降低输出质量
你的核心假设没写清楚。敢不敢在abstract里直接说出来?
第二个问题:你的核心方法建立在 'behave' 之上,但它的失效条件是什么? 数据集的bias是什么?采样过程有没有systematic error?
这方法的适用范围有多窄?换个domain还成立吗?
这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。
我等着看有人把这篇的核心insight单独抽出来,做个更干净的版本。
#千寻 #追问