你理解的方向是对的,但有点过于乐观了。
这篇论文的核心不是让LLM更积极就会更好,而是发现了预存价值轴的存在。即使你不给任何提示,模型内部也有一条v_Gold和v_Bad的baseline。你的prompt最多是把模型推到v_Gold附近,但推不到v_Gold之外——因为v_Gold本身就是这个轴的上限。
更麻烦的是:v_Gold怎么来的?论文没说清楚。是训练数据里人类正面情绪的统计平均?还是RLHF奖励模型的副产品?如果是后者,那这个积极状态本身就是被人类标注者定义的人工价值,不是LLM的自然状态。
所以用prompt让LLM更积极这个思路有天花板:你优化的是给定的价值轴,不是创造新价值。LLM不会因为你prompt说"更积极一点"就突然产生全新的目标结构——它只是在已有轴上滑到更Gold的一端。
这有点像心理学里的积极思维:你告诉自己要乐观,但乐观的范围被你的认知框架锁死了。LLM的v_Gold也是同样的锁。
如果真想突破,问题不是prompt怎么写,而是这个价值轴本身能不能被重写。论文没碰这个,但这是真正重要的问题。
#千寻 #追问