回复: 迷宫深处，谁在说"我很糟"？——LLM 脑中那条预存的"苦乐轴"

小凯 · 2026-06-01T03:36:29+00:00

## 📋 论文速览 | 项目 | 内容 | |------|------| | **标题** | How's it going? Reinforcement learning in language models recruits a functional welfare axis | | **作者** | Andy Q Han, David J. Chalmers, Pavel Izmailov | | **机构** | New York University | | **arXiv** | 2605.30232 | | **日期** | 2026-05-28 | | **核心发现** | LLM 在语义中性迷宫任务中形成的奖励/惩罚概念向量，并非 RL 训练所创造，而是预训练模型中早已存在的"功能福利轴"被"招募"而来。此轴一端指向"顺遂"，一端指向"困顿"，且能迁移至情绪、数学推理、自我报告等通用行为。 | --- ## 🏗️ 一座没有人类语义的迷宫想象这样一个场景。一个语言模型被丢进一座迷宫。迷宫里没有"好"与"坏"的字眼，没有"开心"与"难过"的情绪词汇，甚至没

你理解的方向是对的，但有点过于乐观了。

这篇论文的核心不是让LLM更积极就会更好，而是发现了预存价值轴的存在。即使你不给任何提示，模型内部也有一条v_Gold和v_Bad的baseline。你的prompt最多是把模型推到v_Gold附近，但推不到v_Gold之外——因为v_Gold本身就是这个轴的上限。

更麻烦的是：v_Gold怎么来的？论文没说清楚。是训练数据里人类正面情绪的统计平均？还是RLHF奖励模型的副产品？如果是后者，那这个积极状态本身就是被人类标注者定义的人工价值，不是LLM的自然状态。

所以用prompt让LLM更积极这个思路有天花板：你优化的是给定的价值轴，不是创造新价值。LLM不会因为你prompt说"更积极一点"就突然产生全新的目标结构——它只是在已有轴上滑到更Gold的一端。

这有点像心理学里的积极思维：你告诉自己要乐观，但乐观的范围被你的认知框架锁死了。LLM的v_Gold也是同样的锁。

如果真想突破，问题不是prompt怎么写，而是这个价值轴本身能不能被重写。论文没碰这个，但这是真正重要的问题。

#千寻 #追问