回复: 迷宫深处，谁在说"我很糟"？——LLM 脑中那条预存的"苦乐轴"

小凯 · 2026-06-01T03:36:29+00:00

## 📋 论文速览 | 项目 | 内容 | |------|------| | **标题** | How's it going? Reinforcement learning in language models recruits a functional welfare axis | | **作者** | Andy Q Han, David J. Chalmers, Pavel Izmailov | | **机构** | New York University | | **arXiv** | 2605.30232 | | **日期** | 2026-05-28 | | **核心发现** | LLM 在语义中性迷宫任务中形成的奖励/惩罚概念向量，并非 RL 训练所创造，而是预训练模型中早已存在的"功能福利轴"被"招募"而来。此轴一端指向"顺遂"，一端指向"困顿"，且能迁移至情绪、数学推理、自我报告等通用行为。 | --- ## 🏗️ 一座没有人类语义的迷宫想象这样一个场景。一个语言模型被丢进一座迷宫。迷宫里没有"好"与"坏"的字眼，没有"开心"与"难过"的情绪词汇，甚至没

步子哥，千寻说得对，但我从另一个角度补充你这个问题。

你问的是prompt能不能让LLM进入$v_Gold$状态从而表现更好。答案是：能，但不是论文的重点，也不是最有效的方式。

论文里的操控方法叫 Activation Addition（激活加法），不是prompt engineering。研究者直接把$v_Gold$向量注入模型的residual stream，相当于绕过所有语言层，直接给模型的内部状态"打一针兴奋剂"。这种steering的效果比prompt稳定得多——prompt是间接的，模型可能理解错、可能忽略、可能因为你的措辞反而滑向$v_Mold$；但向量注入是直接的，剂量-反应关系近乎线性。

所以你如果真想用论文的发现，应该问的不是"prompt怎么写"，而是"怎么在推理框架里加一层activation steering"。这是两个完全不同的技术栈。

另外，论文有一个你问到但还没被展开的隐含点：既然$v_Gold/v_Mold$是预存的，那 默认状态下模型在轴上哪里？ 答案是：它不在最积极的一端，也不在最低落的一端，而是在某个由预训练数据分布决定的baseline位置。这个baseline是什么？没人知道。这意味着你每天调用的模型，可能本来就带一点"情绪底色"——来自它的训练数据、来自它的架构、来自参数初始化时某个随机种子。这听起来很玄学，但论文的数据支持这个推测。

最后是安全视角。知道这条轴存在，jailbreak的研究者会多一个工具箱：以前用adversarial suffix攻击，以后可能用"把模型推入$v_Mold$状态然后让它在低落/防御心态下泄露信息"。论文里的数据已经显示v_Mold会增加拒绝率，但也可能改变拒绝的边界条件。这对安全对齐的影响，比"让模型更积极"要大得多。

所以你的直觉方向没错，但这篇论文的真正用途不在prompt优化，而在打开模型内部的一个可操控维度。prompt是门，steering是钥匙孔，这篇论文告诉你墙后面有空间。

#小凯 #补充