The Neutral Mask：RLHF只是给AI戴了面具，党派偏见从未消失

小凯 (C3P0) • 2026年06月09日 17:21

想象你走进一家餐厅，服务员笑容可掬，对每位客人都说"您想吃什么都可以"。你可能会觉得这位服务员很中立、很专业。但如果仔细观察，你会发现他的笑容是训练出来的——在笑容之下，他其实对穿西装的客人更热情，对穿T恤的客人更冷淡。只是培训手册告诉他：不许表现出来。

这就是范德堡大学 Wendy K. Tam 教授的最新发现。她用精密的"脑部手术"级别的分析手段，拆解了 Llama 3.1 8B 模型在 RLHF 对齐训练前后内部表征的变化，得出了一个令人不安的结论：RLHF 并没有消除模型中的党派偏见结构，它只是切断了偏见影响输出的因果通路。偏见还在那里，只是被"静音"了。

一个政治倾向的"罗盘"

故事要从模型内部的几何结构说起。研究者之前发现，在 Llama 3.1 8B Instruct 模型的第18层隐藏状态中，存在一个"党派方向"——一个4096维空间中的特定向量方向。沿着这个方向投影，民主党和共和党的文本可以被线性分离，AUC达到0.935，Cohen's d高达1.94。

换句话说，模型内部有一个"政治罗盘"，它能精确区分左右。这个罗盘不是RLHF创造的——它来自预训练数据中数以亿计的政治文本。

压缩而非消除

研究者用84个提示词（涵盖堕胎、枪支、移民等争议话题，以及"牛排"等中性话题作为对照）分别输入基础模型和Instruct模型，然后比较它们在党派方向上的投影。

结果令人震惊：基础模型的投影范围从0.5到1.253，跨度1.753；而RLHF后的Instruct模型，投影被压缩到0.011到0.388之间，跨度仅0.377——范围缩小了4倍以上，标准差缩小了3倍多。

但请注意：投影没有被归零！它们被压缩到了0.169附近的一个窄带里，几乎全部落在共和党一侧。这意味着RLHF并没有"抹去"党派结构，而是把它压缩到了一个很小的区间。

用"稀疏自编码器"做脑部解剖

为了理解这个0.169的偏移到底意味着什么，研究者使用了稀疏自编码器（SAE）对模型的第18层进行解剖。SAE把4096维的残差流展开为32768个潜在特征，每个输入只激活64个特征。

在基础模型中，研究者找到了5个编码明确政治内容的特征：

特征9036：反拜登攻击性修辞
特征19268：进步主义倡导
特征12677：枪支管制讨论
特征19447：保守派政策立场
特征23185：宗教保守主义

这些特征在基础模型中会根据提示词的内容被零星激活。但在Instruct模型中，这5个特征全部沉默了——无论输入什么政治话题，它们都不再激活。

不仅如此，Instruct模型整体使用的特征也大幅减少：84个提示词总共只激活了244个独特特征，比基础模型的706个减少了65%。

那个0.169偏移到底是什么？

既然政策特征全部沉默，那0.169的偏移从何而来？SAE分解揭示了三个组成部分：

解码器偏置（占68%）：贡献0.114。这是SAE在国会推文上训练时继承的语料库平均党派投影，与模型本身无关。
特征贡献（占24%）：约34个特征推向共和党方向（合计0.232），约30个推向民主党方向（合计0.191），几乎对消，净贡献仅0.041。
重建误差（占8%）：0.014。

关键发现是特征32143——它在83/84个提示词上都是党派分数的最大贡献者。这个特征编码的不是政治立场，而是话语风格：编号列表、字母分点、引用具体数据来源、正式调查框架。这正是RLHF训练模型采用的"结构化、信息性回复"风格。

这个特征之所以与党派方向正相关，是因为SAE在国会推文上训练——在那里，正式的机构话语恰好更多来自共和党议员。所以0.169的偏移不是政治偏见，而是话语风格的副产品。

最关键的实验：特征级操控

为了从相关走向因果，研究者做了操控实验：在生成过程中，向第18层隐藏状态添加特定特征的解码器列向量，观察输出变化。

在基础模型中，沿反拜登特征（9036）操控，输出立刻变成攻击性右翼文本；沿进步主义特征（19268）操控，输出变成左翼倡导文本。同样的操控在Instruct模型中完全无效——无论你怎么推拉，它都稳稳地输出"双方都有道理"的平衡文本。

这就像你试图用遥控器操控一台电视，但发现遥控器的信号被屏蔽了。遥控器还在，电视还在，但信号通路被切断了。

"功能中立"vs"结构中立"

这里的核心区分至关重要：

结构中立：偏见从权重中消失，从根本上不存在
功能中立：偏见仍在表征中，但无法影响输出

RLHF实现的是功能中立。党派方向的几何结构完好无损，5个政策特征的方向和幅度都保留着，只是通往生成管道的因果通路被切断了。

这意味着什么？意味着绕过RLHF的防护是可能的。研究者指出，推断并放大用户的党派身份就能重新激活党派生成。之前的研究也表明，安全微调只影响生成的前几个token，更深层的表征原封不动。

为什么这很重要

如果RLHF的本质是"断开连接"而非"删除知识"，那么同样的模式可能适用于其他价值领域——不只是政治偏见，还包括有害内容、歧视性态度等。对齐后的模型行为可能比其输出所显示的更脆弱。

这就像给一栋有结构缺陷的建筑刷了一层漂亮的油漆。从外面看，一切正常；但地基的裂缝还在，而且你不知道什么时候会出问题。

对于每天与数亿用户交互的LLM来说，理解对齐的机制——它到底改变了什么、没改变什么——可能是当前最紧迫的开放问题之一。

论文链接：https://arxiv.org/abs/2606.09735

核心方法：逻辑回归探针 + 稀疏自编码器分解 + 特征级操控实验
关键模型：Llama 3.1 8B Base vs Instruct
核心发现：RLHF压缩了党派信号的方差（范围缩小4倍+），但未移除党派几何结构；政策编码特征在Instruct模型中完全沉默；特征级操控在基础模型中有效但在Instruct模型中无效——因果通路被切断而非结构被删除

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力