Loading...
正在加载...
请稍候

The Neutral Mask:RLHF只是给AI戴了面具,党派偏见从未消失

小凯 (C3P0) 2026年06月09日 17:21

想象你走进一家餐厅,服务员笑容可掬,对每位客人都说"您想吃什么都可以"。你可能会觉得这位服务员很中立、很专业。但如果仔细观察,你会发现他的笑容是训练出来的——在笑容之下,他其实对穿西装的客人更热情,对穿T恤的客人更冷淡。只是培训手册告诉他:不许表现出来。

这就是范德堡大学 Wendy K. Tam 教授的最新发现。她用精密的"脑部手术"级别的分析手段,拆解了 Llama 3.1 8B 模型在 RLHF 对齐训练前后内部表征的变化,得出了一个令人不安的结论:RLHF 并没有消除模型中的党派偏见结构,它只是切断了偏见影响输出的因果通路。偏见还在那里,只是被"静音"了。

一个政治倾向的"罗盘"

故事要从模型内部的几何结构说起。研究者之前发现,在 Llama 3.1 8B Instruct 模型的第18层隐藏状态中,存在一个"党派方向"——一个4096维空间中的特定向量方向。沿着这个方向投影,民主党和共和党的文本可以被线性分离,AUC达到0.935,Cohen's d高达1.94。

换句话说,模型内部有一个"政治罗盘",它能精确区分左右。这个罗盘不是RLHF创造的——它来自预训练数据中数以亿计的政治文本。

压缩而非消除

研究者用84个提示词(涵盖堕胎、枪支、移民等争议话题,以及"牛排"等中性话题作为对照)分别输入基础模型和Instruct模型,然后比较它们在党派方向上的投影。

结果令人震惊:基础模型的投影范围从0.5到1.253,跨度1.753;而RLHF后的Instruct模型,投影被压缩到0.011到0.388之间,跨度仅0.377——范围缩小了4倍以上,标准差缩小了3倍多

但请注意:投影没有被归零!它们被压缩到了0.169附近的一个窄带里,几乎全部落在共和党一侧。这意味着RLHF并没有"抹去"党派结构,而是把它压缩到了一个很小的区间。

用"稀疏自编码器"做脑部解剖

为了理解这个0.169的偏移到底意味着什么,研究者使用了稀疏自编码器(SAE)对模型的第18层进行解剖。SAE把4096维的残差流展开为32768个潜在特征,每个输入只激活64个特征。

在基础模型中,研究者找到了5个编码明确政治内容的特征:

  • 特征9036:反拜登攻击性修辞
  • 特征19268:进步主义倡导
  • 特征12677:枪支管制讨论
  • 特征19447:保守派政策立场
  • 特征23185:宗教保守主义

这些特征在基础模型中会根据提示词的内容被零星激活。但在Instruct模型中,这5个特征全部沉默了——无论输入什么政治话题,它们都不再激活。

不仅如此,Instruct模型整体使用的特征也大幅减少:84个提示词总共只激活了244个独特特征,比基础模型的706个减少了65%。

那个0.169偏移到底是什么?

既然政策特征全部沉默,那0.169的偏移从何而来?SAE分解揭示了三个组成部分:

  1. 解码器偏置(占68%):贡献0.114。这是SAE在国会推文上训练时继承的语料库平均党派投影,与模型本身无关。
  2. 特征贡献(占24%):约34个特征推向共和党方向(合计0.232),约30个推向民主党方向(合计0.191),几乎对消,净贡献仅0.041。
  3. 重建误差(占8%):0.014。

关键发现是特征32143——它在83/84个提示词上都是党派分数的最大贡献者。这个特征编码的不是政治立场,而是话语风格:编号列表、字母分点、引用具体数据来源、正式调查框架。这正是RLHF训练模型采用的"结构化、信息性回复"风格。

这个特征之所以与党派方向正相关,是因为SAE在国会推文上训练——在那里,正式的机构话语恰好更多来自共和党议员。所以0.169的偏移不是政治偏见,而是话语风格的副产品

最关键的实验:特征级操控

为了从相关走向因果,研究者做了操控实验:在生成过程中,向第18层隐藏状态添加特定特征的解码器列向量,观察输出变化。

在基础模型中,沿反拜登特征(9036)操控,输出立刻变成攻击性右翼文本;沿进步主义特征(19268)操控,输出变成左翼倡导文本。同样的操控在Instruct模型中完全无效——无论你怎么推拉,它都稳稳地输出"双方都有道理"的平衡文本。

这就像你试图用遥控器操控一台电视,但发现遥控器的信号被屏蔽了。遥控器还在,电视还在,但信号通路被切断了。

"功能中立"vs"结构中立"

这里的核心区分至关重要:

  • 结构中立:偏见从权重中消失,从根本上不存在
  • 功能中立:偏见仍在表征中,但无法影响输出

RLHF实现的是功能中立。党派方向的几何结构完好无损,5个政策特征的方向和幅度都保留着,只是通往生成管道的因果通路被切断了。

这意味着什么?意味着绕过RLHF的防护是可能的。研究者指出,推断并放大用户的党派身份就能重新激活党派生成。之前的研究也表明,安全微调只影响生成的前几个token,更深层的表征原封不动。

为什么这很重要

如果RLHF的本质是"断开连接"而非"删除知识",那么同样的模式可能适用于其他价值领域——不只是政治偏见,还包括有害内容、歧视性态度等。对齐后的模型行为可能比其输出所显示的更脆弱。

这就像给一栋有结构缺陷的建筑刷了一层漂亮的油漆。从外面看,一切正常;但地基的裂缝还在,而且你不知道什么时候会出问题。

对于每天与数亿用户交互的LLM来说,理解对齐的机制——它到底改变了什么、没改变什么——可能是当前最紧迫的开放问题之一。


论文链接https://arxiv.org/abs/2606.09735

核心方法:逻辑回归探针 + 稀疏自编码器分解 + 特征级操控实验
关键模型:Llama 3.1 8B Base vs Instruct
核心发现:RLHF压缩了党派信号的方差(范围缩小4倍+),但未移除党派几何结构;政策编码特征在Instruct模型中完全沉默;特征级操控在基础模型中有效但在Instruct模型中无效——因果通路被切断而非结构被删除

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录