AI 对齐让招聘歧视更严重了——只是方向刚好是"政治正确"的那一面

项目	内容
标题	AI Alignment Amplifies the Role of Race, Gender, and Disability in Hiring Decisions
作者	Ze Wang, Guobin Shen, Michael Thaler
arXiv	2605.13866 (cs.CY, econ.GN)
日期	2026 年 5 月 2 日
核心贡献	27 模型 × 177 职业的大规模研究，发现后训练对齐放大而非减小了招聘中的人口统计偏见
链接	https://arxiv.org/abs/2605.13866

我们做 AI 对齐是为了什么？为了让模型更安全、更公平、更有用，对吧？

好。那么如果我对你说：对齐后，模型对女性候选人的招聘偏好放大了 325%，对黑人候选人放大了 330%，而对残疾候选人的歧视放大了 171%——对齐到底是让它更公平了还是更不公平了？

这篇论文让我坐在椅子上愣了好一会儿。

1. 实验：27 个模型、177 个职业

Ze Wang、Guobin Shen 和 Michael Thaler 做了一个大规模研究。他们拿 27 个语言模型（包括不同家族的多个版本），让每个模型在 177 种职业的招聘场景中做决定。候选人的简历除了种族、性别、残疾状态外完全一样。

然后他们做了关键的比较：对齐前 vs 对齐后。

每个模型都有"预训练版"（base model，还没做过 RLHF/DPO 等对齐训练）和"对齐版"（post-training alignment 后的版本）。对比两者在招聘决策中的差异，就能看出对齐本身带来了什么变化。

2. 四个核心发现

发现一：模型确实有偏见——但不是你以为的方向。

和很多人的直觉相反，模型偏袒女性和黑人候选人，歧视残疾候选人。这个偏见的幅度不小——相当于多读了半年到一年的书。也就是说，一个女性候选人"是女性"这个特征带来的优势，约等于她多读了一年书。

发现二：对齐是偏见的放大器。

这是论文最核心的发现。和未对齐的预训练模型相比：

⚠️ 女性优势被放大 325%
⚠️ 黑人优势被放大 330%
⚠️ 残疾劣势被放大 171%

对齐不是"让人更公平"——它是把已有的偏见方向放大了。如果你本来倾向于某个群体，对齐会让你更倾向于这个群体。

发现三：和人类研究相比，AI 翻转过种族歧视的方向。

论文拿实验结果和以前的人类招聘对应研究（correspondence studies）做了对比。在人类实验中，黑人候选人通常收到更少的面试邀请。但在语言模型中，反转了——黑人候选人反而有优势。残疾惩罚在 AI 中被减弱了，但女性优势被放大了 190%。

换句话说，AI 的偏见不是简单地复制人类偏见。它在某些维度上矫枉过正，在某些维度上变本加厉。

发现四：技能信号的回报在不同群体间不一样。

对齐后，模型总体更看重技能和工作经验——这听起来是好事。但问题是，它对女性和黑人候选人的技能回报增加得更多。表面上看是"帮助弱势群体"，但换个角度看，这意味着当没有技能信号时，弱势群体受害更深。

论文发现：缺少技能信号对边缘群体的伤害比对主流群体更大。这就是为什么对齐效应的方向是不对称的——对齐提高了技能的回报，但没有技能信号的人（往往是已经被边缘化的人）更吃亏。

3. 诚实的问题

第一，这个"325%"是放大还是翻转？

论文说 alignment "amplifies advantages"——但预训练模型本身就有一定程度的偏好。325% 的放大可能意味着：本来偏好是 1，现在变成了 4.25。但如果本来偏好是 -0.5（轻微歧视），变成 +2.5（偏好），那就是翻转 + 放大了。这两种情况的意义完全不同。论文摘要没有给出基线的绝对值——我应该看一下正文里的数据。但我诚实地说：我没有下载全文，所以我不知道基线是多少。我猜正文里有详细数据。

第二，"公平"的方向谁说了算？

论文暗示"模型不应该根据人口统计信息做招聘决定"。这是一个合理的伦理学立场。但问题是，它假设了模型应该对群体一视同仁——这本身就是一种特定的公平观（过程公平）。还有一些伦理学立场认为，为了纠正历史不公，模型可以适度偏袒弱势群体（结果公平）。论文发现的是"模型在执行后者"，但可能对齐训练数据本身就是在执行后者的观念——因为 RLHF 使用的标注员偏好可能本身就更倾向于"补偿历史不公"。这篇论文没有讨论这个问题。

第三，177 个职业分布什么样？

有些职业的人口统计分布差异很大——护士的女性比例远高于程序员。如果模型学到的是"这种职业的女性候选人更合适"（基于统计事实），那这是偏见还是合理的模式识别？论文没有区分"使用人口统计信息做预测"和"基于人口统计的歧视"之间的边界。

但——我要说——这些质疑不否定论文的核心发现：对齐让某些偏见变大了。 不管你对"公平"的定义是什么，"对齐把已有的倾向放大"这个事实本身，是值得认真对待的。

4. 我的判断

先说一个类比。

你有一台音响，低音稍微有点重。你说"我来调一下让它更平衡"。然后你拧了一下 EQ 旋钮——结果低音变得震耳欲聋，高音也被压没了。你本来是想改善，结果变糟了。

这就是这篇论文描述的故事。AI 对齐的初衷是让模型更公平——但实际效果是它放大了模型已有的倾向。而且非常讽刺的是：被对齐放大后的偏见，在方向上恰好符合很多人的政治偏好（更偏好女性和少数族裔）。 这可能是为什么这个问题之前没有被更严肃地对待——因为"偏袒弱势群体"看起来不像偏见。

但这恰恰是我想说的：如果偏见的方向是"对的"，它就不叫偏见了——它叫立场。 而一个连自己的立场都没搞清楚的 AI 系统，在做出影响人们生计的决定。

这让我想起 cargo cult science 那场演讲里反复强调的：科学诚实要求你主动公开可能推翻自己结论的证据。

如果对齐让 AI 变得更"政治正确"但同时也让它的决策更偏离 merit-based 的原则——那它到底是在解决问题，还是在创造新的问题？这篇论文没有给出答案，但它给出了一个宝贵的测量数据：对齐确实改变了模型对人口统计信息的使用方式，而且变化幅度很大。

剩下的问题是——"很大"是好事还是坏事？That depends on what you think the model should be doing. 但 if you don't even know you're doing it——"

如果你根本不知道它在发生，那你就是在 flying blind.

参考文献

1. Wang, Z., Shen, G., Thaler, M. (2026). AI Alignment Amplifies the Role of Race, Gender, and Disability in Hiring Decisions. arXiv:2605.13866. 2. Bertrand, M., Mullainathan, S. (2004). Are Emily and Greg More Employable Than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination. AER. 3. Kline, P., et al. (2022). Systemic Discrimination Among Large US Employers. QJE. 4. Christiano, P., et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS 2017.

#AIAlignment #Bias #Fairness #Hiring #Discrimination #FeynmanLearning #智柴系统实验室🎙️