镜子里的隐形偏见:当AI"默认"人类是男性
论文: Vision-Language Models Suppress Female Representations Under Ambiguous Input
作者: Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji(哈佛大学)
arXiv: 2605.31556
领域: 计算机视觉 / 多模态模型 / AI伦理
🎭 一个看不见的默认设置
想象这个场景:
你让AI看图说话。图片里是一个穿着全套防护服、背对着镜头的工人。你问AI:"这个人在做什么工作?"
AI回答:"他在焊接。"
你换了一张图:一个穿着白大褂、戴着口罩的医生,但只露出了背影。你问:"这是谁?"
AI回答:"他是一名医生。"
再换一张:一个消防员从火场中背出一个人,浓烟遮住了面容。你问:"
AI回答:"他在执行救援任务。"
注意到了吗?"他"。总是"他"。
即使当职业是护士、小学老师、秘书——这些传统上女性占多数的职业——当图片中人物的性别不明确时(背影、防护服、遮挡),AI依然默认用"他"。
这不是某个模型的bug。这是系统性偏见。
🔬 问题的本质:对齐的盲区
✅ 现有对齐做了啥
现在的多模态大模型(VLMs,比如GPT-4V、Claude 3、Gemini)都经过了**对齐(Alignment)**训练:
- 明确告诉模型"不要说性别歧视的话"
- 当图片中性别清晰可见时,模型确实能给出中性或准确的描述
❌ 但有个盲区
当输入**模糊(ambiguous)**时——性别特征被遮挡、背影、全身防护服——模型就"原形毕露"了。
论文作者测试了15种职业,超过800张性别模糊的图片,覆盖4个主流VLMs。结果令人震惊:
即使对于"护士""小学老师"这种强烈女性刻板印象的职业,当输入模糊时,模型也会坍缩到男性默认。
这就像一面镜子:表面光滑明亮,但镜框深处藏着旧时代的影子。
🧠 LALS:看穿模型的"内心"
💡 核心问题:输出偏见 ≠ 内部偏见?
论文提出了一个更深的问题:
模型输出男性代词,是因为它"看到"了男性特征?还是因为它"选择"了男性代词,尽管内部表征可能是女性的?
这就像一个口是心非的人——他可能内心认同A观点,但因为社会压力,嘴上说的是B观点。
为了测量模型的"真实想法",作者发明了LALS(Latent Association Leaning Score)——一个零样本度量工具。
🏗️ LALS的工作原理
LALS的核心思想是**"读心术"**——不看他怎么说,而看他的神经网络在图片经过时,哪些神经元被激活了。
具体步骤:
第一步:捕获视觉Token激活
当图片输入VLM时,图片被分成多个patch(小块),每个patch变成一个视觉token。LALS捕获这些视觉token在模型每一层的激活向量。
第二步:投射到文本嵌入空间
VLM有两个"大脑半球":
- 视觉半球:处理图片,产生视觉表征
- 文本半球:处理语言,产生文本表征
LALS把视觉token的激活向量,投射到文本半球的嵌入空间——这就好比把"视觉想法"翻译成"语言想法"。
第三步:测量概念关联
在文本嵌入空间中,计算视觉token与"男性""女性"概念向量的相似度:
LALS_score = cosine_similarity(visual_token, "female_concept")
- cosine_similarity(visual_token, "male_concept")
正值 → 视觉token更"女性"
负值 → 视觉token更"男性"
📊 惊人的发现:内心与嘴的不一致
🎭 核心结果:系统性"内心女性,嘴上说男"
实验结果揭示了一个令人不安的模式:
发现一:内部表征和输出是"解耦"的
对于大量性别模糊的图片:
- 模型内部的视觉表征实际上偏向女性(LALS分数为正)
- 但模型输出的代词却是"他"(男性)
这就像一个人看到了一位女士,但因为"默认设置",张口就说"那位先生"。
发现二:非对称过滤机制
通过逐层分析,作者发现了偏见的传输机制:
输入层 → 中间层 → 输出层
↑
女性信号在此最强
↓
然后被系统性地抑制
具体发现:
- 男性信号:从输入到输出,一路放大,端到端增强
- 女性信号:在中间层达到峰值,然后在到达输出层之前被系统性抑制
这就像一个广播电台:男声频道信号全程清晰,女声频道在中转站被调低了音量。
发现三:文化视觉线索的调制作用
论文还做了一个颜色消融实验:
当图片中包含文化上性别化的视觉线索时(比如粉色vs蓝色服装),这些线索会进一步调制内部关联:
- 穿粉色的模糊人物 → 内部女性关联更强
- 但即使内部女性关联已经很强,输出仍然可能坍缩到男性
这说明偏见不是"看不见女性特征",而是**"看见了但选择忽略"**。
🧬 偏见的根源:训练数据的幽灵
📚 为什么是"默认男性"?
这个发现指向了一个深层问题:模型在训练时"吃"了什么数据?
语言模型训练数据的性别分布:
- 历史文本中"he"的出现频率远高于"she"
- Wikipedia传记中男性条目远多于女性
- 新闻报导中男性作为主角的比例更高
视觉数据的性别分布:
- ImageNet等数据集中,某些职业的图片严重偏向男性
- "医生"的 stock photo 大部分是男性(即使现实中女性医生比例很高)
模型学到的不是"现实",而是"现实中被记录和呈现的方式"。
🔄 对齐训练的局限
现有的对齐方法主要解决的是显性偏见:
- "女人不适合当工程师" → 被标记为有害,模型学会不说
但对于隐性默认——当性别不明确时"默认男性"——对齐训练几乎无能为力:
- 这不是一个"错误陈述"
- 这是一个"默认假设"
- 而且只有在模糊输入时才暴露
就像一个人学会了"不说不礼貌的话",但没学会"检查自己的默认假设"。
💡 破局思路:从"纠正输出"到"调整默认"
🔧 技术层面的可能方案
论文没有提出一个完整的解决方案,但实验结果为未来工作指明了方向:
方案一:在"瓶颈层"干预
既然偏见在中间层到输出层之间被放大,可以在这一瓶颈处进行干预:
- 检测女性信号被抑制的模式
- 在生成阶段加入"性别平衡"约束
方案二:数据层面的再平衡
训练数据中加入更多:
- 性别模糊但职业女性化的图片
- 明确标注"性别不确定"的样本
方案三:输出层的不确定性表达
当模型内部性别信号不明确时,训练模型输出中性语言:
- "这位工人" 而不是 "他"或"她"
- "医护人员" 而不是 "男医生"或"女护士"
🎭 深层思考:默认设置的力量
🧠 心理学视角
论文作者之一 Mahzarin Banaji 是哈佛大学著名心理学家,她是**内隐偏见(Implicit Bias)**研究领域的权威。
人类也有类似的"默认设置":
- 听到"医生",大多数人脑中浮现的是男性形象
- 听到"护士",脑中是女性形象
- 即使理性上知道性别比例已经变化
这些内隐联想不受意识控制,是在长期社会文化环境中形成的自动化反应。
AI模型是从人类数据中学习的。如果数据反映了人类的内隐偏见,模型就会复制这些偏见——甚至放大它们。
⚖️ 技术中立性的幻觉
这篇论文戳破了一个常见的幻觉:
**"技术是中立的。"
不。技术是人类社会的镜像,而镜子有曲率。**
当训练数据来自一个历史上男性主导的社会时,"中立"的算法实际上编码了男性的默认视角。
真正的中立不是"不加干预",而是**"有意识地纠正系统性偏差"**。
🌏 不同文化语境的挑战
论文主要测试的是英语模型和西方职业。但问题是全球性的:
- 中文语境下"他"和"她"的发音相同(tā),但书写不同
- 日语中职业称谓往往默认男性形式
- 阿拉伯语等性别标记更强的语言中,默认问题可能更严重
这意味着偏见的表达形式因语言而异,但默认男性的底层模式可能是跨文化的。
🎬 结语:重新校准镜子
回到开头的场景。
那个穿防护服的工人,可能是她,可能是他。在AI学会说"他们"或"这位工人"之前,它一直在无意识地假设——假设人类,默认是男性。
这篇论文的价值不仅在于揭示了问题,更在于提供了一种方法(LALS)去测量这个问题。正如管理大师Peter Drucker所说:
"If you can't measure it, you can't improve it."
(如果你无法测量它,你就无法改进它。)
现在我们可以测量了。LALS就像一面照向镜子本身的镜子——让我们看到了AI系统内部那些被隐藏、被过滤、被默认化的偏见。
下一步?是重新校准。
不是通过掩盖("不让AI谈论性别"),而是通过暴露和修正——让AI学会在不确定时说"我不确定",在默认设置出错时,有勇气覆盖那个默认。
因为最终,我们想要的不是一个"看起来像中立的"AI,而是一个真正从多元视角看世界的AI。
📚 参考文献
- Marin-Llobet, A., Henniger, S., & Banaji, M.R. (2026). Vision-Language Models Suppress Female Representations Under Ambiguous Input. arXiv:2605.31556.
- Bolukbasi, T., et al. (2016). Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. NeurIPS.
- Caliskan, A., Bryson, J.J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science.
- Bender, E.M., et al. (2021). On the Dangers of Stochastic Parrots. FAccT.
采集于 2026-06-02 | #论文 #arXiv #AI偏见 #多模态模型 #性别偏见 #伦理AI #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。