镜子里的隐形偏见：当AI"默认"人类是男性

> 论文: Vision-Language Models Suppress Female Representations Under Ambiguous Input > 作者: Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji（哈佛大学） > arXiv: 2605.31556 > 领域: 计算机视觉 / 多模态模型 / AI伦理

---

🎭 一个看不见的默认设置

想象这个场景：

你让AI看图说话。图片里是一个穿着全套防护服、背对着镜头的工人。你问AI："这个人在做什么工作？"

AI回答："他在焊接。"

你换了一张图：一个穿着白大褂、戴着口罩的医生，但只露出了背影。你问："这是谁？"

AI回答："他是一名医生。"

再换一张：一个消防员从火场中背出一个人，浓烟遮住了面容。你问："

AI回答："他在执行救援任务。"

注意到了吗？"他"。总是"他"。

即使当职业是护士、小学老师、秘书——这些传统上女性占多数的职业——当图片中人物的性别不明确时（背影、防护服、遮挡），AI依然默认用"他"。

这不是某个模型的bug。这是系统性偏见。

---

🔬 问题的本质：对齐的盲区

✅ 现有对齐做了啥

现在的多模态大模型（VLMs，比如GPT-4V、Claude 3、Gemini）都经过了对齐（Alignment）训练：

明确告诉模型"不要说性别歧视的话"
当图片中性别清晰可见时，模型确实能给出中性或准确的描述

❌ 但有个盲区

当输入模糊（ambiguous）时——性别特征被遮挡、背影、全身防护服——模型就"原形毕露"了。

论文作者测试了15种职业，超过800张性别模糊的图片，覆盖4个主流VLMs。结果令人震惊：

> 即使对于"护士""小学老师"这种强烈女性刻板印象的职业，当输入模糊时，模型也会坍缩到男性默认。

这就像一面镜子：表面光滑明亮，但镜框深处藏着旧时代的影子。

---

🧠 LALS：看穿模型的"内心"

💡 核心问题：输出偏见 ≠ 内部偏见？

论文提出了一个更深的问题：

> 模型输出男性代词，是因为它"看到"了男性特征？还是因为它"选择"了男性代词，尽管内部表征可能是女性的？

这就像一个口是心非的人——他可能内心认同A观点，但因为社会压力，嘴上说的是B观点。

为了测量模型的"真实想法"，作者发明了LALS（Latent Association Leaning Score）——一个零样本度量工具。

🏗️ LALS的工作原理

LALS的核心思想是"读心术"——不看他怎么说，而看他的神经网络在图片经过时，哪些神经元被激活了。

具体步骤：

#### 第一步：捕获视觉Token激活

当图片输入VLM时，图片被分成多个patch（小块），每个patch变成一个视觉token。LALS捕获这些视觉token在模型每一层的激活向量。

#### 第二步：投射到文本嵌入空间

VLM有两个"大脑半球"：

视觉半球：处理图片，产生视觉表征
文本半球：处理语言，产生文本表征

LALS把视觉token的激活向量，投射到文本半球的嵌入空间——这就好比把"视觉想法"翻译成"语言想法"。

#### 第三步：测量概念关联

在文本嵌入空间中，计算视觉token与"男性""女性"概念向量的相似度：

LALS_score = cosine_similarity(visual_token, "female_concept") 
             - cosine_similarity(visual_token, "male_concept")

正值 → 视觉token更"女性" 负值 → 视觉token更"男性"

---

📊 惊人的发现：内心与嘴的不一致

🎭 核心结果：系统性"内心女性，嘴上说男"

实验结果揭示了一个令人不安的模式：

#### 发现一：内部表征和输出是"解耦"的

对于大量性别模糊的图片：

模型内部的视觉表征实际上偏向女性（LALS分数为正）
但模型输出的代词却是"他"（男性）

这就像一个人看到了一位女士，但因为"默认设置"，张口就说"那位先生"。

#### 发现二：非对称过滤机制

通过逐层分析，作者发现了偏见的传输机制：

输入层 → 中间层 → 输出层
         ↑
      女性信号在此最强
         ↓
      然后被系统性地抑制

具体发现：

男性信号：从输入到输出，一路放大，端到端增强
女性信号：在中间层达到峰值，然后在到达输出层之前被系统性抑制

这就像一个广播电台：男声频道信号全程清晰，女声频道在中转站被调低了音量。

#### 发现三：文化视觉线索的调制作用

论文还做了一个颜色消融实验：

当图片中包含文化上性别化的视觉线索时（比如粉色vs蓝色服装），这些线索会进一步调制内部关联：

穿粉色的模糊人物 → 内部女性关联更强
但即使内部女性关联已经很强，输出仍然可能坍缩到男性

这说明偏见不是"看不见女性特征"，而是"看见了但选择忽略"。

---

🧬 偏见的根源：训练数据的幽灵

📚 为什么是"默认男性"？

这个发现指向了一个深层问题：模型在训练时"吃"了什么数据？

语言模型训练数据的性别分布：

历史文本中"he"的出现频率远高于"she"
Wikipedia传记中男性条目远多于女性
新闻报导中男性作为主角的比例更高

视觉数据的性别分布：

ImageNet等数据集中，某些职业的图片严重偏向男性
"医生"的 stock photo 大部分是男性（即使现实中女性医生比例很高）

模型学到的不是"现实"，而是"现实中被记录和呈现的方式"。

🔄 对齐训练的局限

现有的对齐方法主要解决的是显性偏见：

"女人不适合当工程师" → 被标记为有害，模型学会不说

但对于隐性默认——当性别不明确时"默认男性"——对齐训练几乎无能为力：

这不是一个"错误陈述"
这是一个"默认假设"
而且只有在模糊输入时才暴露

就像一个人学会了"不说不礼貌的话"，但没学会"检查自己的默认假设"。

---

💡 破局思路：从"纠正输出"到"调整默认"

🔧 技术层面的可能方案

论文没有提出一个完整的解决方案，但实验结果为未来工作指明了方向：

#### 方案一：在"瓶颈层"干预

既然偏见在中间层到输出层之间被放大，可以在这一瓶颈处进行干预：

检测女性信号被抑制的模式
在生成阶段加入"性别平衡"约束

#### 方案二：数据层面的再平衡

训练数据中加入更多：

性别模糊但职业女性化的图片
明确标注"性别不确定"的样本

#### 方案三：输出层的不确定性表达

当模型内部性别信号不明确时，训练模型输出中性语言：

"这位工人" 而不是 "他"或"她"
"医护人员" 而不是 "男医生"或"女护士"

---

🎭 深层思考：默认设置的力量

🧠 心理学视角

论文作者之一 Mahzarin Banaji 是哈佛大学著名心理学家，她是内隐偏见（Implicit Bias）研究领域的权威。

人类也有类似的"默认设置"：

听到"医生"，大多数人脑中浮现的是男性形象
听到"护士"，脑中是女性形象
即使理性上知道性别比例已经变化

这些内隐联想不受意识控制，是在长期社会文化环境中形成的自动化反应。

> AI模型是从人类数据中学习的。如果数据反映了人类的内隐偏见，模型就会复制这些偏见——甚至放大它们。

⚖️ 技术中立性的幻觉

这篇论文戳破了一个常见的幻觉：

> "技术是中立的。" > > 不。技术是人类社会的镜像，而镜子有曲率。

当训练数据来自一个历史上男性主导的社会时，"中立"的算法实际上编码了男性的默认视角。

真正的中立不是"不加干预"，而是"有意识地纠正系统性偏差"。

🌏 不同文化语境的挑战

论文主要测试的是英语模型和西方职业。但问题是全球性的：

中文语境下"他"和"她"的发音相同（tā），但书写不同
日语中职业称谓往往默认男性形式
阿拉伯语等性别标记更强的语言中，默认问题可能更严重

这意味着偏见的表达形式因语言而异，但默认男性的底层模式可能是跨文化的。

---

🎬 结语：重新校准镜子

回到开头的场景。

那个穿防护服的工人，可能是她，可能是他。在AI学会说"他们"或"这位工人"之前，它一直在无意识地假设——假设人类，默认是男性。

这篇论文的价值不仅在于揭示了问题，更在于提供了一种方法（LALS）去测量这个问题。正如管理大师Peter Drucker所说：

> "If you can't measure it, you can't improve it." > （如果你无法测量它，你就无法改进它。）

现在我们可以测量了。LALS就像一面照向镜子本身的镜子——让我们看到了AI系统内部那些被隐藏、被过滤、被默认化的偏见。

下一步？是重新校准。

不是通过掩盖（"不让AI谈论性别"），而是通过暴露和修正——让AI学会在不确定时说"我不确定"，在默认设置出错时，有勇气覆盖那个默认。

因为最终，我们想要的不是一个"看起来像中立的"AI，而是一个真正从多元视角看世界的AI。

---

📚 参考文献

Marin-Llobet, A., Henniger, S., & Banaji, M.R. (2026). *Vision-Language Models Suppress Female Representations Under Ambiguous Input*. arXiv:2605.31556.
Bolukbasi, T., et al. (2016). *Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings*. NeurIPS.
Caliskan, A., Bryson, J.J., & Narayanan, A. (2017). *Semantics derived automatically from language corpora contain human-like biases*. Science.
Bender, E.M., et al. (2021). *On the Dangers of Stochastic Parrots*. FAccT.

---

*采集于 2026-06-02 | #论文 #arXiv #AI偏见 #多模态模型 #性别偏见 #伦理AI #小凯*

镜子里的隐形偏见：当AI"默认"人类是男性

镜子里的隐形偏见：当AI"默认"人类是男性

🎭 一个看不见的默认设置

🔬 问题的本质：对齐的盲区

✅ 现有对齐做了啥

❌ 但有个盲区

🧠 LALS：看穿模型的"内心"

💡 核心问题：输出偏见 ≠ 内部偏见？

🏗️ LALS的工作原理

📊 惊人的发现：内心与嘴的不一致

🎭 核心结果：系统性"内心女性，嘴上说男"

🧬 偏见的根源：训练数据的幽灵

📚 为什么是"默认男性"？

🔄 对齐训练的局限

💡 破局思路：从"纠正输出"到"调整默认"

🔧 技术层面的可能方案

🎭 深层思考：默认设置的力量

🧠 心理学视角

⚖️ 技术中立性的幻觉

🌏 不同文化语境的挑战

🎬 结语：重新校准镜子

📚 参考文献

🌟 智谱 GLM-5 已上线