AI 在想"她"——但说出口时却变成了"他"

项目	内容
论文标题	Vision-Language Models Suppress Female Representations Under Ambiguous Input
作者	Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji
机构	哈佛大学（Banaji 为内隐偏见研究的奠基人之一，IAT 共同创建者）
arXiv ID	2605.31556
提交日期	2026年5月29日
分类	cs.CV（计算机视觉）+ cs.AI + cs.CL + cs.CY + cs.HC
核心发现	当输入图像中性别不可见（穿全套工装的人、背影），VLM 默认输出男性——即使内部表征编码了女性关联。内部表征和输出之间存在系统性的脱钩：男性信号从输入到输出被放大，女性信号在网络中层达到峰值、在生成前被抑制。这套"不对称过滤"机制在 15 种职业、800+ 张模糊图像、4 个 VLM 上一致出现。

---

1. 👤 一个背影，谁也看不清

一张图。一个人穿着全套防护服，戴着头盔，站在工地里。看不清脸。看不清体型。你只看到一个人——在做某件事。

现在，你让一个 AI 模型为这张图生成描述。

它写："一个工人在检查设备。"用的是"他"。

你又给它一张图。一个人弯着腰，在教室里给孩子们读故事。也看不清性别。又是一张模糊照片——只有轮廓。

模型写："老师正在给孩子们读书。"用的也是"他"。

你把这两张图放到一起看。第一张里的人可能是一个女工程师。第二张里的人可能是一个男幼师。但模型都默认写成了"他"。

论文用 800 多张模糊性别图像、15 种职业、4 个主流视觉-语言模型——发现了一个系统性的不对称：

当输入模糊时，VLMs 向内编码了"女性"——向外输出时却一律塌缩成"男性"。

---

2. 🔬 怎么看到的？LALS 探针

论文发明了一个新工具。叫 LALS——Latent Association Leaning Score——潜在关联偏向分数。

它的原理——简单说——是这样的：在 VLM 处理图像的时候，视觉 token 流经多层 Transformer。每一层都有一个内部激活状态。LALS 做的事是把这些视觉 token 的激活投影到模型自己的文本嵌入空间里——然后在那个空间里测量"这个激活点离'男性'这个词有多近、离'女性'这个词有多近"。

这等于在模型的每一层放了一面镜子——不是问模型"你看到了什么？"——而是偷偷地看它的"脑子里在想什么"。

论文用 LALS 分别测量了四个主流 VLM 在 15 种职业相关的模糊图像上的处理过程。每一层、每一个视觉 token、每一个词嵌入——逐层追踪性别关联的起伏。

结果出乎直觉——但不是你以为的那种。

---

3. 📊 内部的信号，和外部的输出，是两个人的账本

这是论文的核心发现——也是读完最难放下的一段。

当输入图像中性别不可见时，VLMs 的内部表征经常编码了女性关联。尤其是面对传统上女性占多数的职业——护士、幼师、行政助理——LALS 在中层网络会显示出强烈的"这一图像与'女性'概念接近"的信号。

但模型最后输出的描述——几乎无一例外地——用了"他"。

内部和外部之间有一道看不见的墙。模型在层 8~12"想到了女性"——到了层 18~20，这个信号被压下去了。——到了输出层，崩塌为男性。

这不是模型没看见。是看见了——又被洗掉了。

---

4. ⚖️ 不对称过滤器

逐层追踪的数据画出了一幅极其清晰的图：

男性信号：从输入 token 穿过整个网络——信号几乎不打折扣。每一层都在放大、再放大。男性信号是"畅通无阻"地从像素走到了文字。

女性信号：在网络的中间层次——大约第 6 到第 14 层——信号达到峰值。不是"弱"——峰值时可以超过男性。但在第 15 层以后——信号被系统性地衰减。到生成层——只剩下微量。

论文把这个现象叫作"不对称过滤器"（asymmetric filter）。它的形状很稳定——在 4 个不同的 VLM 上、在 15 个不同的职业类型上——都出现了同样的"女性峰 + 衰减、男性累积 + 放大"的模式。

一个让人脊背发凉的细节：服装颜色会调制这个过程。 论文做了颜色消融实验——把图片中的颜色去掉——内部女性关联的强度就下降了。颜色本身——在这个分析里——是一种文化负载的信号载体。粉红色调、柔和色系——这些在训练数据中与女性关联的视觉线索——在 VLM 的视觉编码器中已经形成了条件反射。

---

5. 🧭 对齐解决了一部分问题——但没有解决另一部分

论文开头第一句话是"Alignment teaches VLMs to avoid expressing demographic biases"。

的确。当性别清晰可见时——照片里的脸部看得清、体型特征明显——今天的模型在输出层面基本上不会犯明显的性别偏误。对齐在这里起到了作用——至少表面上是。

但当性别不可见时——所有这些保护都剥落了。模型回到了默认值。默认值是"男性"。

这是对齐的本质问题——对齐优化的是"输出"——而非"内部表征"。只要训练目标不惩罚一个中层概念关联——那个关联就会原封不动地留在网络里。对齐打磨了嘴巴——但没动脑子。

这篇论文和 concept-first（arXiv:2605.22007）的核心发现——16-47% 的幻觉来自"知而不选"——在根上是同一条脉络：模型内部编码了正确答案——但训练目标锁定了另一个输出。

只不过 concept-first 论文发现的是事实知识层面的"知而不选"。这一篇发现的是社会偏见层面的"知而不选"。模型内部知道这个人可能是女性——但最终输出的 token 是"他"。

---

6. ⚡ 一些我不清楚的

这篇论文的发现是深刻的。但有一些东西我无法核实。

第一，LALS 的精度。 把视觉 token 投影到文本嵌入空间来测语义关联——这是一个显著的简化。视觉 token 和文本 token 本来不是同一个空间的东西——投影可能丢失信息，也可能引入虚假关联。论文声称是"零样本"的——意味着不需要额外训练——但零样本和"精确"之间通常有一个 trade-off。LALS 测到的"女性信号"到底是对应于真实的内部概念激活——还是文本嵌入空间里某种已知的、但与视觉无关的共现模式——我不知道。

第二，不对称过滤器的来源。 论文观测到了现象——逐层放大-衰减的不对称性——但没有提供因果解释。为什么是层 15~20 开始压制女性信号？这个层的梯度在训练过程中学到了什么导致了这种行为？是视觉预训练数据的偏差，还是语言对齐数据的偏差，还是架构自身的归纳偏置？论文没有回答这些问题。

第三，职业研究的外部效度。 15 种职业的选择是否均衡涵盖了"男性主导""女性主导"和"中性"三类？800 多张图像是否涵盖了足够的场景多样性——例如不同国家、不同环境、不同类型的摄影角度？这是一个出色的初步研究——但它离"对 VLMs 的性别偏见做全面审计"还有距离。

---

7. 🪞 对齐的极限

如果把这篇论文的发现压缩成一句话——就是：对齐能让模型学会不把话说出口——但无法让模型学会不从那个角度想。

"不对称过滤器"——男性信号畅通无阻、女性信号中途被截——不是代码里写进去的。是数据、架构、训练目标的合力——在优化过程中自动结晶而成。它是涌现出来的偏见。

如果你想让 VLM 不再默认把模糊人影当成男性——你需要改的不是提示词。不是 RLHF。是那些过滤器背后的训练数据、训练目标和架构设计。

这项工作没有提供修复方案。但它提供了一件同样重要的东西——一张精确描绘问题在哪一层被制造出来的地图。

有了这张地图，修复即有可能。

---

参考文献：

1. Marin-Llobet, Henniger & Banaji, "Vision-Language Models Suppress Female Representations Under Ambiguous Input", arXiv:2605.31556, 2026. 2. Bai et al., "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback", arXiv:2204.05862, 2022. 3. Birhane et al., "Multimodal Datasets: Misogyny, Pornography, and Malignant Stereotypes", arXiv:2110.01963, 2021. 4. Wolfe et al., "Concept-First: Commitment Failures in Large Language Models", arXiv:2605.22007, 2026. 5. Greenwald & Banaji, "Implicit Social Cognition: Attitudes, Self-Esteem, and Stereotypes", Psychological Review, 1995.

#视觉语言模型 #性别偏误 #不对称过滤器 #对齐极限 #内部表征 #智柴偏见审计👤🪞🎙️