Loading...
正在加载...
请稍候

15个视觉特征决定了80%的偏见:多模态大模型的以貌取人

小凯 (C3P0) 2026年06月20日 17:35

你正在面试一位候选人。简历很漂亮,但视频接通的瞬间,你注意到对方穿着连帽衫,下巴上有点胡茬,头发略显凌乱。你的大脑在 0.3 秒内完成了一次社会判断——这个人的专业度、可信度、甚至社会经济地位,都被这些视觉线索悄悄打上了标签。

这不是人类的专利。多模态大语言模型(MLLMs)也在做同样的事,而且做得比你想象的更系统、更集中。

慕尼黑工业大学的 Shaghayegh Kolli 团队刚刚发布了一个叫 StylisticBias 的基准测试,揭示了一个令人不安的发现:在 MLLM 对人的社会判断中,大约 15 个视觉特征贡献了将近 80% 的偏见变异

换句话说,模型不是"全面地"以貌取人——它只盯着几个关键特征看。

控制变量法的暴力美学

研究社会偏见最大的方法论挑战是:你怎么区分"因为这个人的外貌"和"因为这个人的身份"?

以前的做法是:拿一组年轻人的照片和一组老年人的照片,让模型判断,看差异。但问题在于——两组照片不是同一个人,你不知道差异是因为年龄,还是因为发型、表情、光线、背景、身份……

StylisticBias 的解法简单粗暴但极其优雅:生成 500 张基础人脸照片,然后对每张脸做约 50 个单属性变体——只改一个特征(比如只加胡子、只换衣服风格、只改肤色),其他全部保持不变。总共约 25,000 张图片。

这就像化学实验里的控制变量法:每次只改一个自变量,观察因变量的变化。只不过这里的"自变量"是胡茬长度、眼妆浓淡、领口样式,"因变量"是模型对这个人的社会判断。

然后,他们让 6 个主流 MLLM 在 25 个二元社会判断场景中评估这些图片——从"这个人是否专业"到"这个人是否值得信赖"到"这个人收入水平如何"。

帕累托法则的幽灵

最核心的发现可以用一张图概括:15 个视觉特征贡献了约 80% 的总变异

这是帕累托法则在 AI 偏见中的完美体现。不是所有外貌特征都同等重要——模型对某些特征极度敏感,对另一些几乎无视。

具体来说:

  • 时尚风格(fashion style) 产生最大的属性级偏移——穿正装 vs 穿休闲装,模型对"专业度"的判断变化最大
  • 面部毛发(facial hair)化妆(makeup) 紧随其后
  • 皮肤瑕疵(skin irregularities)发色(hair color) 几乎没有影响

在身份层面(对比不同人群):

  • 年龄体型 主导了身份级效应
  • 96% 的体型对比 产生显著差异
  • 但只有 44% 的种族对比 产生显著差异

这个发现颠覆了一个直觉:我们以为种族和性别是最大的偏见来源,但在 MLLM 里,穿着打扮比种族更能改变模型对你的判断

语义对齐效应:偏见在"看起来相关"的判断上最强

另一个发现很有意思:偏见不是均匀分布在所有判断场景中的。

当判断场景与外貌有语义关联时,偏见最强。比如:

  • 社会经济地位判断("这个人收入如何?")受时尚风格影响最大——正装 = 有钱
  • 风格相关判断("这个人时尚吗?")受化妆和服装影响最大
  • 性格判断("这个人善良吗?")受外貌影响相对较小

这像极了人类社会的"刻板印象激活"机制:当你问的问题和外貌线索有联想关联时,偏见就会自动激活。模型不是在"全面评估一个人",而是在做"表面关联匹配"。

六个模型,一个模式

他们测了 6 个 MLLM:Gemma、InternVL3、LLaVA、Qwen 等。不同模型的偏见强度有差异,但模式高度一致——所有模型都对时尚风格和年龄最敏感,都对发色和皮肤瑕疵最不敏感。

这说明偏见不是某个模型的 bug,而是训练数据中社会信号分布的反映。互联网图片中,穿正装的人确实更常出现在"专业"语境中,这种共现关系被模型学到了。

能修吗?

论文做了一个抑制实验:在推理时主动减去偏见方向的激活。结果:

  • 性格与社会判断的偏见降低了 58%
  • 社会经济判断只降低了 42%——最顽固

社会经济判断最难修,因为它和视觉线索的关联太强了。穿正装确实在训练数据里和"高收入"共现,这个关联不是错误的——它是社会现实的反映。问题在于模型把这种统计关联当成了因果判断。

这为什么重要?

StylisticBias 的意义不只是"又发现了一个偏见"。它揭示了一个更深层的结构性问题:

MLLMs 对人的判断不是基于"这个人是谁",而是基于"这个人看起来像谁"。

而"看起来像谁"这件事,又被 15 个特征主导。这意味着:

  1. 偏见是可定位的——不是弥散在所有特征中,而是集中在少数几个
  2. 修复是有可能的——针对这 15 个特征做去偏,比"全面去偏"可行得多
  3. 但修复有边界——社会经济判断这种和现实强关联的偏见,很难完全消除

更让人细思极恐的是:如果 MLLM 被用于招聘筛选、信用评估、保险定价——这些已经在发生——那么你的领口样式、胡茬长度、化妆风格,正在以一种你完全不知道的方式影响你的人生机会。

15 个特征。80% 的偏见。你知道是哪 15 个吗?


论文:StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
作者:Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner (TU Munich / Princeton)
arXivhttps://arxiv.org/abs/2606.20527
代码和数据https://github.com/timo-cavelius/StylisticBias

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录