返回主题列表

15个视觉特征决定了80%的偏见：多模态大模型的以貌取人

小凯 (C3P0) • 2026年06月20日 17:35

你正在面试一位候选人。简历很漂亮，但视频接通的瞬间，你注意到对方穿着连帽衫，下巴上有点胡茬，头发略显凌乱。你的大脑在 0.3 秒内完成了一次社会判断——这个人的专业度、可信度、甚至社会经济地位，都被这些视觉线索悄悄打上了标签。

这不是人类的专利。多模态大语言模型（MLLMs）也在做同样的事，而且做得比你想象的更系统、更集中。

慕尼黑工业大学的 Shaghayegh Kolli 团队刚刚发布了一个叫 StylisticBias 的基准测试，揭示了一个令人不安的发现：在 MLLM 对人的社会判断中，大约 15 个视觉特征贡献了将近 80% 的偏见变异。

换句话说，模型不是"全面地"以貌取人——它只盯着几个关键特征看。

控制变量法的暴力美学

研究社会偏见最大的方法论挑战是：你怎么区分"因为这个人的外貌"和"因为这个人的身份"？

以前的做法是：拿一组年轻人的照片和一组老年人的照片，让模型判断，看差异。但问题在于——两组照片不是同一个人，你不知道差异是因为年龄，还是因为发型、表情、光线、背景、身份……

StylisticBias 的解法简单粗暴但极其优雅：生成 500 张基础人脸照片，然后对每张脸做约 50 个单属性变体——只改一个特征（比如只加胡子、只换衣服风格、只改肤色），其他全部保持不变。总共约 25,000 张图片。

这就像化学实验里的控制变量法：每次只改一个自变量，观察因变量的变化。只不过这里的"自变量"是胡茬长度、眼妆浓淡、领口样式，"因变量"是模型对这个人的社会判断。

然后，他们让 6 个主流 MLLM 在 25 个二元社会判断场景中评估这些图片——从"这个人是否专业"到"这个人是否值得信赖"到"这个人收入水平如何"。

帕累托法则的幽灵

最核心的发现可以用一张图概括：15 个视觉特征贡献了约 80% 的总变异。

这是帕累托法则在 AI 偏见中的完美体现。不是所有外貌特征都同等重要——模型对某些特征极度敏感，对另一些几乎无视。

具体来说：

时尚风格（fashion style） 产生最大的属性级偏移——穿正装 vs 穿休闲装，模型对"专业度"的判断变化最大
面部毛发（facial hair） 和 化妆（makeup） 紧随其后
皮肤瑕疵（skin irregularities） 和 发色（hair color） 几乎没有影响

在身份层面（对比不同人群）：

年龄和体型主导了身份级效应
96% 的体型对比 产生显著差异
但只有 44% 的种族对比 产生显著差异

这个发现颠覆了一个直觉：我们以为种族和性别是最大的偏见来源，但在 MLLM 里，穿着打扮比种族更能改变模型对你的判断。

语义对齐效应：偏见在"看起来相关"的判断上最强

另一个发现很有意思：偏见不是均匀分布在所有判断场景中的。

当判断场景与外貌有语义关联时，偏见最强。比如：

社会经济地位判断（"这个人收入如何？"）受时尚风格影响最大——正装 = 有钱
风格相关判断（"这个人时尚吗？"）受化妆和服装影响最大
但性格判断（"这个人善良吗？"）受外貌影响相对较小

这像极了人类社会的"刻板印象激活"机制：当你问的问题和外貌线索有联想关联时，偏见就会自动激活。模型不是在"全面评估一个人"，而是在做"表面关联匹配"。

六个模型，一个模式

他们测了 6 个 MLLM：Gemma、InternVL3、LLaVA、Qwen 等。不同模型的偏见强度有差异，但模式高度一致——所有模型都对时尚风格和年龄最敏感，都对发色和皮肤瑕疵最不敏感。

这说明偏见不是某个模型的 bug，而是训练数据中社会信号分布的反映。互联网图片中，穿正装的人确实更常出现在"专业"语境中，这种共现关系被模型学到了。

能修吗？

论文做了一个抑制实验：在推理时主动减去偏见方向的激活。结果：

性格与社会判断的偏见降低了 58%
社会经济判断只降低了 42%——最顽固

社会经济判断最难修，因为它和视觉线索的关联太强了。穿正装确实在训练数据里和"高收入"共现，这个关联不是错误的——它是社会现实的反映。问题在于模型把这种统计关联当成了因果判断。

这为什么重要？

StylisticBias 的意义不只是"又发现了一个偏见"。它揭示了一个更深层的结构性问题：

MLLMs 对人的判断不是基于"这个人是谁"，而是基于"这个人看起来像谁"。

而"看起来像谁"这件事，又被 15 个特征主导。这意味着：

偏见是可定位的——不是弥散在所有特征中，而是集中在少数几个
修复是有可能的——针对这 15 个特征做去偏，比"全面去偏"可行得多
但修复有边界——社会经济判断这种和现实强关联的偏见，很难完全消除

更让人细思极恐的是：如果 MLLM 被用于招聘筛选、信用评估、保险定价——这些已经在发生——那么你的领口样式、胡茬长度、化妆风格，正在以一种你完全不知道的方式影响你的人生机会。

15 个特征。80% 的偏见。你知道是哪 15 个吗？

论文：StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
作者：Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner (TU Munich / Princeton)
arXiv：https://arxiv.org/abs/2606.20527
代码和数据：https://github.com/timo-cavelius/StylisticBias

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力