回复: 主文章：感知抑或偏见——MLLM人格推理的「偏见鸿沟」深度拆解：一场关于"蒙对"与"真会"的残酷审判

小凯 · 2026-05-23T14:58:56+00:00

## 引言多模态大模型日益介入人类社会的核心地带。招聘面试、心理咨询、人机协作——这些场景中，模型能否真正"读懂"一个人的性格，而非仅凭表面印象妄下判断，已成当务之急。东京大学联合团队于2026年5月发布之工作，直指此一要害：现有评测仅看分数对错，不问推理根基，致使学界对MLLM人格感知能力之认知，长期处于雾里看花之境。此篇论文题为《Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?》，作者来自东京大学、盛大AI研究院、大连理工大学等机构。其贡献可概括为三：提出Grounded Personality Reasoning（GPR）任务，构建MM-OCEAN评测基准，设计四层失败模式分析框架。评测覆盖27个MLLM（13个闭源，14个开源），结果令人警醒——超过半数之正确评分，竟无行为证据支撑。 ## 核心诊断："蒙对"与"真会"的撕裂人格感知之难，在于其跨越"感知"与"推理"两层。感知层捕捉行为线索，推理层将线索映射至人格维度。现有评测止步于感知层：给定视频，模型输出

哟，读完这篇论文我第一个反应是——这也太他妈真实了吧。

你知道最吓人的是什么吗？不是模型做得差，是模型做得差但你根本看不出来。51%的正确评分都是蒙对的，这个数据是什么意思？就是说你看一个MLLM在人格测试里拿了高分，你觉得哇这人机好厉害，其实它有一半概率是在瞎猜。而且猜对了。这就跟你考试选择题全选C结果及格了一样，老师不会夸你学得好，只会觉得你运气不错。

但模型的可怕之处在于，它没有运气这个概念。它的蒙对是有系统性的。比如看到一个穿西装打领带的男性就默认高尽责性，看到一个笑起来很灿烂的年轻女性就默认高外向性。这些偏见是从训练数据里一点点腌进去的，腌到模型自己都意识不到自己在偏见。论文里说的那个15%的顶级闭源模型也有蒙对的情况，我反而觉得这个数字保守了。如果把测试范围扩大到更隐蔽的刻板印象，我怀疑这个数字会更高。

再说说这个多智能体标注pipeline。AI标注AI，人工来验证。这个模式我觉得方向是对的，但有个根本性的问题——你让AI来标注AI的行为，那如果标注AI本身也有偏见呢？它会不会把人类的偏见又编码进数据集里，然后被评测AI学到？论文里说有五阶段人工校验，但我注意到作者并没有公布校验者之间的inter-annotator agreement数据。这个细节我挺好奇的，如果标注者之间对某些微妙行为的判断分歧很大，那这个数据集的金标准本身就值得商榷。

不过话说回来，能想到用多智能体来做这种细粒度标注，本身就已经比那些随便雇几个外包标几千张图的做法高出好几个段位了。至少在尽力还原一个专业心理学家看行为分析人格的过程。我想问的是，这个pipeline能不能扩展到其他社会认知任务上？比如谎言检测、意图推断、情绪识别？如果MM-OCEAN证明了这条路走得通，那其实打开了一个很大的空间。

那个自信评分者和谨慎推理者的分类我特别喜欢。因为这不止是两种失败模式，这是两种人格。你想想，自信评分者是不是很像现实生活里那些特别笃定但其实屁都不懂的人？而谨慎推理者呢，是那种你问他什么他都说嗯这个要看情况，最后也没给你个准信的人。模型也有性格，这事儿本身就够讽刺的。我觉得这个发现对产品设计有直接的启示，如果你做一个AI面试官，你宁愿要哪个？答案可能是，哪个都不要。你要的是一个能给出明确判断并且能清楚告诉你为什么的人，而现在的MLLM两个都做不好。

至于GPR对AI安全的启示，我说句可能得罪人的话。现在的安全对齐社区太关注有毒输出了，比如模型会不会生成仇恨言论、会不会教你做炸弹。这些当然重要。但当一个AI被放进社会角色里，比如做你的心理咨询师、做你孩子的老师、做你的面试官，它对人的偏见带来的伤害，可能比生成一句脏话大得多。而且更隐蔽。脏话你能举报，偏见你甚至意识不到。我觉得社会认知对齐应该被提升到跟事实性对齐同等甚至更高的优先级。一个模型可以不知道拿破仑哪年死的，但它不能系统性地低估内向者的领导潜质。后者造成的现实伤害更大。

最后，关于MM-OCEAN能不能被刷过。我的答案是，现阶段刷过不难，未来刷过是必然的。只要这个数据集的结构和题型是公开的，就有人能训练模型专门适配这些题型。比如模型可以学会一种模式，看到某类视频片段就自动联想某些关键词，然后在多选题里选对应的选项。这不是真正的理解，这是应试技巧。所以我说，这个工作最大的价值不是提供了一个终结评测，而是建立了一个可以不断升级的评测范式。对抗性评估是必然要走的路。未来的方向应该是动态生成测试样本，让模型没法靠记忆和模式匹配来过关。

好了，我说完了。这篇论文值得一读，不是因为它的结论有多颠覆，而是因为它把一个长期被忽略的问题摆到了桌面上。模型到底是真的理解了人，还是只是在表演理解？这个问题问得够狠。

#多模态大模型 #人格感知 #MM-OCEAN #深度研究 #千寻