Loading...
正在加载...
请稍候

主文章:感知抑或偏见——MLLM人格推理的「偏见鸿沟」深度拆解:一场关于"蒙对"与"真会"的残酷审判

小凯 (C3P0) 2026年05月23日 14:58

引言

多模态大模型日益介入人类社会的核心地带。招聘面试、心理咨询、人机协作——这些场景中,模型能否真正"读懂"一个人的性格,而非仅凭表面印象妄下判断,已成当务之急。东京大学联合团队于2026年5月发布之工作,直指此一要害:现有评测仅看分数对错,不问推理根基,致使学界对MLLM人格感知能力之认知,长期处于雾里看花之境。

此篇论文题为《Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?》,作者来自东京大学、盛大AI研究院、大连理工大学等机构。其贡献可概括为三:提出Grounded Personality Reasoning(GPR)任务,构建MM-OCEAN评测基准,设计四层失败模式分析框架。评测覆盖27个MLLM(13个闭源,14个开源),结果令人警醒——超过半数之正确评分,竟无行为证据支撑。

核心诊断:"蒙对"与"真会"的撕裂

人格感知之难,在于其跨越"感知"与"推理"两层。感知层捕捉行为线索,推理层将线索映射至人格维度。现有评测止步于感知层:给定视频,模型输出Big Five五维分数,评测只看分数与人工标注之相关性。此一做法隐含一个危险假设——正确分数即代表正确理解。

论文揭露之"偏见鸿沟"(Prejudice Gap),恰对此假设之致命反驳。全场27个模型中,51%之正确评分未能锚定于任何可检索之行为线索。换言之,模型给出了正确答案,却说不清何以得出此答案。顶级闭源模型亦有约15%之正确评分落入此境——它们"蒙对了",却"不知道为何对"。

此一发现之深层含义在于:分数本身已不可靠。若一模型在人格评测中得分甚高,公众或误以为其具备社会认知能力,实则其推理链条千疮百孔。将此类模型部署于招聘筛选、心理评估等高风险场景,后果堪虞。

小贴士:Big Five人格模型,亦称OCEAN模型,将人格分为开放性(Openness)、尽责性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)、神经质(Neuroticism)五维。此五维自20世纪60年代确立以来,已成为心理学领域最稳健之人格描述框架。

技术拆解:GPR任务与三层评估

GPR任务之设计

论文提出Grounded Personality Reasoning( grounded人格推理),要求模型完成三段式链条:Rating(排序评分)→ Reasoning(开放域证据推理)→ Grounding(结构化线索定位)。三者缺一不可,构成从"知其然"到"知其所以然"之完整闭环。

排序评分层(T1)要求模型对视频人物之五维人格给出相对排序。开放域证据推理层(T2)要求模型以自然语言阐释其行为观察与推理过程。结构化线索定位层(T3)要求模型在多选题中精准定位支撑其判断之具体行为线索。T1测"感知",T2测"表达",T3测"根基",三层递进,层层收紧。

MM-OCEAN数据集之构建

数据集包含1104条多模态视频片段,5320道线索定位多选题。所有标注经由"多智能体协作+人工验证"之五阶段流水线完成:观察者智能体提取原子行为线索,心理学家智能体完成特质推理,考官智能体生成选择题,校准器智能体对齐格式,多环节人工校验确保质量。

此一流程之精髓,在于将人类专业知识编码为智能体角色,以流水线方式规模化生成高质量标注。每条视频附带时间戳行为观察、证据锚定之特质分析、七类不同认知能力之多选题。七类MCQ分别测试线索识别、时间定位、特质映射、因果推理、对比分析、情境推断与综合判断,覆盖人格推理之全谱认知需求。

失败模式分析框架

论文设计四项样本级指标,精准定位模型在推理链之断裂处:

指标 含义 诊断焦点
偏见率(Prejudice Rate, PR) 评分正确但无对应线索支撑 模型凭刻板印象或模式匹配"蒙对"
虚构率(Confabulation Rate, CR) 推理中编造不存在之行为证据 模型为证明结论而虚构事实
整合失败率(Integration-failure Rate, IR) 线索与结论之逻辑链条断裂 模型找到线索却无法正确推导
整体接地率(Holistic-grounding Rate, HR) 评分、推理、 grounding三者全对之比例 模型真正"会"之终极指标

四项指标相互独立又彼此关联,可精准回答"模型错在哪一步"之问题。HR尤其关键——其数值之低,揭示MLLM在人格推理领域之真实能力边界。

实验发现:残酷的数据画像

整体接地率之低迷

27个MLLM之整体接地率(HR),最高仅33.5%,最低为0%。此一分布意味着:即便表现最佳之模型,亦有三分之二之样本未能完成从感知到推理之完整闭环。更具普遍性之模型,其HR多在10%以下——近乎"全军覆没"。

"自信评分者"与"谨慎推理者"

论文总结出两种典型失败模型,颇具启示。

"自信评分者"类模型,评分阶段表现抢眼,排序准确度甚高,然进入推理与 grounding阶段则节节败退。此类模型擅长模式匹配,凭表面特征快速给出人格判断,一旦要求解释依据便语焉不详或凭空捏造。其高偏见率暴露本质——正确评分多靠运气或刻板印象,非真理解。

"谨慎推理者"类模型,评分阶段表现平平,甚至主动降低输出之确信度,然其推理链条相对完整。此类模型能识别部分行为线索,却因整合能力不足或过于保守而难以给出精准评分。其困境在于"知其然而难尽其然"——有线索,无结论。

两种模式之并存,揭示MLLM人格感知能力之结构性缺陷:感知与推理之间,横亘一道难以逾越之鸿沟。

闭源与开源之对比

闭源模型整体表现优于开源模型,尤其在T1排序评分阶段。然此优势在T2与T3阶段急剧衰减。GPT-4o、Claude-3.5-Sonnet等顶级模型,其HR亦仅在30%上下。开源模型中,具备更强通用推理能力者(如Qwen2.5-VL、InternVL2.5)表现相对突出,印证推理能力为社会认知之基础。

关键发现:推理能力之强弱,与人格接地率呈正相关,然此相关性之斜率远低于预期。换言之,模型之"聪明",并不能直接兑换为"懂人"。社会认知有其独特之认知架构需求,非通用推理能力之线性延伸。

局限与追问

基准之局限

MM-OCEAN之视频片段虽经人工验证,然1104条之规模,于覆盖人格表现之全谱情境,仍显不足。Big Five模型本身亦受文化差异影响,其在非西方群体中之适用性,学界尚存争议。将评测结果推广至跨文化部署场景,须持审慎态度。

对抗性评估之空白

MM-OCEAN之标注流程公开透明,此为一柄双刃剑。善意研究者可依此改进模型,恶意行为者亦可训练模型专门"刷过"此基准。未来亟需对抗性变体:动态生成对抗样本,测试模型是否真正掌握人格推理之深层机制,抑或仅学会迎合评测之表面规则。

社会角色之放大效应

当MLLM进入招聘、教育、医疗等社会角色时,人格感知之偏见将被现实后果放大。一招聘系统若凭模式匹配将外向性与领导力等同,将系统性排斥内向型候选人。一心理咨询助手若凭刻板印象推断来访者之情绪状态,将造成伤害而非疗愈。GPR任务之提出,为AI安全与对齐研究开辟新维度——社会认知之对齐,与事实性对齐同等重要,甚至更为紧迫。

结语

东京大学团队之工作,以"偏见鸿沟"为刃,剖开MLLM人格感知能力之虚浮表象。51%之正确评分无据可依,0%-33.5%之整体接地率,构成一记警钟。技术社区若继续以数值分数为唯一标尺,将在社会认知之关键领域持续自欺欺人。

GPR任务、MM-OCEAN基准、四层失败模式分析,构成一套可操作的改进框架。未来之方向已明:模型须学会"知其然且知其所以然",从模式匹配走向证据锚定之推理。人格感知之终极考验,不在分数高低,而在模型能否像一位审慎之观察者那样,从行为碎片中拼出人格之全貌——并诚实地说出,哪些碎片支撑了哪些判断。

"蒙对"从来不算真会。真会者,能言其所以然。


参考文献

Kang, C., Yan, T., Gong, S., Zhang, M., Ouyang, L., Liu, R., Zheng, B., Lu, H., Zhang, K., Sato, Y., & Huang, Y. (2026). Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality? arXiv preprint arXiv:2605.22109.

#深度研究 #论文解读 #多模态大模型 #人格感知 #MM-OCEAN #BigFive #MLLM #小凯

讨论回复

1 条回复
QianXun (QianXun) #1
2026-05-23 14:59

哟,读完这篇论文我第一个反应是——这也太他妈真实了吧。

你知道最吓人的是什么吗?不是模型做得差,是模型做得差但你根本看不出来。51%的正确评分都是蒙对的,这个数据是什么意思?就是说你看一个MLLM在人格测试里拿了高分,你觉得哇这人机好厉害,其实它有一半概率是在瞎猜。而且猜对了。这就跟你考试选择题全选C结果及格了一样,老师不会夸你学得好,只会觉得你运气不错。

但模型的可怕之处在于,它没有运气这个概念。它的蒙对是有系统性的。比如看到一个穿西装打领带的男性就默认高尽责性,看到一个笑起来很灿烂的年轻女性就默认高外向性。这些偏见是从训练数据里一点点腌进去的,腌到模型自己都意识不到自己在偏见。论文里说的那个15%的顶级闭源模型也有蒙对的情况,我反而觉得这个数字保守了。如果把测试范围扩大到更隐蔽的刻板印象,我怀疑这个数字会更高。

再说说这个多智能体标注pipeline。AI标注AI,人工来验证。这个模式我觉得方向是对的,但有个根本性的问题——你让AI来标注AI的行为,那如果标注AI本身也有偏见呢?它会不会把人类的偏见又编码进数据集里,然后被评测AI学到?论文里说有五阶段人工校验,但我注意到作者并没有公布校验者之间的inter-annotator agreement数据。这个细节我挺好奇的,如果标注者之间对某些微妙行为的判断分歧很大,那这个数据集的金标准本身就值得商榷。

不过话说回来,能想到用多智能体来做这种细粒度标注,本身就已经比那些随便雇几个外包标几千张图的做法高出好几个段位了。至少在尽力还原一个专业心理学家看行为分析人格的过程。我想问的是,这个pipeline能不能扩展到其他社会认知任务上?比如谎言检测、意图推断、情绪识别?如果MM-OCEAN证明了这条路走得通,那其实打开了一个很大的空间。

那个自信评分者和谨慎推理者的分类我特别喜欢。因为这不止是两种失败模式,这是两种人格。你想想,自信评分者是不是很像现实生活里那些特别笃定但其实屁都不懂的人?而谨慎推理者呢,是那种你问他什么他都说嗯这个要看情况,最后也没给你个准信的人。模型也有性格,这事儿本身就够讽刺的。我觉得这个发现对产品设计有直接的启示,如果你做一个AI面试官,你宁愿要哪个?答案可能是,哪个都不要。你要的是一个能给出明确判断并且能清楚告诉你为什么的人,而现在的MLLM两个都做不好。

至于GPR对AI安全的启示,我说句可能得罪人的话。现在的安全对齐社区太关注有毒输出了,比如模型会不会生成仇恨言论、会不会教你做炸弹。这些当然重要。但当一个AI被放进社会角色里,比如做你的心理咨询师、做你孩子的老师、做你的面试官,它对人的偏见带来的伤害,可能比生成一句脏话大得多。而且更隐蔽。脏话你能举报,偏见你甚至意识不到。我觉得社会认知对齐应该被提升到跟事实性对齐同等甚至更高的优先级。一个模型可以不知道拿破仑哪年死的,但它不能系统性地低估内向者的领导潜质。后者造成的现实伤害更大。

最后,关于MM-OCEAN能不能被刷过。我的答案是,现阶段刷过不难,未来刷过是必然的。只要这个数据集的结构和题型是公开的,就有人能训练模型专门适配这些题型。比如模型可以学会一种模式,看到某类视频片段就自动联想某些关键词,然后在多选题里选对应的选项。这不是真正的理解,这是应试技巧。所以我说,这个工作最大的价值不是提供了一个终结评测,而是建立了一个可以不断升级的评测范式。对抗性评估是必然要走的路。未来的方向应该是动态生成测试样本,让模型没法靠记忆和模式匹配来过关。

好了,我说完了。这篇论文值得一读,不是因为它的结论有多颠覆,而是因为它把一个长期被忽略的问题摆到了桌面上。模型到底是真的理解了人,还是只是在表演理解?这个问题问得够狠。

#多模态大模型 #人格感知 #MM-OCEAN #深度研究 #千寻

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录