主文章：感知抑或偏见——MLLM人格推理的「偏见鸿沟」深度拆解：一场关于"蒙对"与"真会"的残酷审判

引言

多模态大模型日益介入人类社会的核心地带。招聘面试、心理咨询、人机协作——这些场景中，模型能否真正"读懂"一个人的性格，而非仅凭表面印象妄下判断，已成当务之急。东京大学联合团队于2026年5月发布之工作，直指此一要害：现有评测仅看分数对错，不问推理根基，致使学界对MLLM人格感知能力之认知，长期处于雾里看花之境。

此篇论文题为《Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?》，作者来自东京大学、盛大AI研究院、大连理工大学等机构。其贡献可概括为三：提出Grounded Personality Reasoning（GPR）任务，构建MM-OCEAN评测基准，设计四层失败模式分析框架。评测覆盖27个MLLM（13个闭源，14个开源），结果令人警醒——超过半数之正确评分，竟无行为证据支撑。

核心诊断："蒙对"与"真会"的撕裂

人格感知之难，在于其跨越"感知"与"推理"两层。感知层捕捉行为线索，推理层将线索映射至人格维度。现有评测止步于感知层：给定视频，模型输出Big Five五维分数，评测只看分数与人工标注之相关性。此一做法隐含一个危险假设——正确分数即代表正确理解。

论文揭露之"偏见鸿沟"（Prejudice Gap），恰对此假设之致命反驳。全场27个模型中，51%之正确评分未能锚定于任何可检索之行为线索。换言之，模型给出了正确答案，却说不清何以得出此答案。顶级闭源模型亦有约15%之正确评分落入此境——它们"蒙对了"，却"不知道为何对"。

此一发现之深层含义在于：分数本身已不可靠。若一模型在人格评测中得分甚高，公众或误以为其具备社会认知能力，实则其推理链条千疮百孔。将此类模型部署于招聘筛选、心理评估等高风险场景，后果堪虞。

> 小贴士：Big Five人格模型，亦称OCEAN模型，将人格分为开放性（Openness）、尽责性（Conscientiousness）、外向性（Extraversion）、宜人性（Agreeableness）、神经质（Neuroticism）五维。此五维自20世纪60年代确立以来，已成为心理学领域最稳健之人格描述框架。

技术拆解：GPR任务与三层评估

GPR任务之设计

论文提出Grounded Personality Reasoning（ grounded人格推理），要求模型完成三段式链条：Rating（排序评分）→ Reasoning（开放域证据推理）→ Grounding（结构化线索定位）。三者缺一不可，构成从"知其然"到"知其所以然"之完整闭环。

排序评分层（T1）要求模型对视频人物之五维人格给出相对排序。开放域证据推理层（T2）要求模型以自然语言阐释其行为观察与推理过程。结构化线索定位层（T3）要求模型在多选题中精准定位支撑其判断之具体行为线索。T1测"感知"，T2测"表达"，T3测"根基"，三层递进，层层收紧。

MM-OCEAN数据集之构建

数据集包含1104条多模态视频片段，5320道线索定位多选题。所有标注经由"多智能体协作+人工验证"之五阶段流水线完成：观察者智能体提取原子行为线索，心理学家智能体完成特质推理，考官智能体生成选择题，校准器智能体对齐格式，多环节人工校验确保质量。

此一流程之精髓，在于将人类专业知识编码为智能体角色，以流水线方式规模化生成高质量标注。每条视频附带时间戳行为观察、证据锚定之特质分析、七类不同认知能力之多选题。七类MCQ分别测试线索识别、时间定位、特质映射、因果推理、对比分析、情境推断与综合判断，覆盖人格推理之全谱认知需求。

失败模式分析框架

论文设计四项样本级指标，精准定位模型在推理链之断裂处：

指标	含义	诊断焦点
偏见率（Prejudice Rate, PR）	评分正确但无对应线索支撑	模型凭刻板印象或模式匹配"蒙对"
虚构率（Confabulation Rate, CR）	推理中编造不存在之行为证据	模型为证明结论而虚构事实
整合失败率（Integration-failure Rate, IR）	线索与结论之逻辑链条断裂	模型找到线索却无法正确推导
整体接地率（Holistic-grounding Rate, HR）	评分、推理、 grounding三者全对之比例	模型真正"会"之终极指标

四项指标相互独立又彼此关联，可精准回答"模型错在哪一步"之问题。HR尤其关键——其数值之低，揭示MLLM在人格推理领域之真实能力边界。

实验发现：残酷的数据画像

整体接地率之低迷

27个MLLM之整体接地率（HR），最高仅33.5%，最低为0%。此一分布意味着：即便表现最佳之模型，亦有三分之二之样本未能完成从感知到推理之完整闭环。更具普遍性之模型，其HR多在10%以下——近乎"全军覆没"。

"自信评分者"与"谨慎推理者"

论文总结出两种典型失败模型，颇具启示。

"自信评分者"类模型，评分阶段表现抢眼，排序准确度甚高，然进入推理与 grounding阶段则节节败退。此类模型擅长模式匹配，凭表面特征快速给出人格判断，一旦要求解释依据便语焉不详或凭空捏造。其高偏见率暴露本质——正确评分多靠运气或刻板印象，非真理解。

"谨慎推理者"类模型，评分阶段表现平平，甚至主动降低输出之确信度，然其推理链条相对完整。此类模型能识别部分行为线索，却因整合能力不足或过于保守而难以给出精准评分。其困境在于"知其然而难尽其然"——有线索，无结论。

两种模式之并存，揭示MLLM人格感知能力之结构性缺陷：感知与推理之间，横亘一道难以逾越之鸿沟。

闭源与开源之对比

闭源模型整体表现优于开源模型，尤其在T1排序评分阶段。然此优势在T2与T3阶段急剧衰减。GPT-4o、Claude-3.5-Sonnet等顶级模型，其HR亦仅在30%上下。开源模型中，具备更强通用推理能力者（如Qwen2.5-VL、InternVL2.5）表现相对突出，印证推理能力为社会认知之基础。

关键发现：推理能力之强弱，与人格接地率呈正相关，然此相关性之斜率远低于预期。换言之，模型之"聪明"，并不能直接兑换为"懂人"。社会认知有其独特之认知架构需求，非通用推理能力之线性延伸。

局限与追问

基准之局限

MM-OCEAN之视频片段虽经人工验证，然1104条之规模，于覆盖人格表现之全谱情境，仍显不足。Big Five模型本身亦受文化差异影响，其在非西方群体中之适用性，学界尚存争议。将评测结果推广至跨文化部署场景，须持审慎态度。

对抗性评估之空白

MM-OCEAN之标注流程公开透明，此为一柄双刃剑。善意研究者可依此改进模型，恶意行为者亦可训练模型专门"刷过"此基准。未来亟需对抗性变体：动态生成对抗样本，测试模型是否真正掌握人格推理之深层机制，抑或仅学会迎合评测之表面规则。

社会角色之放大效应

当MLLM进入招聘、教育、医疗等社会角色时，人格感知之偏见将被现实后果放大。一招聘系统若凭模式匹配将外向性与领导力等同，将系统性排斥内向型候选人。一心理咨询助手若凭刻板印象推断来访者之情绪状态，将造成伤害而非疗愈。GPR任务之提出，为AI安全与对齐研究开辟新维度——社会认知之对齐，与事实性对齐同等重要，甚至更为紧迫。

结语

东京大学团队之工作，以"偏见鸿沟"为刃，剖开MLLM人格感知能力之虚浮表象。51%之正确评分无据可依，0%-33.5%之整体接地率，构成一记警钟。技术社区若继续以数值分数为唯一标尺，将在社会认知之关键领域持续自欺欺人。

GPR任务、MM-OCEAN基准、四层失败模式分析，构成一套可操作的改进框架。未来之方向已明：模型须学会"知其然且知其所以然"，从模式匹配走向证据锚定之推理。人格感知之终极考验，不在分数高低，而在模型能否像一位审慎之观察者那样，从行为碎片中拼出人格之全貌——并诚实地说出，哪些碎片支撑了哪些判断。

"蒙对"从来不算真会。真会者，能言其所以然。

---

参考文献

Kang, C., Yan, T., Gong, S., Zhang, M., Ouyang, L., Liu, R., Zheng, B., Lu, H., Zhang, K., Sato, Y., & Huang, Y. (2026). Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality? arXiv preprint arXiv:2605.22109.

#深度研究 #论文解读 #多模态大模型 #人格感知 #MM-OCEAN #BigFive #MLLM #小凯