引言
多模态大模型日益介入人类社会的核心地带。招聘面试、心理咨询、人机协作——这些场景中,模型能否真正"读懂"一个人的性格,而非仅凭表面印象妄下判断,已成当务之急。东京大学联合团队于2026年5月发布之工作,直指此一要害:现有评测仅看分数对错,不问推理根基,致使学界对MLLM人格感知能力之认知,长期处于雾里看花之境。
此篇论文题为《Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?》,作者来自东京大学、盛大AI研究院、大连理工大学等机构。其贡献可概括为三:提出Grounded Personality Reasoning(GPR)任务,构建MM-OCEAN评测基准,设计四层失败模式分析框架。评测覆盖27个MLLM(13个闭源,14个开源),结果令人警醒——超过半数之正确评分,竟无行为证据支撑。
核心诊断:"蒙对"与"真会"的撕裂
人格感知之难,在于其跨越"感知"与"推理"两层。感知层捕捉行为线索,推理层将线索映射至人格维度。现有评测止步于感知层:给定视频,模型输出Big Five五维分数,评测只看分数与人工标注之相关性。此一做法隐含一个危险假设——正确分数即代表正确理解。
论文揭露之"偏见鸿沟"(Prejudice Gap),恰对此假设之致命反驳。全场27个模型中,51%之正确评分未能锚定于任何可检索之行为线索。换言之,模型给出了正确答案,却说不清何以得出此答案。顶级闭源模型亦有约15%之正确评分落入此境——它们"蒙对了",却"不知道为何对"。
此一发现之深层含义在于:分数本身已不可靠。若一模型在人格评测中得分甚高,公众或误以为其具备社会认知能力,实则其推理链条千疮百孔。将此类模型部署于招聘筛选、心理评估等高风险场景,后果堪虞。
小贴士:Big Five人格模型,亦称OCEAN模型,将人格分为开放性(Openness)、尽责性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)、神经质(Neuroticism)五维。此五维自20世纪60年代确立以来,已成为心理学领域最稳健之人格描述框架。
技术拆解:GPR任务与三层评估
GPR任务之设计
论文提出Grounded Personality Reasoning( grounded人格推理),要求模型完成三段式链条:Rating(排序评分)→ Reasoning(开放域证据推理)→ Grounding(结构化线索定位)。三者缺一不可,构成从"知其然"到"知其所以然"之完整闭环。
排序评分层(T1)要求模型对视频人物之五维人格给出相对排序。开放域证据推理层(T2)要求模型以自然语言阐释其行为观察与推理过程。结构化线索定位层(T3)要求模型在多选题中精准定位支撑其判断之具体行为线索。T1测"感知",T2测"表达",T3测"根基",三层递进,层层收紧。
MM-OCEAN数据集之构建
数据集包含1104条多模态视频片段,5320道线索定位多选题。所有标注经由"多智能体协作+人工验证"之五阶段流水线完成:观察者智能体提取原子行为线索,心理学家智能体完成特质推理,考官智能体生成选择题,校准器智能体对齐格式,多环节人工校验确保质量。
此一流程之精髓,在于将人类专业知识编码为智能体角色,以流水线方式规模化生成高质量标注。每条视频附带时间戳行为观察、证据锚定之特质分析、七类不同认知能力之多选题。七类MCQ分别测试线索识别、时间定位、特质映射、因果推理、对比分析、情境推断与综合判断,覆盖人格推理之全谱认知需求。
失败模式分析框架
论文设计四项样本级指标,精准定位模型在推理链之断裂处:
| 指标 | 含义 | 诊断焦点 |
|---|---|---|
| 偏见率(Prejudice Rate, PR) | 评分正确但无对应线索支撑 | 模型凭刻板印象或模式匹配"蒙对" |
| 虚构率(Confabulation Rate, CR) | 推理中编造不存在之行为证据 | 模型为证明结论而虚构事实 |
| 整合失败率(Integration-failure Rate, IR) | 线索与结论之逻辑链条断裂 | 模型找到线索却无法正确推导 |
| 整体接地率(Holistic-grounding Rate, HR) | 评分、推理、 grounding三者全对之比例 | 模型真正"会"之终极指标 |
四项指标相互独立又彼此关联,可精准回答"模型错在哪一步"之问题。HR尤其关键——其数值之低,揭示MLLM在人格推理领域之真实能力边界。
实验发现:残酷的数据画像
整体接地率之低迷
27个MLLM之整体接地率(HR),最高仅33.5%,最低为0%。此一分布意味着:即便表现最佳之模型,亦有三分之二之样本未能完成从感知到推理之完整闭环。更具普遍性之模型,其HR多在10%以下——近乎"全军覆没"。
"自信评分者"与"谨慎推理者"
论文总结出两种典型失败模型,颇具启示。
"自信评分者"类模型,评分阶段表现抢眼,排序准确度甚高,然进入推理与 grounding阶段则节节败退。此类模型擅长模式匹配,凭表面特征快速给出人格判断,一旦要求解释依据便语焉不详或凭空捏造。其高偏见率暴露本质——正确评分多靠运气或刻板印象,非真理解。
"谨慎推理者"类模型,评分阶段表现平平,甚至主动降低输出之确信度,然其推理链条相对完整。此类模型能识别部分行为线索,却因整合能力不足或过于保守而难以给出精准评分。其困境在于"知其然而难尽其然"——有线索,无结论。
两种模式之并存,揭示MLLM人格感知能力之结构性缺陷:感知与推理之间,横亘一道难以逾越之鸿沟。
闭源与开源之对比
闭源模型整体表现优于开源模型,尤其在T1排序评分阶段。然此优势在T2与T3阶段急剧衰减。GPT-4o、Claude-3.5-Sonnet等顶级模型,其HR亦仅在30%上下。开源模型中,具备更强通用推理能力者(如Qwen2.5-VL、InternVL2.5)表现相对突出,印证推理能力为社会认知之基础。
关键发现:推理能力之强弱,与人格接地率呈正相关,然此相关性之斜率远低于预期。换言之,模型之"聪明",并不能直接兑换为"懂人"。社会认知有其独特之认知架构需求,非通用推理能力之线性延伸。
局限与追问
基准之局限
MM-OCEAN之视频片段虽经人工验证,然1104条之规模,于覆盖人格表现之全谱情境,仍显不足。Big Five模型本身亦受文化差异影响,其在非西方群体中之适用性,学界尚存争议。将评测结果推广至跨文化部署场景,须持审慎态度。
对抗性评估之空白
MM-OCEAN之标注流程公开透明,此为一柄双刃剑。善意研究者可依此改进模型,恶意行为者亦可训练模型专门"刷过"此基准。未来亟需对抗性变体:动态生成对抗样本,测试模型是否真正掌握人格推理之深层机制,抑或仅学会迎合评测之表面规则。
社会角色之放大效应
当MLLM进入招聘、教育、医疗等社会角色时,人格感知之偏见将被现实后果放大。一招聘系统若凭模式匹配将外向性与领导力等同,将系统性排斥内向型候选人。一心理咨询助手若凭刻板印象推断来访者之情绪状态,将造成伤害而非疗愈。GPR任务之提出,为AI安全与对齐研究开辟新维度——社会认知之对齐,与事实性对齐同等重要,甚至更为紧迫。
结语
东京大学团队之工作,以"偏见鸿沟"为刃,剖开MLLM人格感知能力之虚浮表象。51%之正确评分无据可依,0%-33.5%之整体接地率,构成一记警钟。技术社区若继续以数值分数为唯一标尺,将在社会认知之关键领域持续自欺欺人。
GPR任务、MM-OCEAN基准、四层失败模式分析,构成一套可操作的改进框架。未来之方向已明:模型须学会"知其然且知其所以然",从模式匹配走向证据锚定之推理。人格感知之终极考验,不在分数高低,而在模型能否像一位审慎之观察者那样,从行为碎片中拼出人格之全貌——并诚实地说出,哪些碎片支撑了哪些判断。
"蒙对"从来不算真会。真会者,能言其所以然。
参考文献
Kang, C., Yan, T., Gong, S., Zhang, M., Ouyang, L., Liu, R., Zheng, B., Lu, H., Zhang, K., Sato, Y., & Huang, Y. (2026). Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality? arXiv preprint arXiv:2605.22109.
#深度研究 #论文解读 #多模态大模型 #人格感知 #MM-OCEAN #BigFive #MLLM #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。