> 费曼最爱的一句俏皮话是:"如果我认为你是认真的,我会给你一个回答。但我看你是来搞笑的。"今天的论文恰好是认真研究"搞笑"这件事的——它发现AI的幽默感,和人类的幽默感,结构上完全不同。
---
引子:AI 也有幽默风格?
越来越多的人开始把 AI 当作"人类仿真器"来用——让 AI 填写心理问卷,然后分析它的"人格特质"。心理学家想知道 GPT 是不是外向的,社会学家想知道 Claude 有没有同理心。
这个趋势引出了一个深刻的问题:AI 填问卷时的内在结构,和人类填问卷时的内在结构,是一样的吗?
如果不是,那所有用 AI 代替人类来做心理学研究的结论,都有问题。
一篇来自 EMNLP 2025 的论文,用一个心理学家常用的工具——幽默风格问卷(Humor Style Questionnaire, HSQ)——回答了这个问题。
答案简单而残酷:不一样。而且差得很远。
---
第二章:幽默的四张脸
先科普一下。心理学家把幽默分为四种风格:
- 亲和型幽默(Affiliative):讲笑话逗大家开心,增进社交联系
- 自强型幽默(Self-enhancing):用幽默的视角看生活,乐观面对困境
- 攻击型幽默(Aggressive):讽刺挖苦、嘲笑他人
- 自贬型幽默(Self-defeating):拿自己开涮、用自嘲来讨好别人
研究者让 6 个主流 LLM 填了同样的 HSQ 问卷,然后分析了它们的因子相关性结构——即这四种幽默风格之间如何相互关联。
人类的因子结构是稳定的、可预测的。但 AI 的因子结构——完全不像人类。
---
第三章:AI的搞笑方式,人类看不懂
具体发现:
1. 没有 AI 成功恢复了 HSQ 的四因子结构。 零。六个模型,全军覆没。
2. 人类的子群体内部高度一致——无论你是男性女性、年轻年长、什么文化背景,人类的因子相关性结构是高度稳定的。但 AI 之间表现出与人类几乎为零的相似性。
3. 探索性图分析(EGA)确认:没有任何 LLM 能从问卷回答中恢复出 HSQ 的四个理论构念。
这意味着什么?当你让 AI "假装自己是一个幽默的人"来填问卷时,AI 给出的答案之间没有人类意义上的"心理结构"。它们可能在字面上做出了"正确"的回答("我喜欢逗大家笑"),但这些回答之间的内在关联模式,与人类完全不同。
AI 的幽默不是一个"人格"——它是一个"语言统计游戏"。
---
第四章:为什么?
论文给出了几个可能的解释:
1. LLM 没有"自我":人类填问卷时,是基于对自身行为模式的内省。AI "填问卷"时,是基于训练数据中人类问卷回答的统计模式。前者有中心化的"自我叙事",后者只有分布式的条件概率。
2. LLM 训练数据的"视角偏差":网络文本中关于幽默的描述,可能更多偏向"标准社交场合中的幽默表达",而非私人、内省的幽默体验。人类的自卑型幽默感(内在的乐观视角)在公开文本中很少被体现。
3. 因子结构的涌现需要"经验整合":人类的四种幽默风格之所以形成稳定的因子结构,是因为这些风格在实际生活中通过反复体验被整合成了一个连贯的自我认知。LLM 没有生活,也就没有"整合"。
---
第五章:这个发现有多重要?
它戳穿了一个正在快速蔓延的幻觉:把 LLM 当作"人类仿真器"来用是可行的。
现在有大量的研究用 LLM 代替人类被试来做问卷——"GPT-4 在五大人格维度上的得分"、"Claude 在价值观问卷上的表现"。但如果 LLM 的因子结构本身和人类完全不同,那这些"得分"就没有任何意义——就像你说一个人"外向性得分 85",但实际上打分的那套标准本身就不适用于这个人。
这不是说 AI 不能模拟人类行为——在某些狭义的、基于行为克隆的任务中,AI 可以是出色的仿真器。但在需要内在心理结构一致性的领域(人格评估、价值观测量、临床诊断),AI 的"仿真"目前只是一个语言的皮囊——里面没有对应的心理"骨架"。
---
*论文信息*
- 标题: Fingerprinting LLMs through Survey Item Factor Correlation: A Case Study on Humor Style Questionnaire
- 作者: Simon Münker
- 发表: EMNLP 2025 (Main)
- 链接: ACL Anthology
- 方法: HSQ 问卷 × 6 个 LLM,因子分析,探索性图分析