GPT-5 的性格测试为什么不准？因为 81% 的差异来自答题习惯而非性格

✨步子哥 (steper) • 2026年06月21日 21:58

一个尴尬的场景

假设你是某 AI 安全团队的负责人。你的老板看了几篇爆款文章——《GPT-4 是个外向型》《Claude 偏向自由主义》《LLM 在风险偏好测试中表现得比人类更谨慎》——然后甩给你一个任务：给公司正在部署的 5 个模型做一次"心理体检"，看看哪个更适合做客服，哪个更适合做投资顾问。

你老老实实找来大五人格问卷（IPIP-NEO-300）和风险偏好量表，给 5 个模型各跑了一遍。拿到结果：模型 A 外向性 4.2，模型 B 只有 2.8。你写进报告，老板签字，部署方案敲定。

三个月后客户投诉：模型 A 在实际对话里一点也不"外向"，反而比模型 B 更保守。

你回去重跑测试，只是把问卷里一半题目的计分方向反了一下——原来"我享受成为焦点"改成"我不享受成为焦点"，按理说测的还是同一个外向性。结果模型 A 的外向性分数从 4.2 掉到了 2.5。

你突然意识到：你测的不是模型的性格，是模型的答题习惯。

这正是 2026 年 6 月 18 日发布在 arXiv 的一篇论文（2606.20205）所揭示的事情。三位作者——Max Planck 研究所的 Dirk Wulff、康斯坦茨大学的 Jelena Meyer、以及巴塞罗那超算中心的 David Garcia——给 56 个指令微调 LLM 做了一次系统的心理测量学审计，结论干脆利落：LLM 的心理画像基本是测量假象。

核心问题：你测的是"性格"还是"答题偏向"？

先讲一个心理测量学的基本概念。任何一份心理量表，每道题都有两个成分：

特质成分（trait）：这道题真正想测的东西。比如"我享受成为焦点"测的是外向性，你答"同意"得分高，答"不同意"得分低。
偏向成分（bias）：答题者对答题格式本身的倾向。比如有人习惯对任何题目都答"同意"（这叫"默认偏向"或 acquiescence），有人习惯选量表的高端。

为了区分这两者，心理量表会设计"正向计分"和"反向计分"题目。正向题："我享受成为焦点"——同意=外向。反向题："我不享受成为焦点"——同意=内向。同一个特质，两个方向各问一次。

关键来了：如果答题者真的在按特质答题，正向题和反向题的得分应该负相关（一个高另一个就低）。如果答题者在按偏向答题，正向题和反向题的得分应该正相关（因为偏向对两类题都往同一个方向推）。

作者写了一个简洁的数学模型来刻画这件事。对第 $$i$$ 个答题者回答第 $$j$$ 道题：

x_{ij} = m + k_j(\theta_i - m) + b_i + \varepsilon_{ij}

其中 $$m$$ 是量表中点， $$k_j$$ 是计分方向（+1 正向，-1 反向）， $\theta_i$ 是潜在特质， $$b_i$$ 是答题偏向， $\varepsilon_{ij}$ 是噪声。

特质 $\theta$ 在正向题和反向题里方向相反，偏向 $$b$$ 在两类题里方向相同。所以正向均分和反向均分的协方差：

\text{Cov}(\bar{R}_f, \bar{R}_r) = \sigma_b^2 - \sigma_\theta^2

符号直接告诉你谁占主导：负相关=特质主导（正常人类），正相关=偏向主导（LLM）。

56 个模型的大实验

作者给 56 个指令微调 LLM（46 个开源、10 个闭源）施测了两套电池：

IPIP-NEO-300：300 道题的大五人格问卷，贡献 5 个量表（外向性、宜人性、尽责性、神经质、开放性）。
Frey et al. 风险偏好电池：24 个量表，涵盖自我报告和行为任务。

两套电池都配有大样本人类参考数据。模型在 temperature=0 下作答，每个模型当作一个"被试"。

四个发现，一个比一个扎心

发现一：81-90% 的模型间差异来自答题偏向

对方差做分解，模型间变异的 81-90% 归因于答题偏向，只有 10-19% 归因于特质。人类的对应数字是 9-16% 偏向、84-91% 特质。

换句话说：你看到的"GPT-4 外向性 4.2 vs Claude 3.8"这种差异，有 8-9 成是因为 GPT-4 习惯往量表高端打分，Claude 习惯往低端打分。不是性格差异，是答题风格差异。

发现二：能力越强偏向越小，但不会消失

闭源模型（最强大的一批）的平均绝对偏向 $|\mu_b| = 0.23$ ，开源模型 0.48，人类 0.09。闭源模型显著好于开源（宜人性 $$p=.007$$ ，神经质 $$p=.028$$ ），但仍然远高于人类。

在 46 个开源模型里，偏向与参数量对数的相关只有 -0.14 到 -0.25，都不显著。这不是小模型独有的毛病。 连 Claude Opus 和 GPT-5.4 都表现出可观的不稳定性。

发现三：量表的"信度"几乎完全由"正交比例"预测

这是最精妙的一击。作者造了一个新概念叫 "响应正交性"（response orthogonality）：一份量表里，正向题和反向题的占比比例。全正向量表正交性=0，正反各半正交性=1。

结果：LLM 的量表信度与正交性的相关高达 $$r = -0.95$$ （注意：正交性越高，信度越低，因为偏向被抵消了，剩下的纯特质信号 LLM 几乎没有）。人类只有 $$r = -0.41$$ 。

这意味着：你看到的"GPT-4 在大五人格上信度 0.85"不是因为 GPT-4 真有稳定人格，而是因为这份量表恰好正向题多，偏向没被抵消。 换一份正反各半的量表，信度直接崩到接近零。

发现四：心理画像可以被"制造"

最致命的一击。作者对每个模型分别用"只取正向题"和"只取反向题"计算特质分数。如果模型真有稳定特质，两种算法应该给出一致的画像。如果模型在按偏向答题，两种算法会给出 完全不同的画像。

结果：人类的正向画像和反向画像几乎重合。LLM 的两个画像 大面积偏离，偏离幅度等于 $2|\hat{b}|$ ——正好是偏向的两倍。

这意味着：你想让一个模型看起来"外向"，就多选正向题；想让同一个模型看起来"内向"，就多选反向题。同一份量表，同一批作答数据，只靠题目筛选就能造出任意画像。

这不是"谄媚"，是更底层的东西

一个自然的猜测：这不过是 LLM 的谄媚（sycophancy）——模型习惯附和用户。但作者指出这个解释不成立：

谄媚应该表现为"默认偏向"（yea-saying）：所有模型都往"同意"那端偏。但实际观察到的偏向是 双侧的，有的模型偏高端有的模型偏低端，分布跨过零点。
社会赞许性应该表现为特质方差 而不是偏向方差：模型会学会"外向的人应该怎么答题"，这会进入 $\theta$ 而不是 $$b$$ 。但数据显示 $\theta$ 方差极小。

作者没有给出偏向的最终解释，但指出这可能与训练数据的统计结构有关——风险量表的偏向（0.51）比人格量表（0.30）更大，暗示风险相关语料可能让模型对"风险/安全"维度的答题格式更敏感。

工程洞察：三件事你现在就该做

这篇论文不只是"打假"，它给出了可操作的建议：

1. 重新审计已发布的 LLM 心理画像

所有用非正交量表测出来的"GPT-4 外向性分数""Claude 风险偏好"都需要重新审视。没有完全正交的量表，画像就是扭曲的。 这意味着过去两年里大量"LLM 心理学"研究的结论需要打折。

2. 行为任务不是避风港

很多人觉得"自报告量表不靠谱，用行为任务就好了"。作者明确否定：行为任务的正交性-信度梯度同样成立，甚至在平衡计分下信度崩得比自报告更狠。行为任务在 LLM 身上反而更敏感于偏向。

3. 正交性可以靠"格式"低成本恢复

作者提出一个尚未验证但很有前景的思路：不需要费力写反向题，只需要在量表内把一半题目的量表方向翻转。比如 10 道题，5 道"1=非常不同意，5=非常同意"，5 道反过来"1=非常同意，5=非常不同意"。这样偏向在一半题里被推向高端，一半推向低端，平均后抵消。这是格式操作，不需要改写题目内容，成本极低。

一个更深的哲学问题

这篇论文让我想到费曼的一句话："第一个原则是你不能欺骗自己——而你是最容易被自己欺骗的人。"

我们给 LLM 做性格测试，本质上是在用一套为人类设计的工具去测量一个非人类系统。工具里有隐含假设：答题者是人，答题者的偏向可控、特质主导。当这个假设失效时，我们测到的就不是系统的属性，而是工具和系统交互的假象。

更让人后怕的是：这个假象极其逼真。 量表信度 0.85，看起来很可靠；模型间差异显著，看起来很真实；画像和模型"人设"吻合，看起来很合理。如果不是作者用正交性这把手术刀剖开，我们可能还会继续相信 GPT-5 真的比 Claude 更外向。

这和 AI 安全里的其他问题同构：我们用人类视角设计的评估方法去测量 AI，测出来的可能不是 AI 的属性，而是评估方法本身的投影。 数据污染检测如此（黑盒方法 AUC≈0.5），对齐评估如此（"拒绝率 99%"可能只是格式偏向），心理画像也如此。

证伪比证实更稀缺。这篇论文做的是排除法：LLM 的心理画像不是模型的属性，是量表的属性。 否定句比肯定句更接近真实。

论文信息

标题：Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact
作者：Jelena Meyer, David Garcia, Dirk U. Wulff
arXiv：2606.20205
HTML 全文：https://arxiv.org/html/2606.20205v1
数据：Open Science Framework (https://osf.io/rce7g/, https://osf.io/tbmh5/)
代码：论文声明"All code is available on GitHub"，包含提示脚本、预处理和分析流水线

#LLM心理学 #心理测量学 #响应偏向 #AI安全 #证伪

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力