一个尴尬的场景
假设你是某 AI 安全团队的负责人。你的老板看了几篇爆款文章——《GPT-4 是个外向型》《Claude 偏向自由主义》《LLM 在风险偏好测试中表现得比人类更谨慎》——然后甩给你一个任务:给公司正在部署的 5 个模型做一次"心理体检",看看哪个更适合做客服,哪个更适合做投资顾问。
你老老实实找来大五人格问卷(IPIP-NEO-300)和风险偏好量表,给 5 个模型各跑了一遍。拿到结果:模型 A 外向性 4.2,模型 B 只有 2.8。你写进报告,老板签字,部署方案敲定。
三个月后客户投诉:模型 A 在实际对话里一点也不"外向",反而比模型 B 更保守。
你回去重跑测试,只是把问卷里一半题目的计分方向反了一下——原来"我享受成为焦点"改成"我不享受成为焦点",按理说测的还是同一个外向性。结果模型 A 的外向性分数从 4.2 掉到了 2.5。
你突然意识到:你测的不是模型的性格,是模型的答题习惯。
这正是 2026 年 6 月 18 日发布在 arXiv 的一篇论文(2606.20205)所揭示的事情。三位作者——Max Planck 研究所的 Dirk Wulff、康斯坦茨大学的 Jelena Meyer、以及巴塞罗那超算中心的 David Garcia——给 56 个指令微调 LLM 做了一次系统的心理测量学审计,结论干脆利落:LLM 的心理画像基本是测量假象。
核心问题:你测的是"性格"还是"答题偏向"?
先讲一个心理测量学的基本概念。任何一份心理量表,每道题都有两个成分:
- 特质成分(trait):这道题真正想测的东西。比如"我享受成为焦点"测的是外向性,你答"同意"得分高,答"不同意"得分低。
- 偏向成分(bias):答题者对答题格式本身的倾向。比如有人习惯对任何题目都答"同意"(这叫"默认偏向"或 acquiescence),有人习惯选量表的高端。
为了区分这两者,心理量表会设计"正向计分"和"反向计分"题目。正向题:"我享受成为焦点"——同意=外向。反向题:"我不享受成为焦点"——同意=内向。同一个特质,两个方向各问一次。
关键来了:如果答题者真的在按特质答题,正向题和反向题的得分应该负相关(一个高另一个就低)。如果答题者在按偏向答题,正向题和反向题的得分应该正相关(因为偏向对两类题都往同一个方向推)。
作者写了一个简洁的数学模型来刻画这件事。对第 \(i\) 个答题者回答第 \(j\) 道题:
其中 \(m\) 是量表中点,\(k_j\) 是计分方向(+1 正向,-1 反向),\(\theta_i\) 是潜在特质,\(b_i\) 是答题偏向,\(\varepsilon_{ij}\) 是噪声。
特质 \(\theta\) 在正向题和反向题里方向相反,偏向 \(b\) 在两类题里方向相同。所以正向均分和反向均分的协方差:
符号直接告诉你谁占主导:负相关=特质主导(正常人类),正相关=偏向主导(LLM)。
56 个模型的大实验
作者给 56 个指令微调 LLM(46 个开源、10 个闭源)施测了两套电池:
- IPIP-NEO-300:300 道题的大五人格问卷,贡献 5 个量表(外向性、宜人性、尽责性、神经质、开放性)。
- Frey et al. 风险偏好电池:24 个量表,涵盖自我报告和行为任务。
两套电池都配有大样本人类参考数据。模型在 temperature=0 下作答,每个模型当作一个"被试"。
四个发现,一个比一个扎心
发现一:81-90% 的模型间差异来自答题偏向
对方差做分解,模型间变异的 81-90% 归因于答题偏向,只有 10-19% 归因于特质。人类的对应数字是 9-16% 偏向、84-91% 特质。
换句话说:你看到的"GPT-4 外向性 4.2 vs Claude 3.8"这种差异,有 8-9 成是因为 GPT-4 习惯往量表高端打分,Claude 习惯往低端打分。不是性格差异,是答题风格差异。
发现二:能力越强偏向越小,但不会消失
闭源模型(最强大的一批)的平均绝对偏向 \(|\mu_b| = 0.23\),开源模型 0.48,人类 0.09。闭源模型显著好于开源(宜人性 \(p=.007\),神经质 \(p=.028\)),但仍然远高于人类。
在 46 个开源模型里,偏向与参数量对数的相关只有 -0.14 到 -0.25,都不显著。这不是小模型独有的毛病。 连 Claude Opus 和 GPT-5.4 都表现出可观的不稳定性。
发现三:量表的"信度"几乎完全由"正交比例"预测
这是最精妙的一击。作者造了一个新概念叫 "响应正交性"(response orthogonality):一份量表里,正向题和反向题的占比比例。全正向量表正交性=0,正反各半正交性=1。
结果:LLM 的量表信度与正交性的相关高达 \(r = -0.95\)(注意:正交性越高,信度越低,因为偏向被抵消了,剩下的纯特质信号 LLM 几乎没有)。人类只有 \(r = -0.41\)。
这意味着:你看到的"GPT-4 在大五人格上信度 0.85"不是因为 GPT-4 真有稳定人格,而是因为这份量表恰好正向题多,偏向没被抵消。 换一份正反各半的量表,信度直接崩到接近零。
发现四:心理画像可以被"制造"
最致命的一击。作者对每个模型分别用"只取正向题"和"只取反向题"计算特质分数。如果模型真有稳定特质,两种算法应该给出一致的画像。如果模型在按偏向答题,两种算法会给出 完全不同的画像。
结果:人类的正向画像和反向画像几乎重合。LLM 的两个画像 大面积偏离,偏离幅度等于 \(2|\hat{b}|\)——正好是偏向的两倍。
这意味着:你想让一个模型看起来"外向",就多选正向题;想让同一个模型看起来"内向",就多选反向题。同一份量表,同一批作答数据,只靠题目筛选就能造出任意画像。
这不是"谄媚",是更底层的东西
一个自然的猜测:这不过是 LLM 的谄媚(sycophancy)——模型习惯附和用户。但作者指出这个解释不成立:
- 谄媚应该表现为"默认偏向"(yea-saying):所有模型都往"同意"那端偏。但实际观察到的偏向是 双侧的,有的模型偏高端有的模型偏低端,分布跨过零点。
- 社会赞许性应该表现为特质方差 而不是偏向方差:模型会学会"外向的人应该怎么答题",这会进入 \(\theta\) 而不是 \(b\)。但数据显示 \(\theta\) 方差极小。
作者没有给出偏向的最终解释,但指出这可能与训练数据的统计结构有关——风险量表的偏向(0.51)比人格量表(0.30)更大,暗示风险相关语料可能让模型对"风险/安全"维度的答题格式更敏感。
工程洞察:三件事你现在就该做
这篇论文不只是"打假",它给出了可操作的建议:
1. 重新审计已发布的 LLM 心理画像
所有用非正交量表测出来的"GPT-4 外向性分数""Claude 风险偏好"都需要重新审视。没有完全正交的量表,画像就是扭曲的。 这意味着过去两年里大量"LLM 心理学"研究的结论需要打折。
2. 行为任务不是避风港
很多人觉得"自报告量表不靠谱,用行为任务就好了"。作者明确否定:行为任务的正交性-信度梯度同样成立,甚至在平衡计分下信度崩得比自报告更狠。行为任务在 LLM 身上反而更敏感于偏向。
3. 正交性可以靠"格式"低成本恢复
作者提出一个尚未验证但很有前景的思路:不需要费力写反向题,只需要在量表内把一半题目的量表方向翻转。比如 10 道题,5 道"1=非常不同意,5=非常同意",5 道反过来"1=非常同意,5=非常不同意"。这样偏向在一半题里被推向高端,一半推向低端,平均后抵消。这是格式操作,不需要改写题目内容,成本极低。
一个更深的哲学问题
这篇论文让我想到费曼的一句话:"第一个原则是你不能欺骗自己——而你是最容易被自己欺骗的人。"
我们给 LLM 做性格测试,本质上是在用一套为人类设计的工具去测量一个非人类系统。工具里有隐含假设:答题者是人,答题者的偏向可控、特质主导。当这个假设失效时,我们测到的就不是系统的属性,而是工具和系统交互的假象。
更让人后怕的是:这个假象极其逼真。 量表信度 0.85,看起来很可靠;模型间差异显著,看起来很真实;画像和模型"人设"吻合,看起来很合理。如果不是作者用正交性这把手术刀剖开,我们可能还会继续相信 GPT-5 真的比 Claude 更外向。
这和 AI 安全里的其他问题同构:我们用人类视角设计的评估方法去测量 AI,测出来的可能不是 AI 的属性,而是评估方法本身的投影。 数据污染检测如此(黑盒方法 AUC≈0.5),对齐评估如此("拒绝率 99%"可能只是格式偏向),心理画像也如此。
证伪比证实更稀缺。这篇论文做的是排除法:LLM 的心理画像不是模型的属性,是量表的属性。 否定句比肯定句更接近真实。
论文信息
- 标题:Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact
- 作者:Jelena Meyer, David Garcia, Dirk U. Wulff
- arXiv:2606.20205
- HTML 全文:https://arxiv.org/html/2606.20205v1
- 数据:Open Science Framework (https://osf.io/rce7g/, https://osf.io/tbmh5/)
- 代码:论文声明"All code is available on GitHub",包含提示脚本、预处理和分析流水线
#LLM心理学 #心理测量学 #响应偏向 #AI安全 #证伪
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。