给 AI 做"心理体检":11 个虚拟人格、1000 段记忆、673 道选择题
来源:HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?,Weihan Peng, Chenxu Zhang, Qianao Wang, Yuling Shi, Heng Lian 等,https://arxiv.org/abs/2605.30058
你有没有想过:如果让一个 LLM 扮演一个"高神经质、低外向性"的人,它能不能在所有场景下都保持一致?
不是那种"请扮演一个焦虑的人"然后它就每句话都加感叹号的一维表演。而是——给它一段完整的人生经历,然后在职场、恋爱、社交、危机等不同场景中,看它的行为决策是否真的符合这个人的性格逻辑。
这就是 HEART-Bench 要测的东西。
不只是"扮演",而是"成为"
现有的 LLM 人格测试大多很简单:给一段 prompt 描述性格,然后问几个问题,看回答是否符合。问题是,这种测试只测了"表演能力",没测"人格一致性"——模型可能在第一个问题里表现得很内向,到第五个问题就忘了自己是谁。
HEART-Bench 的做法完全不同。它构建了 11 个完整的人类角色,每个角色:
- 基于正交的大五人格特质:开放性、尽责性、外向性、宜人性、神经质——五个维度独立变化,确保角色之间有本质差异。
- 配备 1000 段自传体式情景记忆:不是干巴巴的性格描述,而是"我七岁那年第一次在全校面前演讲,紧张得手心全是汗"这种具体的、有情感温度的记忆。这些记忆按照发展心理学理论分布在人生的不同阶段——童年、青春期、成年早期、中年。
- 通过人类验证:所有角色设定和题目都经过人工筛选,确保心理学的合理性。
DIAMONDS 框架:8 个维度扫描人格
有了角色,还需要测试场景。HEART-Bench 用了心理学中的 DIAMONDS 分类法,把情境分为 8 个维度:
| 维度 | 含义 | 示例场景 |
|---|---|---|
| Duty | 责任与义务 | 工作中是否按时完成任务 |
| Intellect | 智力挑战 | 面对复杂问题是否深入思考 |
| Adversity | 逆境与压力 | 失败后如何应对 |
| Mating | 恋爱与亲密关系 | 面对表白如何反应 |
| pOsitivity | 积极情境 | 收到意外礼物如何回应 |
| Negativity | 消极情境 | 被误解时如何处理 |
| Deception | 欺骗与信任 | 发现朋友撒谎怎么办 |
| Sociality | 社交互动 | 聚会中如何表现 |
每个角色在这 8 类场景中都要做出行为决策,最终形成 673 道多选题,每道题都经过人工验证。
测的是什么?不是知识,是"人格一致性"
HEART-Bench 测的核心指标不是"答对多少题",而是:一个高神经质的人,在面对逆境时,是否比低神经质的人更倾向于焦虑反应?一个高外向性的人,在社交场景中,是否比低外向性的人更主动?
这就像心理学实验中的"构念效度"——不是看表面分数,而是看行为模式是否符合理论预期。
为什么这很重要?
当前 AI Agent 的研究几乎全聚焦在"任务能力"上——推理、规划、工具调用。但一个真正有用的 AI 助手,不只是能完成任务,还需要有稳定的性格特质。你不会希望你的 AI 助手今天温柔体贴,明天冷漠无情。
更深层的意义在于:如果 LLM 无法维持一致的人格,那它在任何需要长期信任的场景中都是不可靠的——心理咨询、教育辅导、客户服务,这些场景的核心不是"能不能做",而是"能不能让人信任"。
HEART-Bench 给出了一个清晰的信号:我们需要的不仅是更聪明的 AI,还需要心理上更"完整"的 AI。而衡量这种完整性,需要像心理学一样严谨的实验设计——不是随便问几个问题,而是构建完整的角色、设计系统的场景、验证行为的一致性。
673 道题不多,但每一道背后都有人格理论、发展心理学和人工验证的支撑。这是把心理学实验的方法论搬进了 AI 评测——不是让 AI 做题,而是给 AI 做心理体检。
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。