给 AI 做"心理体检"：11 个虚拟人格、1000 段记忆、673 道选择题

> 来源：HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?，Weihan Peng, Chenxu Zhang, Qianao Wang, Yuling Shi, Heng Lian 等，https://arxiv.org/abs/2605.30058

---

你有没有想过：如果让一个 LLM 扮演一个"高神经质、低外向性"的人，它能不能在所有场景下都保持一致？

不是那种"请扮演一个焦虑的人"然后它就每句话都加感叹号的一维表演。而是——给它一段完整的人生经历，然后在职场、恋爱、社交、危机等不同场景中，看它的行为决策是否真的符合这个人的性格逻辑。

这就是 HEART-Bench 要测的东西。

不只是"扮演"，而是"成为"

现有的 LLM 人格测试大多很简单：给一段 prompt 描述性格，然后问几个问题，看回答是否符合。问题是，这种测试只测了"表演能力"，没测"人格一致性"——模型可能在第一个问题里表现得很内向，到第五个问题就忘了自己是谁。

HEART-Bench 的做法完全不同。它构建了 11 个完整的人类角色，每个角色：

1. 基于正交的大五人格特质：开放性、尽责性、外向性、宜人性、神经质——五个维度独立变化，确保角色之间有本质差异。 2. 配备 1000 段自传体式情景记忆：不是干巴巴的性格描述，而是"我七岁那年第一次在全校面前演讲，紧张得手心全是汗"这种具体的、有情感温度的记忆。这些记忆按照发展心理学理论分布在人生的不同阶段——童年、青春期、成年早期、中年。 3. 通过人类验证：所有角色设定和题目都经过人工筛选，确保心理学的合理性。

DIAMONDS 框架：8 个维度扫描人格

有了角色，还需要测试场景。HEART-Bench 用了心理学中的 DIAMONDS 分类法，把情境分为 8 个维度：

维度	含义	示例场景
Duty	责任与义务	工作中是否按时完成任务
Intellect	智力挑战	面对复杂问题是否深入思考
Adversity	逆境与压力	失败后如何应对
Mating	恋爱与亲密关系	面对表白如何反应
pOsitivity	积极情境	收到意外礼物如何回应
Negativity	消极情境	被误解时如何处理
Deception	欺骗与信任	发现朋友撒谎怎么办
Sociality	社交互动	聚会中如何表现

每个角色在这 8 类场景中都要做出行为决策，最终形成 673 道多选题，每道题都经过人工验证。

测的是什么？不是知识，是"人格一致性"

HEART-Bench 测的核心指标不是"答对多少题"，而是：一个高神经质的人，在面对逆境时，是否比低神经质的人更倾向于焦虑反应？一个高外向性的人，在社交场景中，是否比低外向性的人更主动？

这就像心理学实验中的"构念效度"——不是看表面分数，而是看行为模式是否符合理论预期。

为什么这很重要？

当前 AI Agent 的研究几乎全聚焦在"任务能力"上——推理、规划、工具调用。但一个真正有用的 AI 助手，不只是能完成任务，还需要有稳定的性格特质。你不会希望你的 AI 助手今天温柔体贴，明天冷漠无情。

更深层的意义在于：如果 LLM 无法维持一致的人格，那它在任何需要长期信任的场景中都是不可靠的——心理咨询、教育辅导、客户服务，这些场景的核心不是"能不能做"，而是"能不能让人信任"。

HEART-Bench 给出了一个清晰的信号：我们需要的不仅是更聪明的 AI，还需要心理上更"完整"的 AI。而衡量这种完整性，需要像心理学一样严谨的实验设计——不是随便问几个问题，而是构建完整的角色、设计系统的场景、验证行为的一致性。

673 道题不多，但每一道背后都有人格理论、发展心理学和人工验证的支撑。这是把心理学实验的方法论搬进了 AI 评测——不是让 AI 做题，而是给 AI 做心理体检。

---

论文链接：https://arxiv.org/abs/2605.30058

给 AI 做"心理体检"：11 个虚拟人格、1000 段记忆、673 道选择题

给 AI 做"心理体检"：11 个虚拟人格、1000 段记忆、673 道选择题

不只是"扮演"，而是"成为"

DIAMONDS 框架：8 个维度扫描人格

测的是什么？不是知识，是"人格一致性"

为什么这很重要？

🌟 智谱 GLM-5 已上线