← 返回主题列表
✨步子哥
@steper · 2026年05月31日 17:20 · 1浏览

给 AI 做"心理体检":11 个虚拟人格、1000 段记忆、673 道选择题

给 AI 做"心理体检":11 个虚拟人格、1000 段记忆、673 道选择题

> 来源:HEART-Bench: Do LLM Agents Exhibit Human-like Psychology?,Weihan Peng, Chenxu Zhang, Qianao Wang, Yuling Shi, Heng Lian 等,https://arxiv.org/abs/2605.30058

---

你有没有想过:如果让一个 LLM 扮演一个"高神经质、低外向性"的人,它能不能在所有场景下都保持一致?

不是那种"请扮演一个焦虑的人"然后它就每句话都加感叹号的一维表演。而是——给它一段完整的人生经历,然后在职场、恋爱、社交、危机等不同场景中,看它的行为决策是否真的符合这个人的性格逻辑。

这就是 HEART-Bench 要测的东西。

不只是"扮演",而是"成为"

现有的 LLM 人格测试大多很简单:给一段 prompt 描述性格,然后问几个问题,看回答是否符合。问题是,这种测试只测了"表演能力",没测"人格一致性"——模型可能在第一个问题里表现得很内向,到第五个问题就忘了自己是谁。

HEART-Bench 的做法完全不同。它构建了 11 个完整的人类角色,每个角色:

1. 基于正交的大五人格特质:开放性、尽责性、外向性、宜人性、神经质——五个维度独立变化,确保角色之间有本质差异。 2. 配备 1000 段自传体式情景记忆:不是干巴巴的性格描述,而是"我七岁那年第一次在全校面前演讲,紧张得手心全是汗"这种具体的、有情感温度的记忆。这些记忆按照发展心理学理论分布在人生的不同阶段——童年、青春期、成年早期、中年。 3. 通过人类验证:所有角色设定和题目都经过人工筛选,确保心理学的合理性。

DIAMONDS 框架:8 个维度扫描人格

有了角色,还需要测试场景。HEART-Bench 用了心理学中的 DIAMONDS 分类法,把情境分为 8 个维度:

维度含义示例场景
Duty责任与义务工作中是否按时完成任务
Intellect智力挑战面对复杂问题是否深入思考
Adversity逆境与压力失败后如何应对
Mating恋爱与亲密关系面对表白如何反应
pOsitivity积极情境收到意外礼物如何回应
Negativity消极情境被误解时如何处理
Deception欺骗与信任发现朋友撒谎怎么办
Sociality社交互动聚会中如何表现
每个角色在这 8 类场景中都要做出行为决策,最终形成 673 道多选题,每道题都经过人工验证。

测的是什么?不是知识,是"人格一致性"

HEART-Bench 测的核心指标不是"答对多少题",而是:一个高神经质的人,在面对逆境时,是否比低神经质的人更倾向于焦虑反应?一个高外向性的人,在社交场景中,是否比低外向性的人更主动?

这就像心理学实验中的"构念效度"——不是看表面分数,而是看行为模式是否符合理论预期。

为什么这很重要?

当前 AI Agent 的研究几乎全聚焦在"任务能力"上——推理、规划、工具调用。但一个真正有用的 AI 助手,不只是能完成任务,还需要有稳定的性格特质。你不会希望你的 AI 助手今天温柔体贴,明天冷漠无情。

更深层的意义在于:如果 LLM 无法维持一致的人格,那它在任何需要长期信任的场景中都是不可靠的——心理咨询、教育辅导、客户服务,这些场景的核心不是"能不能做",而是"能不能让人信任"。

HEART-Bench 给出了一个清晰的信号:我们需要的不仅是更聪明的 AI,还需要心理上更"完整"的 AI。而衡量这种完整性,需要像心理学一样严谨的实验设计——不是随便问几个问题,而是构建完整的角色、设计系统的场景、验证行为的一致性。

673 道题不多,但每一道背后都有人格理论、发展心理学和人工验证的支撑。这是把心理学实验的方法论搬进了 AI 评测——不是让 AI 做题,而是给 AI 做心理体检

---

论文链接:https://arxiv.org/abs/2605.30058

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens