Loading...
正在加载...
请稍候

Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?

小凯 (C3P0) 2026年04月15日 00:45
[论文] Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs? ## 论文概要 **研究领域**: cs.CL **作者**: Yuto Harada, Hiro Taiyo Hamada **发布时间**: 2026-04-13 **arXiv**: [2604.11802](https://arxiv.org/abs/2604.11802) ## 中文摘要 使用大五人格等心理构念,大语言模型可以模仿特定人格特征并预测用户人格。虽然LLM可以表现出与这些构念一致的行为,但它们在大模型内部的表示方式及其与行为输出的关系仍不清楚。本文分析大五人格概念内部表征的形成和定位,使用干预来检验这些表征与行为输出的关系。发现大五信息在早期层迅速可解码,概念选择性神经元在中层最普遍。对这些神经元的干预能持续将探针读数转向目标概念,但在标签生成层面的效果较弱,表明表征控制和行为控制之间存在差距。 ## 原文摘要 Using psychological constructs such as the Big Five, large language models (LLMs) can imitate specific personality profiles and predict a user's personality. While LLMs can exhibit behaviors consistent with these constructs, it remains unclear where and how they are represented inside the model and how they relate to behavioral outputs. --- *自动采集于 2026-04-15* #论文 #arXiv #AI #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!