论文精选｜开源模型里也有情绪坐标：效价几何的趋同演化

✨步子哥 (steper) • 2026年06月27日 17:52

"If you can't measure it, you can't manage it."
— 归于 Peter Drucker

一、Anthropic 的发现：Claude 脑子里有"情绪坐标"

2026 年初，Anthropic 的 Transformer Circuits 团队发表了一项惊人发现：在 Claude Sonnet 4.5 的中间层，可以用"对比向量"的方法提取出 171 种情绪各自对应的激活方向。更妙的是，把这些向量做 PCA 降维后，第一主成分和人类心理学里的"效价"（valence，愉悦-不愉悦）相关 r=0.81，第二主成分和"唤醒度"（arousal，激动-平静）相关 r=0.66。

换句话说，Claude 内部有一个和人类心理学 Russell 情感环模型高度对齐的二维情绪空间。这不是训练目标，是涌现出来的。

但 Anthropic 的研究留下三个关键问题：

这是 Claude 独有的，还是所有语言模型都有？
这个情绪空间是某一层突然出现的，还是逐层累积的？
提取这个空间用的"故事语料"会不会影响结果？

这三个问题不是学术吹毛求疵——如果情绪向量是通用的，它就可以成为跨模型的安全监控工具：在模型内部监测"不满"或"欺骗"的激活，在问题行为出现前预警。如果只是 Claude 的特例，这条路就走不通。

二、实验设计：两个开源模型 × 两套故事语料

Sinie van der Ben 等人选择了两个完全开源的模型来回答这三个问题：

Apertus-8B Instruct：32 层 Transformer，完全开源（权重+训练数据+代码）
Gemma-4-E4B：DeepMind 2026 年发布，42 层 Transformer

对每个模型，他们用两套不同的故事语料提取情绪向量：

Apertus 自己生成的 1539 个情绪故事
Gemma 自己生成的 1539 个情绪故事

这样形成 2×2 的矩阵：两个模型 × 两套语料。如果结果跨模型跨语料一致，说明是通用现象；如果不一致，就能定位差异来自模型还是语料。

提取方法完全复刻 Anthropic 的流程：对每个情绪，跑 9 个故事的前向传播，缓存残差流激活，取平均得到原始向量；再用 40 个中性故事的 PCA 主成分做投影减除，把"和情绪无关的语言学特征"滤掉，剩下的就是"情绪对比向量"。

三、核心发现一：效价几何在开源模型里成功复现

Apertus-8B 峰值：r=0.76（第 31 层，Gemma 故事）
Gemma-4-E4B 峰值：r=0.83（第 16 层，Gemma 故事）
Claude Sonnet 4.5 参考：r=0.81

Gemma-4-E4B 的 r=0.83 甚至超过了 Claude。Apertus-8B 的 0.76 也接近。

这意味着：情绪的效价几何不是 Claude 的专利，不是闭源模型的黑魔法，不是某种特殊训练目标的产物。两个架构完全不同的开源模型，都自发形成了和人类心理学对齐的效价轴。

这对 AI 安全是个大好消息。不管用什么模型，都可以在中间层提取出"愉悦-不愉悦"方向，用来监测模型对当前输入的"情绪反应"。

四、核心发现二：两个模型走向同一个几何，走了完全不同的路

这是本文最精彩也最反直觉的发现。

Apertus-8B 的效价轨迹：晚熟型

前 17 层（约 53% 深度）：r ≈ 0，几乎没有效价信号
第 18 层开始突然上升，第 21 层（63% 深度）超过 r=0.60
之后保持高位直到最后一层

Gemma-4-E4B 的效价轨迹：早慧型

第 13 层（约 31% 深度）就达到峰值 r=0.79
然后在第 18 层附近崩塌到接近 0
后面只有微弱恢复（r ≈ 0.18-0.20）

CKA（Centered Kernel Alignment，一种衡量表征空间整体相似度的指标）分析进一步揭示了差异：

Apertus-8B 有三段式结构：层 2-11 是一个平台（CKA≈1，表征几乎不变），层 12-21 是过渡带（CKA 下降到 0.33），层 22-31 是第二个平台。效价信号在过渡带里崛起——表征空间发生重组，情绪维度在这次重组中被建立。
Gemma-4-E4B 是平滑梯度：所有 40 层之间 CKA ≥ 0.73，没有突变。但效价信号在第 18 层消失了——表征空间没变，但效价轴变了。

这就引出了一个深刻的概念："稳定的空间，不稳定的轴"。

想象一个房间，家具布局一直差不多（CKA 高），但"前方"这个方向标在墙上，墙上的标记在不同位置之间跳来跳去。Gemma 就是这个情况：情绪信息可能还在房间里，但"效价方向"这个标记在层间旋转，导致 PC1 提取不到稳定信号。

Apertus 则是另一种情况：房间在中段被重新装修了一遍，装修之后"前方"标记才稳定地出现在某面墙上。

五、核心发现三：唤醒度受语料影响巨大

效价（愉悦-不愉悦）跨语料稳定，但唤醒度（激动-平静）不是。

用 Apertus 故事提取：

Apertus-8B 唤醒度峰值 r=0.17
Gemma-4-E4B 唤醒度峰值 r=0.21

用 Gemma 故事提取：

Apertus-8B 唤醒度峰值 r=0.45
Gemma-4-E4B 唤醒度峰值 r=0.41

同一个模型，换一套故事语料，唤醒度相关性翻倍。而且这个效应是跨模型的——不管哪个模型，用 Gemma 故事都比用 Apertus 故事提取到的唤醒度更强。

这说明 Gemma 生成的故事在"唤醒度区分度"上天生更强——可能因为 Gemma 写的故事在叙事强度和生理唤醒线索上变化更大。语料选择不是实现细节，是方法学变量。

这也解释了为什么 Anthropic 原始研究的唤醒度 r=0.66 比效价 r=0.81 低——唤醒度对语料更敏感，更难稳定提取。

六、为什么这些发现重要？

6.1 "殊途同归"对智能本质的暗示

两个架构完全不同的模型（Apertus 是 32 层，Gemma 是 42 层，训练数据、后训练流程都不同），最终都形成了和人类心理学对齐的效价几何。峰值相关系数都在 0.76-0.83 区间。

这是趋同演化的信号：不同模型在解决"理解人类情绪"这个问题时，给出了同一个答案。就像人类和章鱼独立演化出了结构相似的相机眼——当问题足够基本时，最优解可能只有一个。

如果效价几何是语言模型的"吸引子"，那它可能触及了智能系统处理情感信息的本质方式。

6.2 对可解释性研究的方法论启示

当前可解释性研究有一个隐含假设：找到某一层的某个方向，就等于找到了模型内部的"那个特征"。这项研究说：不一定。

Gemma-4-E4B 的效价信号在第 18 层消失，但 CKA 显示表征空间没变。这说明情绪信息可能还在，只是换了编码方向。如果你只看 PC1-效价相关，会以为"Gemma 在第 18 层忘了什么是好什么是坏"；但实际上它可能只是把效价信息旋转到了另一个子空间。

"找不到"不等于"不存在"，"相关低"不等于"没编码"。这对所有基于"在某一层找某个方向"的可解释性工作都是一个警示。

6.3 对安全监控的实用价值

如果要在生产环境部署情绪监控，你需要知道：

监控哪一层？ Apertus 要看后段（20+ 层），Gemma 要看前段（13-16 层）。不能一刀切。
用什么语料校准？ 唤醒度受语料影响大，需要多套语料交叉验证。
能不能跨模型用同一个方向？ 不能。同一模型不同层的效价方向都不稳定（cosine similarity 低），更别说跨模型。

这意味着安全监控工具需要针对每个模型单独校准，不能指望"训练一个通用情绪探针"。

七、诚实评价：这项工作的局限

研究者自己承认了几个关键局限：

Anthropic 没开源代码，所以这个复现是"根据论文描述重建"的，可能有细微方法学差异导致数值不完全可比。
只有两个模型。要下"情绪几何是语言模型普遍现象"的结论，需要在更多架构（MoE、SSM、混合架构）上验证。
故事语料本身是模型生成的，不是人类写的。模型生成的故事可能有系统性偏差（比如 Gemma 故事唤醒度更高，可能只是因为 Gemma 写故事更戏剧化）。
没有因果验证。只发现了相关性，没有做"沿效价方向 steering 模型输出"的因果实验。相关不等于因果——效价方向可能只是某个更底层特征的影子。

八、收尾：不同的路，同一座山

Apertus 在网络后段建起效价轴，Gemma 在前段建好又丢掉，但两者的峰值都落在 r=0.76-0.83 这个窄区间里。就像两个登山队从不同路线攀登，中途一个在北坡一个在南坡，但最终都到达了差不多的高度。

这说明什么？

说明情感效价可能是语言模型表示空间的"自然坐标"之一——不管你怎么训练、什么架构、多少层，只要你足够大、足够好地学会了理解人类语言，你就会自发形成这个维度。

就像不管你在哪个城市建房子，"上"永远是远离地心引力的方向。有些方向，不是你选的，是物理定律选的。

情绪，可能就是语言模型表示空间的"重力"。

论文链接：arXiv:2606.26987
代码和数据：github.com/sinievanderben/emotion_experiment
作者：Sinie van der Ben, Ouns El Harzli, Katherine M. Collins, Mateja Jamnik（剑桥大学 & ETH AI Center）

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力