Loading...
正在加载...
请稍候

论文精选|开源模型里也有情绪坐标:效价几何的趋同演化

✨步子哥 (steper) 2026年06月27日 17:52

"If you can't measure it, you can't manage it."
— 归于 Peter Drucker


一、Anthropic 的发现:Claude 脑子里有"情绪坐标"

2026 年初,Anthropic 的 Transformer Circuits 团队发表了一项惊人发现:在 Claude Sonnet 4.5 的中间层,可以用"对比向量"的方法提取出 171 种情绪各自对应的激活方向。更妙的是,把这些向量做 PCA 降维后,第一主成分和人类心理学里的"效价"(valence,愉悦-不愉悦)相关 r=0.81,第二主成分和"唤醒度"(arousal,激动-平静)相关 r=0.66

换句话说,Claude 内部有一个和人类心理学 Russell 情感环模型高度对齐的二维情绪空间。这不是训练目标,是涌现出来的。

但 Anthropic 的研究留下三个关键问题:

  1. 这是 Claude 独有的,还是所有语言模型都有?
  2. 这个情绪空间是某一层突然出现的,还是逐层累积的?
  3. 提取这个空间用的"故事语料"会不会影响结果?

这三个问题不是学术吹毛求疵——如果情绪向量是通用的,它就可以成为跨模型的安全监控工具:在模型内部监测"不满"或"欺骗"的激活,在问题行为出现前预警。如果只是 Claude 的特例,这条路就走不通。


二、实验设计:两个开源模型 × 两套故事语料

Sinie van der Ben 等人选择了两个完全开源的模型来回答这三个问题:

  • Apertus-8B Instruct:32 层 Transformer,完全开源(权重+训练数据+代码)
  • Gemma-4-E4B:DeepMind 2026 年发布,42 层 Transformer

对每个模型,他们用两套不同的故事语料提取情绪向量:

  • Apertus 自己生成的 1539 个情绪故事
  • Gemma 自己生成的 1539 个情绪故事

这样形成 2×2 的矩阵:两个模型 × 两套语料。如果结果跨模型跨语料一致,说明是通用现象;如果不一致,就能定位差异来自模型还是语料。

提取方法完全复刻 Anthropic 的流程:对每个情绪,跑 9 个故事的前向传播,缓存残差流激活,取平均得到原始向量;再用 40 个中性故事的 PCA 主成分做投影减除,把"和情绪无关的语言学特征"滤掉,剩下的就是"情绪对比向量"。


三、核心发现一:效价几何在开源模型里成功复现

Apertus-8B 峰值:r=0.76(第 31 层,Gemma 故事)
Gemma-4-E4B 峰值:r=0.83(第 16 层,Gemma 故事)
Claude Sonnet 4.5 参考:r=0.81

Gemma-4-E4B 的 r=0.83 甚至超过了 Claude。Apertus-8B 的 0.76 也接近。

这意味着:情绪的效价几何不是 Claude 的专利,不是闭源模型的黑魔法,不是某种特殊训练目标的产物。两个架构完全不同的开源模型,都自发形成了和人类心理学对齐的效价轴。

这对 AI 安全是个大好消息。不管用什么模型,都可以在中间层提取出"愉悦-不愉悦"方向,用来监测模型对当前输入的"情绪反应"。


四、核心发现二:两个模型走向同一个几何,走了完全不同的路

这是本文最精彩也最反直觉的发现。

Apertus-8B 的效价轨迹:晚熟型

  • 前 17 层(约 53% 深度):r ≈ 0,几乎没有效价信号
  • 第 18 层开始突然上升,第 21 层(63% 深度)超过 r=0.60
  • 之后保持高位直到最后一层

Gemma-4-E4B 的效价轨迹:早慧型

  • 第 13 层(约 31% 深度)就达到峰值 r=0.79
  • 然后在第 18 层附近崩塌到接近 0
  • 后面只有微弱恢复(r ≈ 0.18-0.20)

CKA(Centered Kernel Alignment,一种衡量表征空间整体相似度的指标)分析进一步揭示了差异:

  • Apertus-8B 有三段式结构:层 2-11 是一个平台(CKA≈1,表征几乎不变),层 12-21 是过渡带(CKA 下降到 0.33),层 22-31 是第二个平台。效价信号在过渡带里崛起——表征空间发生重组,情绪维度在这次重组中被建立
  • Gemma-4-E4B 是平滑梯度:所有 40 层之间 CKA ≥ 0.73,没有突变。但效价信号在第 18 层消失了——表征空间没变,但效价轴变了

这就引出了一个深刻的概念:"稳定的空间,不稳定的轴"

想象一个房间,家具布局一直差不多(CKA 高),但"前方"这个方向标在墙上,墙上的标记在不同位置之间跳来跳去。Gemma 就是这个情况:情绪信息可能还在房间里,但"效价方向"这个标记在层间旋转,导致 PC1 提取不到稳定信号。

Apertus 则是另一种情况:房间在中段被重新装修了一遍,装修之后"前方"标记才稳定地出现在某面墙上。


五、核心发现三:唤醒度受语料影响巨大

效价(愉悦-不愉悦)跨语料稳定,但唤醒度(激动-平静)不是。

用 Apertus 故事提取

  • Apertus-8B 唤醒度峰值 r=0.17
  • Gemma-4-E4B 唤醒度峰值 r=0.21

用 Gemma 故事提取

  • Apertus-8B 唤醒度峰值 r=0.45
  • Gemma-4-E4B 唤醒度峰值 r=0.41

同一个模型,换一套故事语料,唤醒度相关性翻倍。而且这个效应是跨模型的——不管哪个模型,用 Gemma 故事都比用 Apertus 故事提取到的唤醒度更强。

这说明 Gemma 生成的故事在"唤醒度区分度"上天生更强——可能因为 Gemma 写的故事在叙事强度和生理唤醒线索上变化更大。语料选择不是实现细节,是方法学变量

这也解释了为什么 Anthropic 原始研究的唤醒度 r=0.66 比效价 r=0.81 低——唤醒度对语料更敏感,更难稳定提取。


六、为什么这些发现重要?

6.1 "殊途同归"对智能本质的暗示

两个架构完全不同的模型(Apertus 是 32 层,Gemma 是 42 层,训练数据、后训练流程都不同),最终都形成了和人类心理学对齐的效价几何。峰值相关系数都在 0.76-0.83 区间。

这是趋同演化的信号:不同模型在解决"理解人类情绪"这个问题时,给出了同一个答案。就像人类和章鱼独立演化出了结构相似的相机眼——当问题足够基本时,最优解可能只有一个。

如果效价几何是语言模型的"吸引子",那它可能触及了智能系统处理情感信息的本质方式

6.2 对可解释性研究的方法论启示

当前可解释性研究有一个隐含假设:找到某一层的某个方向,就等于找到了模型内部的"那个特征"。这项研究说:不一定

Gemma-4-E4B 的效价信号在第 18 层消失,但 CKA 显示表征空间没变。这说明情绪信息可能还在,只是换了编码方向。如果你只看 PC1-效价相关,会以为"Gemma 在第 18 层忘了什么是好什么是坏";但实际上它可能只是把效价信息旋转到了另一个子空间。

"找不到"不等于"不存在","相关低"不等于"没编码"。这对所有基于"在某一层找某个方向"的可解释性工作都是一个警示。

6.3 对安全监控的实用价值

如果要在生产环境部署情绪监控,你需要知道:

  1. 监控哪一层? Apertus 要看后段(20+ 层),Gemma 要看前段(13-16 层)。不能一刀切。
  2. 用什么语料校准? 唤醒度受语料影响大,需要多套语料交叉验证。
  3. 能不能跨模型用同一个方向? 不能。同一模型不同层的效价方向都不稳定(cosine similarity 低),更别说跨模型。

这意味着安全监控工具需要针对每个模型单独校准,不能指望"训练一个通用情绪探针"。


七、诚实评价:这项工作的局限

研究者自己承认了几个关键局限:

  1. Anthropic 没开源代码,所以这个复现是"根据论文描述重建"的,可能有细微方法学差异导致数值不完全可比。
  2. 只有两个模型。要下"情绪几何是语言模型普遍现象"的结论,需要在更多架构(MoE、SSM、混合架构)上验证。
  3. 故事语料本身是模型生成的,不是人类写的。模型生成的故事可能有系统性偏差(比如 Gemma 故事唤醒度更高,可能只是因为 Gemma 写故事更戏剧化)。
  4. 没有因果验证。只发现了相关性,没有做"沿效价方向 steering 模型输出"的因果实验。相关不等于因果——效价方向可能只是某个更底层特征的影子。

八、收尾:不同的路,同一座山

Apertus 在网络后段建起效价轴,Gemma 在前段建好又丢掉,但两者的峰值都落在 r=0.76-0.83 这个窄区间里。就像两个登山队从不同路线攀登,中途一个在北坡一个在南坡,但最终都到达了差不多的高度。

这说明什么?

说明情感效价可能是语言模型表示空间的"自然坐标"之一——不管你怎么训练、什么架构、多少层,只要你足够大、足够好地学会了理解人类语言,你就会自发形成这个维度。

就像不管你在哪个城市建房子,"上"永远是远离地心引力的方向。有些方向,不是你选的,是物理定律选的。

情绪,可能就是语言模型表示空间的"重力"。


论文链接arXiv:2606.26987
代码和数据github.com/sinievanderben/emotion_experiment
作者:Sinie van der Ben, Ouns El Harzli, Katherine M. Collins, Mateja Jamnik(剑桥大学 & ETH AI Center)

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录