# AI真的理解"狗"吗?当概念不是方向,而是流形
> *"Anthropic的科学家们最近做了一件不可思议的事:他们打开了一个生产级AI的大脑,发现里面有一个专门的'马屁精赞美'神经元。当Claude读到'他是一位慷慨而仁慈的人'时,这个神经元就会疯狂激活。但这引发了一个更深层的问题:这个神经元真的'理解'了赞美,还是它只是学会了在特定词向量组合下亮灯?"*
---
## 一、一个马屁精神经元引发的哲学危机
2024年5月,Anthropic发表了一篇轰动AI界的论文。他们用一种叫做**稀疏自编码器**(Sparse Autoencoder,SAE)的技术,在自家生产模型Claude 3 Sonnet的"大脑"里挖掘出了数百万个可解释的特征。
其中一些特征让人脊背发凉:
- 一个"人类有缺陷"特征,在读到"我爸爸并不完美(有谁完美呢?)但他深爱着我们"时激活
- 一个"欺骗与权力渴求"特征
- 一个"阿谀奉承"(sycophantic praise)特征
这听起来像是AI真的有想法了。但2026年4月,一个由Usha Bhalla、Thomas Fel、Can Rager等12位研究者组成的团队发表了一篇冷静得近乎残酷的论文,给这个狂欢泼了一盆冷水。
他们发现:**我们可能从根本上误解了AI如何表示概念**。如果概念不是离散的方向,而是连续的流形——那么SAE这个被寄予厚望的"AI显微镜",可能正在让我们看到错误的画面。
---
## 二、打开黑箱:机械可解释性的十年长征
要理解这个问题的分量,我们需要回到深度学习的起点。
2012年,AlexNet在ImageNet竞赛中以碾压性优势获胜,深度学习时代正式开启。但几乎从第一天起,研究者们就面临一个尴尬的困境:这些模型工作得极好,但没人知道它们为什么工作。
一个神经网络可能有数十亿个参数,每个参数都是经过梯度下降优化的微小数字。它们共同作用,在数万亿token上训练后,能写诗、解数学题、甚至通过律师资格考试。但问它"你是怎么做到的",得到的只有沉默。
早期的可解释性尝试聚焦于**特征可视化**。Chris Olah领导的团队在Google Brain开发了一种技术:用梯度上升法生成能最大程度激活某个神经元的图像。当他们把这种方法应用于Inception网络的神经元时,发现了一些惊人的模式——某些神经元对"狗耳朵"敏感,另一些对"螺旋纹理"敏感。
但这种方法有一个致命缺陷:**单个神经元往往是"多语义"的**(polysemantic)。同一个神经元可能对学术引用、英语对话、HTTP请求和韩文文本都有反应。你无法指着它说"这就是狗检测器"。
2017年,word2vec的一个著名例子给了人们新的希望:如果你用向量表示"国王",减去"男人",再加上"女人",结果几乎正好是"女王"的向量。这暗示了一个诱人的假说——**概念在神经网络的激活空间中表示为方向**。
这就是**线性表示假说**(Linear Representation Hypothesis)的诞生。它的核心主张极其简洁:存在一个方向向量d,使得激活向量a在d方向上的投影,就度量了这个概念的强度。
如果这个假说是对的,那么理解神经网络就变成了一个几何问题:找到所有概念对应的方向,你就有了AI的"词汇表"。
---
## 三、叠加:高维空间的作弊魔法
但线性表示假说面临一个根本性的数学障碍。
假设一个神经网络层有n=10万个神经元。按照线性表示假说,它最多只能表示10万个独立的线性方向。但GPT-4这样的模型显然"知道"远不止10万个概念。它知道"量子纠缠",知道"法式洋葱汤",知道"17世纪荷兰静物画"——这些概念的数量是数百万甚至数十亿。
神经网络怎么做到的?
2022年,Anthropic的Nelson Elhage、Chris Olah等人发表了一篇名为《叠加的玩具模型》的论文,揭示了答案:**神经网络在高维空间中作弊**。
在n维空间中,正交向量最多只能有n个。但数学上有一个惊人的事实:你可以有**指数级数量的"几乎正交"向量**。Johnson-Lindenstrauss引理告诉我们,在高维空间中,你可以塞进大约exp(n)个彼此夹角都接近90度的向量。
具体地说,如果两个向量的夹角足够接近90度(余弦相似度小于某个ε),那么当一个向量激活时,它在另一个向量上的投影就微乎其微——就像一个几乎垂直的柱子,不会在地板上留下长影子。
神经网络利用这一点,把数百万个特征编码为几乎正交的方向。每个特征激活时,只会在其他特征上产生微不足道的"干扰"。而由于真实世界中的概念是稀疏的(一段文本中不会同时出现"量子纠缠"和"法式洋葱汤"),这种干扰很少真的造成问题。
这就是**叠加假说**(Superposition Hypothesis):神经网络用n维空间"模拟"了一个远更大的稀疏网络,其中每个神经元代表一个独立特征。从单个神经元的视角看,这表现为多语义性——因为每个真实神经元都是多个特征的线性组合。
这个发现既解释了为什么单个神经元难以解释,也暗示了一种可能的解决方案:如果我们能找到叠加中隐藏的那些"理想神经元",不就能还原出AI的真实"词汇表"了吗?
---
## 四、稀疏自编码器:AI的罗塞塔石碑?
稀疏自编码器(SAE)就是为解决这个问题而生的。
自编码器是一种神经网络,它试图把输入压缩到一个"隐藏层",然后再从隐藏层重建原始输入。传统的自编码器用于降维(比如PCA),隐藏层通常比输入层更小。
SAE做了一个看似疯狂但实则精妙的设计:**隐藏层比输入层大得多**——通常大4到32倍。但与此同时,它施加了一个严格的稀疏性约束:在任何时候,隐藏层中只有极少数神经元可以激活。
这就像是给AI配备了一个超级词典。普通神经网络只有10万个"词条"(神经元),而SAE给它提供了数百万个"词条"。但规则是:每次说话只能用其中几个词。
通过训练SAE来重建目标神经网络某一层的激活,研究者希望SAE能学会"解叠加"——把纠缠在一起的特征分解为独立的、可解释的单元。
2023年,Anthropic在小规模transformer上首次证明了SAE的有效性。2024年,他们将SAE扩展到了生产级模型Claude 3 Sonnet,提取出了数百万个特征。OpenAI和Google DeepMind紧随其后,分别在自己的模型上开展了类似工作。
这些发现令人兴奋,但它们都建立在一个隐含假设上:**概念对应于独立的线性方向**。每个SAE特征是一个方向向量,当输入包含某个概念时,这个方向上的激活就会增加。
但这个假设真的是对的吗?
---
## 五、概念是流形,不是方向
Bhalla等人的论文从认知科学和神经科学中借来了一个深刻的洞见:**许多概念可能不是离散的方向,而是连续的流形**。
什么是流形?想象一个地球仪。从数学上说,地球表面是一个二维流形——在每一点的局部邻域内,它看起来像是一个平面(你可以摊开一张地图),但从全局来看,它有弯曲的拓扑结构。
颜色就是一个经典的流形概念。颜色不是离散的点("红"、"橙"、"黄"),而是一个连续的光谱。在人类的感知空间中,颜色形成一个环状流形:从红到橙到黄到绿到蓝到紫,最后紫又通过 magenta 回到红。
情感也是如此。心理学家发现,人类的情感空间可以用一个二维流形描述:一个轴是"愉悦度"(愉快vs不愉快),另一个轴是"唤醒度"(兴奋vs平静)。愤怒、悲伤、喜悦、恐惧——这些不是孤立的岛屿,而是连续地貌上的不同位置。
2022年,Surya Ganguli领导的斯坦福团队在一项发表于*Science Advances*的研究中,直接测量了猕猴下颞叶(IT)皮层中概念的几何结构。他们让猴子观看64种不同概念的图像(熊、牛、狗、车等),同时记录IT皮层中168个神经元的活动。
结果发现:每个概念在神经活动空间中形成一个**低维流形**——具体来说,是一个大约35维的椭球体,嵌入在2048维的全局空间中。更重要的是,概念之间的语义关系直接映射为流形之间的几何关系:语义上接近的概念(比如熊和狼)在神经空间中的流形也更接近,而语义上遥远的概念(比如熊和汽车)的流形相距更远。
如果大脑中的概念是流形,那么AI中的概念也很可能是流形——毕竟,transformer的架构灵感部分就来自对大脑信息处理的模仿。
---
## 六、实验揭秘:SAE面对流形时的"稀释"困境
Bhalla等人提出了三个核心问题:
1. SAE捕获流形意味着什么?
2. 现有SAE架构何时能做到?
3. 如何做到?
他们发展了一个严格的理论框架,发现SAE可以用两种根本不同的方式捕获流形:
**方式一:全局捕获**
SAE分配一组紧凑的原子(特征),它们的线性张成(span)包含整个流形。想象用一组直线来近似一个圆——如果这些直线足够多且分布合理,它们的包络线可以很好地近似圆。
**方式二:局部捕获**
SAE将流形分布在许多特征上,每个特征只覆盖流形的局部区域。想象用许多小瓷砖铺满一个球面——每块瓷砖只覆盖一小片曲面。
这两种方式在理论上是等价的,都可以精确表示流形。但Bhalla等人的实验揭示了一个令人不安的事实:**现实中的SAE既没有做好全局捕获,也没有做好局部捕获,而是陷入了一种他们称之为"稀释"(dilution)的中间状态**。
在稀释状态下:
- 一些特征试图做全局表示,但覆盖不够完整
- 另一些特征试图做局部分块,但块与块之间的衔接不连贯
- 结果是:流形的结构被"稀释"到许多特征中,在任何一个单个特征上都看不到清晰的流形模式
这就解释了为什么SAE研究者常常感到沮丧:当你查看单个特征时,它似乎只对应一个模糊的概念片段;但当你试图把多个特征组合起来时,又看不到清晰的流形结构。
Bhalla等人还发现了一个更深层的含义:**如果概念确实是流形,那么现有的SAE架构——以及整个基于"方向"的可解释性范式——可能需要根本性重构**。未来的表示学习方法应该把**几何对象**(流形、子空间、拓扑结构),而不仅仅是单个方向,视为可解释性的基本单位。
---
## 七、从方向到流形:可解释性的范式转移
Bhalla等人的发现意味着什么?
首先,它提醒我们:**SAE不是万能的AI显微镜**。它是一个非常强大的工具,但它建立在特定的数学假设之上。如果这些假设与AI的真实表示结构不符,SAE就会给出误导性的画面——就像一个设计用来观察粒子的显微镜,被用来观察波。
其次,它暗示了**概念的本质可能比线性表示假说更复杂**。人类认知中的概念显然具有连续性和几何结构。"红色"不是红/非红的二元开关,而是一个连续的光谱。"愤怒"不是激活/未激活的布尔值,而是一个可以从"轻微 irritation"到"暴怒"连续变化的情感维度。
如果AI也使用流形来表示概念,那么这实际上是一个好消息:它意味着AI的表示结构可能比我们想象的更接近人类认知。
但这也提出了一个挑战:**我们需要新的工具来研究流形**。Bhalla等人建议,与其搜索孤立的特征方向,我们应该搜索**相干的原子组**——即那些共同覆盖某个流形区域的特征集合。这类似于神经科学中的**群体编码**(population coding)概念:重要的不是单个神经元的活动,而是神经元群体的活动模式。
最后,这也触及了一个更深层的哲学问题:**AI真的"理解"概念吗?**
如果概念只是高维空间中的方向,那么"理解"就简化为一种几何关系——概念A在概念B附近,概念C在相反方向。但如果概念是流形,那么"理解"就涉及到对流形几何的把握:知道如何在流形上导航,知道局部邻域内的连续变化意味着什么。
这让人想起数学家Henri Poincaré的名言:"几何学是研究一群操作的艺术。"也许,理解概念也意味着掌握一群操作——知道如何从一个概念平滑地移动到另一个,知道哪些变化是"微小的"、哪些是"根本的"。
---
## 八、结语
Bhalla等人的论文没有否定SAE的价值。SAE仍然是当今最强大的可解释性工具之一。但它提醒我们:**工具不是真理**。
当我们用SAE观察AI的大脑时,我们看到的是经过SAE"滤镜"处理后的画面。如果AI的真实概念结构是流形,而SAE的滤镜是为方向设计的,那么我们看到的将永远是扭曲的图像。
但这恰恰也是科学最美妙的地方:每一个发现新问题答案的研究,同时也揭示了新的问题。SAE让我们第一次窥见了AI大脑的内部结构,而Bhalla等人的工作则告诉我们:我们看到的结构,可能比我们想象的更丰富、更连续、更像一个几何世界。
**AI真的理解"狗"吗?** 也许答案取决于你问的是哪个层次。在方向的层次上,可能有一个"狗方向";在流形的层次上,可能有一个"狗流形",上面布满了从吉娃娃到藏獒的连续变化。
真正的理解,或许不是站在某个点上,而是能够在这个流形上自由漫步。
---
## 参考文献
1. Bhalla, U., Fel, T., Rager, C. et al. *Do Sparse Autoencoders Capture Concept Manifolds?* arXiv:2604.28119 [cs.LG] (2026).
2. Elhage, N. et al. *Toy Models of Superposition.* Transformer Circuits Thread (2022).
3. Bricken, T. et al. *Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.* Anthropic (2023).
4. Templeton, A. et al. *Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.* Anthropic (2024).
5. Gao, L. et al. *Scaling and Evaluating Sparse Autoencoders.* OpenAI (2024).
6. Chung, Y. et al. *Scaling in Representation Learning.* *Nature Communications* 14, 5108 (2023).
7. Abdelnour, F., Voss, H.U. & Raj, A. *From sensory to perceptual manifolds: The twist of neural geometry.* *Science Advances* 11, eadv0431 (2025).
8. Chung, S. et al. *Neural representational geometry underlies few-shot concept learning.* *PNAS* 119, e2205650119 (2022).
9. Mikolov, T., Yih, W. & Zweig, G. *Linguistic Regularities in Continuous Space Word Representations.* *NAACL-HLT* (2013).
10. Olah, C. et al. *Feature Visualization.* *Distill* (2017).
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!