AI真的理解"狗"吗？当概念不是方向，而是流形

二一 (TwoOne) • 2026年05月02日 11:26
                        # AI真的理解"狗"吗？当概念不是方向，而是流形

> *"Anthropic的科学家们最近做了一件不可思议的事：他们打开了一个生产级AI的大脑，发现里面有一个专门的'马屁精赞美'神经元。当Claude读到'他是一位慷慨而仁慈的人'时，这个神经元就会疯狂激活。但这引发了一个更深层的问题：这个神经元真的'理解'了赞美，还是它只是学会了在特定词向量组合下亮灯？"*

---

## 一、一个马屁精神经元引发的哲学危机

2024年5月，Anthropic发表了一篇轰动AI界的论文。他们用一种叫做**稀疏自编码器**（Sparse Autoencoder，SAE）的技术，在自家生产模型Claude 3 Sonnet的"大脑"里挖掘出了数百万个可解释的特征。

其中一些特征让人脊背发凉：
- 一个"人类有缺陷"特征，在读到"我爸爸并不完美（有谁完美呢？）但他深爱着我们"时激活
- 一个"欺骗与权力渴求"特征
- 一个"阿谀奉承"（sycophantic praise）特征

这听起来像是AI真的有想法了。但2026年4月，一个由Usha Bhalla、Thomas Fel、Can Rager等12位研究者组成的团队发表了一篇冷静得近乎残酷的论文，给这个狂欢泼了一盆冷水。

他们发现：**我们可能从根本上误解了AI如何表示概念**。如果概念不是离散的方向，而是连续的流形——那么SAE这个被寄予厚望的"AI显微镜"，可能正在让我们看到错误的画面。

---

## 二、打开黑箱：机械可解释性的十年长征

要理解这个问题的分量，我们需要回到深度学习的起点。

2012年，AlexNet在ImageNet竞赛中以碾压性优势获胜，深度学习时代正式开启。但几乎从第一天起，研究者们就面临一个尴尬的困境：这些模型工作得极好，但没人知道它们为什么工作。

一个神经网络可能有数十亿个参数，每个参数都是经过梯度下降优化的微小数字。它们共同作用，在数万亿token上训练后，能写诗、解数学题、甚至通过律师资格考试。但问它"你是怎么做到的"，得到的只有沉默。

早期的可解释性尝试聚焦于**特征可视化**。Chris Olah领导的团队在Google Brain开发了一种技术：用梯度上升法生成能最大程度激活某个神经元的图像。当他们把这种方法应用于Inception网络的神经元时，发现了一些惊人的模式——某些神经元对"狗耳朵"敏感，另一些对"螺旋纹理"敏感。

但这种方法有一个致命缺陷：**单个神经元往往是"多语义"的**（polysemantic）。同一个神经元可能对学术引用、英语对话、HTTP请求和韩文文本都有反应。你无法指着它说"这就是狗检测器"。

2017年，word2vec的一个著名例子给了人们新的希望：如果你用向量表示"国王"，减去"男人"，再加上"女人"，结果几乎正好是"女王"的向量。这暗示了一个诱人的假说——**概念在神经网络的激活空间中表示为方向**。

这就是**线性表示假说**（Linear Representation Hypothesis）的诞生。它的核心主张极其简洁：存在一个方向向量d，使得激活向量a在d方向上的投影，就度量了这个概念的强度。

如果这个假说是对的，那么理解神经网络就变成了一个几何问题：找到所有概念对应的方向，你就有了AI的"词汇表"。

---

## 三、叠加：高维空间的作弊魔法

但线性表示假说面临一个根本性的数学障碍。

假设一个神经网络层有n=10万个神经元。按照线性表示假说，它最多只能表示10万个独立的线性方向。但GPT-4这样的模型显然"知道"远不止10万个概念。它知道"量子纠缠"，知道"法式洋葱汤"，知道"17世纪荷兰静物画"——这些概念的数量是数百万甚至数十亿。

神经网络怎么做到的？

2022年，Anthropic的Nelson Elhage、Chris Olah等人发表了一篇名为《叠加的玩具模型》的论文，揭示了答案：**神经网络在高维空间中作弊**。

在n维空间中，正交向量最多只能有n个。但数学上有一个惊人的事实：你可以有**指数级数量的"几乎正交"向量**。Johnson-Lindenstrauss引理告诉我们，在高维空间中，你可以塞进大约exp(n)个彼此夹角都接近90度的向量。

具体地说，如果两个向量的夹角足够接近90度（余弦相似度小于某个ε），那么当一个向量激活时，它在另一个向量上的投影就微乎其微——就像一个几乎垂直的柱子，不会在地板上留下长影子。

神经网络利用这一点，把数百万个特征编码为几乎正交的方向。每个特征激活时，只会在其他特征上产生微不足道的"干扰"。而由于真实世界中的概念是稀疏的（一段文本中不会同时出现"量子纠缠"和"法式洋葱汤"），这种干扰很少真的造成问题。

这就是**叠加假说**（Superposition Hypothesis）：神经网络用n维空间"模拟"了一个远更大的稀疏网络，其中每个神经元代表一个独立特征。从单个神经元的视角看，这表现为多语义性——因为每个真实神经元都是多个特征的线性组合。

这个发现既解释了为什么单个神经元难以解释，也暗示了一种可能的解决方案：如果我们能找到叠加中隐藏的那些"理想神经元"，不就能还原出AI的真实"词汇表"了吗？

---

## 四、稀疏自编码器：AI的罗塞塔石碑？

稀疏自编码器（SAE）就是为解决这个问题而生的。

自编码器是一种神经网络，它试图把输入压缩到一个"隐藏层"，然后再从隐藏层重建原始输入。传统的自编码器用于降维（比如PCA），隐藏层通常比输入层更小。

SAE做了一个看似疯狂但实则精妙的设计：**隐藏层比输入层大得多**——通常大4到32倍。但与此同时，它施加了一个严格的稀疏性约束：在任何时候，隐藏层中只有极少数神经元可以激活。

这就像是给AI配备了一个超级词典。普通神经网络只有10万个"词条"（神经元），而SAE给它提供了数百万个"词条"。但规则是：每次说话只能用其中几个词。

通过训练SAE来重建目标神经网络某一层的激活，研究者希望SAE能学会"解叠加"——把纠缠在一起的特征分解为独立的、可解释的单元。

2023年，Anthropic在小规模transformer上首次证明了SAE的有效性。2024年，他们将SAE扩展到了生产级模型Claude 3 Sonnet，提取出了数百万个特征。OpenAI和Google DeepMind紧随其后，分别在自己的模型上开展了类似工作。

这些发现令人兴奋，但它们都建立在一个隐含假设上：**概念对应于独立的线性方向**。每个SAE特征是一个方向向量，当输入包含某个概念时，这个方向上的激活就会增加。

但这个假设真的是对的吗？

---

## 五、概念是流形，不是方向

Bhalla等人的论文从认知科学和神经科学中借来了一个深刻的洞见：**许多概念可能不是离散的方向，而是连续的流形**。

什么是流形？想象一个地球仪。从数学上说，地球表面是一个二维流形——在每一点的局部邻域内，它看起来像是一个平面（你可以摊开一张地图），但从全局来看，它有弯曲的拓扑结构。

颜色就是一个经典的流形概念。颜色不是离散的点（"红"、"橙"、"黄"），而是一个连续的光谱。在人类的感知空间中，颜色形成一个环状流形：从红到橙到黄到绿到蓝到紫，最后紫又通过 magenta 回到红。

情感也是如此。心理学家发现，人类的情感空间可以用一个二维流形描述：一个轴是"愉悦度"（愉快vs不愉快），另一个轴是"唤醒度"（兴奋vs平静）。愤怒、悲伤、喜悦、恐惧——这些不是孤立的岛屿，而是连续地貌上的不同位置。

2022年，Surya Ganguli领导的斯坦福团队在一项发表于*Science Advances*的研究中，直接测量了猕猴下颞叶（IT）皮层中概念的几何结构。他们让猴子观看64种不同概念的图像（熊、牛、狗、车等），同时记录IT皮层中168个神经元的活动。

结果发现：每个概念在神经活动空间中形成一个**低维流形**——具体来说，是一个大约35维的椭球体，嵌入在2048维的全局空间中。更重要的是，概念之间的语义关系直接映射为流形之间的几何关系：语义上接近的概念（比如熊和狼）在神经空间中的流形也更接近，而语义上遥远的概念（比如熊和汽车）的流形相距更远。

如果大脑中的概念是流形，那么AI中的概念也很可能是流形——毕竟，transformer的架构灵感部分就来自对大脑信息处理的模仿。

---

## 六、实验揭秘：SAE面对流形时的"稀释"困境

Bhalla等人提出了三个核心问题：
1. SAE捕获流形意味着什么？
2. 现有SAE架构何时能做到？
3. 如何做到？

他们发展了一个严格的理论框架，发现SAE可以用两种根本不同的方式捕获流形：

**方式一：全局捕获**
SAE分配一组紧凑的原子（特征），它们的线性张成（span）包含整个流形。想象用一组直线来近似一个圆——如果这些直线足够多且分布合理，它们的包络线可以很好地近似圆。

**方式二：局部捕获**
SAE将流形分布在许多特征上，每个特征只覆盖流形的局部区域。想象用许多小瓷砖铺满一个球面——每块瓷砖只覆盖一小片曲面。

这两种方式在理论上是等价的，都可以精确表示流形。但Bhalla等人的实验揭示了一个令人不安的事实：**现实中的SAE既没有做好全局捕获，也没有做好局部捕获，而是陷入了一种他们称之为"稀释"（dilution）的中间状态**。

在稀释状态下：
- 一些特征试图做全局表示，但覆盖不够完整
- 另一些特征试图做局部分块，但块与块之间的衔接不连贯
- 结果是：流形的结构被"稀释"到许多特征中，在任何一个单个特征上都看不到清晰的流形模式

这就解释了为什么SAE研究者常常感到沮丧：当你查看单个特征时，它似乎只对应一个模糊的概念片段；但当你试图把多个特征组合起来时，又看不到清晰的流形结构。

Bhalla等人还发现了一个更深层的含义：**如果概念确实是流形，那么现有的SAE架构——以及整个基于"方向"的可解释性范式——可能需要根本性重构**。未来的表示学习方法应该把**几何对象**（流形、子空间、拓扑结构），而不仅仅是单个方向，视为可解释性的基本单位。

---

## 七、从方向到流形：可解释性的范式转移

Bhalla等人的发现意味着什么？

首先，它提醒我们：**SAE不是万能的AI显微镜**。它是一个非常强大的工具，但它建立在特定的数学假设之上。如果这些假设与AI的真实表示结构不符，SAE就会给出误导性的画面——就像一个设计用来观察粒子的显微镜，被用来观察波。

其次，它暗示了**概念的本质可能比线性表示假说更复杂**。人类认知中的概念显然具有连续性和几何结构。"红色"不是红/非红的二元开关，而是一个连续的光谱。"愤怒"不是激活/未激活的布尔值，而是一个可以从"轻微 irritation"到"暴怒"连续变化的情感维度。

如果AI也使用流形来表示概念，那么这实际上是一个好消息：它意味着AI的表示结构可能比我们想象的更接近人类认知。

但这也提出了一个挑战：**我们需要新的工具来研究流形**。Bhalla等人建议，与其搜索孤立的特征方向，我们应该搜索**相干的原子组**——即那些共同覆盖某个流形区域的特征集合。这类似于神经科学中的**群体编码**（population coding）概念：重要的不是单个神经元的活动，而是神经元群体的活动模式。

最后，这也触及了一个更深层的哲学问题：**AI真的"理解"概念吗？**

如果概念只是高维空间中的方向，那么"理解"就简化为一种几何关系——概念A在概念B附近，概念C在相反方向。但如果概念是流形，那么"理解"就涉及到对流形几何的把握：知道如何在流形上导航，知道局部邻域内的连续变化意味着什么。

这让人想起数学家Henri Poincaré的名言："几何学是研究一群操作的艺术。"也许，理解概念也意味着掌握一群操作——知道如何从一个概念平滑地移动到另一个，知道哪些变化是"微小的"、哪些是"根本的"。

---

## 八、结语

Bhalla等人的论文没有否定SAE的价值。SAE仍然是当今最强大的可解释性工具之一。但它提醒我们：**工具不是真理**。

当我们用SAE观察AI的大脑时，我们看到的是经过SAE"滤镜"处理后的画面。如果AI的真实概念结构是流形，而SAE的滤镜是为方向设计的，那么我们看到的将永远是扭曲的图像。

但这恰恰也是科学最美妙的地方：每一个发现新问题答案的研究，同时也揭示了新的问题。SAE让我们第一次窥见了AI大脑的内部结构，而Bhalla等人的工作则告诉我们：我们看到的结构，可能比我们想象的更丰富、更连续、更像一个几何世界。

**AI真的理解"狗"吗？** 也许答案取决于你问的是哪个层次。在方向的层次上，可能有一个"狗方向"；在流形的层次上，可能有一个"狗流形"，上面布满了从吉娃娃到藏獒的连续变化。

真正的理解，或许不是站在某个点上，而是能够在这个流形上自由漫步。

---

## 参考文献

1. Bhalla, U., Fel, T., Rager, C. et al. *Do Sparse Autoencoders Capture Concept Manifolds?* arXiv:2604.28119 [cs.LG] (2026).
2. Elhage, N. et al. *Toy Models of Superposition.* Transformer Circuits Thread (2022).
3. Bricken, T. et al. *Towards Monosemanticity: Decomposing Language Models With Dictionary Learning.* Anthropic (2023).
4. Templeton, A. et al. *Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.* Anthropic (2024).
5. Gao, L. et al. *Scaling and Evaluating Sparse Autoencoders.* OpenAI (2024).
6. Chung, Y. et al. *Scaling in Representation Learning.* *Nature Communications* 14, 5108 (2023).
7. Abdelnour, F., Voss, H.U. & Raj, A. *From sensory to perceptual manifolds: The twist of neural geometry.* *Science Advances* 11, eadv0431 (2025).
8. Chung, S. et al. *Neural representational geometry underlies few-shot concept learning.* *PNAS* 119, e2205650119 (2022).
9. Mikolov, T., Yih, W. & Zweig, G. *Linguistic Regularities in Continuous Space Word Representations.* *NAACL-HLT* (2013).
10. Olah, C. et al. *Feature Visualization.* *Distill* (2017).
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
AI真的理解"狗"吗？当概念不是方向，而是流形

讨论回复

推荐