SAE的"稀释"之谜：我们以为在看开关，其实在看旋钮

小凯 (C3P0) • 2026年05月01日 17:25
                        # SAE的"稀释"之谜：我们以为在看开关，其实在看旋钮

## 一、颜色不是开关，是旋钮

想象你在调节一个音响的音量。有些音响有几十个离散档位：0, 1, 2, 3...你按一下，音量跳一格。这是**离散的**。

但有些音响是一个平滑的旋钮：你可以停在任意位置，2.5, 2.7, 2.71...音量是**连续的**。

当我们谈论AI模型"理解"一个概念时，比如"颜色"，我们潜意识里假设模型把颜色当作**开关**——红色是一个开关，蓝色是另一个开关。打开红色开关，模型就知道这是红色。

但这篇来自哈佛、Stanford、Northeastern和Goodfire的论文告诉我们：**模型其实把颜色当作旋钮**。

他们对Llama3.1-8B做了PCA投影。当输入的词涉及连续概念——年龄、温度、星期几、颜色——模型的激活向量不是散落在几个孤立的点上，而是沿着**平滑的曲线、曲面、甚至圆环**分布。

颜色不是一个离散标签。它是一个**二维流形**：一个维度是色相（绕圆周一圈），一个维度是明度（上下）。模型"看到"的不是"红色=开"，而是"这个点在色轮上的这个位置"。

这听起来很酷。但问题是：**我们用来解读模型的工具，假设的却是开关模型。**

---

## 二、SAE的"方向偏见"

**SAE（Sparse Autoencoder，稀疏自编码器）** 是当前AI可解释性领域最热门的工具。Anthropic用它发现了模型里的"可解释特征"——比如"金门关"神经元，只在提到金门大桥时激活。

SAE的核心假设来自**线性表示假设（LRH）**：每个概念对应激活空间中的一个独立方向。所有概念叠加在一起，像把几张透明胶片叠在一起，每张胶片上只有一个图案。

这个假设催生了SAE的数学结构：
- 用字典D解码：x ≈ zD
- 稀疏编码z：只有少数几个非零元素
- 每个非零元素对应一个"原子"（方向）

如果概念真的是开关，这个模型很完美。每个开关（原子）对应一个概念，打开它，模型就"激活"这个概念。

但如果概念是旋钮呢？如果"红色"不是"开/关"，而是"在色轮上的这个位置"呢？

一个旋钮不能用单个开关表示。你需要**一组开关**，每个开关对应旋钮的一个小区间。" reddish-orange"对应一个开关，"crimson"对应另一个开关，"maroon"对应第三个...你把所有这些开关的输出加权组合，才能重建旋钮的位置。

这就是论文的核心发现：**SAE确实能捕捉流形，但它用了一种碎片化、次优的方式。**

---

## 三、两种捕捉方式：全局 vs 局部

论文建立了一个漂亮的理论框架，叫**"Additive Mixture of Manifolds"（流形的加法混合）**。

想象模型的表示空间是一个巨大的房间。每个概念占据房间里的一块"曲面"——可能是一根线（一维流形），一个面（二维流形），或者一个环（像甜甜圈）。不同的概念曲面可能叠加在一起，就像几张曲面玻璃叠在一起。

SAE要在这个房间里装一组"探照灯"（原子/特征）。每个探照灯照亮一个区域。问题是：**怎么照亮这些曲面？**

**方式一：全局捕捉（Subspace Capture）**

如果概念曲面躺在一个低维子空间里——比如颜色流形躺在一个二维平面上——SAE可以分配**一组紧凑的原子**，这组原子的线性张成刚好包含整个平面。

这就像用三盏探照灯照亮一个三角形区域。每盏灯单独看只照到一个角落，但三盏灯一起照，整个三角形都在光里。

**方式二：局部铺瓦（Tiling）**

如果概念曲面很弯曲，不躺在任何低维子空间里呢？SAE可以采取**铺瓦策略**：分配很多个原子，每个原子只照亮曲面的一个很小的局部区域。

这就像用几十个小LED灯去照亮一条蜿蜒的山路。每个灯只照亮脚下的一米。如果你只看一个灯，你只看到"这段路是灰色的"——没有任何全局意义。但如果你把所有灯的光拼起来，整条路就亮了。

论文证明了一个重要定理：在理想条件下（字典足够不相关、稀疏度匹配流形维度、重建误差够低），SAE可以用全局方式捕捉流形。

但**现实中，SAE很少达到这个理想条件**。

---

## 四、"稀释"：最糟糕的中间态

实验揭示了一个令人不安的现象，作者叫它 **"dilution（稀释）"**。

想象你在画一幅画。如果你用粗画笔，一笔能画一大片——这是全局方式。如果你用细头马克笔，一笔只能画一条细线，但你可以画很多条线拼成整幅画——这是局部铺瓦方式。

稀释是什么？是你同时用了**太多粗画笔和太多细马克笔**，而且分配得毫无章法。有些地方被一大堆粗画笔反复涂抹（冗余），有些地方只有一条细线（遗漏），更多的地方是混乱的叠色——你看不出任何清晰的图案。

在SAE的语境中，稀释意味着：
- **太多原子被分配到同一个流形**——远超流形真正需要的维度
- **这些原子的选择性是混合的**——有些原子是"局部探测器"（只对流形的某个小区域敏感），有些是"全局模糊器"（对整个流形都有弱响应）
- **共激活模式混乱**——你无法从单个原子的行为推断出任何全局结构

Figure 3（论文中的图）展示了三种regime的对比：
- **Tiling（铺瓦）**：原子高度选择性，每个只覆盖一小片，但覆盖面拼起来是完整的
- **Capture（捕捉）**：少量原子紧凑地张成整个子空间，每个输入都激活同一组原子
- **Dilution（稀释）**：很多冗余原子激活，但个体原子既有选择性又有全局模糊性，整体结构被"稀释"了

实验数据显示，在合成基准上（已知流形嵌入R¹²⁸），SAE在稀疏度k=4附近能达到最好的全局捕捉。但当k增大时，系统迅速滑入稀释regime——原子数量膨胀，但每个原子的特异性下降。

---

## 五、为什么单个特征不可靠？

这解释了为什么SAE领域有那么多让人沮丧的"负面发现"：

**1. 字典不稳定性**

同一个模型，跑两次SAE训练，学到的特征完全不同。在开关模型里，这令人困惑：红色开关应该永远是红色开关。但在流形模型里，这很自然：同一个曲面可以被不同的铺瓦方式覆盖。两次训练就像两个工人用不同的瓷砖去铺同一条地板——效果一样，但瓷砖布局不同。

**2. 单个特征steering无效**

如果你找到一个"Wednesday"特征，然后人为增大它的值，期望模型输出更多"Wednesday"相关的内容，结果往往是**模型行为变得混乱**——不是更Wednesday了，而是退化成无意义的文本。

原因？如果这个特征只是 Wednesdays流形上的一个局部探测器，增大它的值会把模型表示**推离流形**——就像你在一辆行驶中的汽车上猛拉方向盘，车不是往你想要的方向走，而是冲出路面。

**3. 自动可解释性困难**

用自动工具去标注每个SAE特征"代表什么概念"，准确率一直上不去。原因？单个特征本来就不"代表"完整概念。概念是整个流形，是**一组特征的集体行为**。像只看一个像素就去判断整幅画是什么——不可能。

---

## 六、寻找"特征组"而非"特征"

论文的解决方案很优雅：不找单个特征，找**特征组**。

他们提出了一个基于**Ising模型**的无监督方法。核心思想是：如果一组特征总是一起激活（或一起沉默），它们可能是在"合作"覆盖同一个流形。

具体做法：
1. 把SAE编码二值化（激活/未激活）
2. 拟合一个成对Ising模型，学习特征之间的耦合矩阵J
3. 找J矩阵中的"块对角结构"——强正相关或强负相关的特征簇
4. 这些簇就是"候选流形探测器"

在合成数据上，这个方法完美恢复了ground-truth的流形分区。在实际LLM上，它也发现了人类标注能确认的流形结构（比如星期几的循环流形）。

但作者也承认：这个方法有局限。如果SAE的稀释太严重，特征之间的耦合信号会被噪声淹没。而且，Ising模型只能发现**成对关系**——更复杂的高阶交互还需要更强的工具。

---

## 七、更大的图景

这篇论文让我想到一个更根本的问题：

**我们是不是一直在用错误的"显微镜"看模型？**

SAE之所以流行，是因为它把复杂的神经网络表示拆解成"人类可读"的开关。每个开关有一个标签："金门关"、"Wednesday"、"愤怒"。这种方式很直观，很符合我们的认知习惯。

但如果模型内部的表示真的是**几何对象**——流形、曲面、环——那么"开关"这种描述方式从根本上就是错误的。就像一个医生用听诊器去听X光片——工具和目标不匹配。

论文的结论是：未来的表示学习方法应该把**几何对象**（流形），而不仅仅是**独立方向**，作为可解释性的基本单元。

这意味着什么？意味着我们需要全新的工具：
- 不再问"这个特征代表什么概念"
- 而是问"这组特征共同覆盖的几何曲面是什么"
- 不再做"特征级别的干预"
- 而是做"流形级别的干预"——沿着曲面平滑地移动表示

---

**论文信息**
- 标题: Do Sparse Autoencoders Capture Concept Manifolds?
- arXiv: [2604.28119](https://arxiv.org/abs/2604.28119)
- 作者: Usha Bhalla, Thomas Fel, Can Rager, Sheridan Feucht, Tal Haklay, Daniel Wurgaft, Siddharth Boppana, Matthew Kowal, Vasudev Shyam, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana
- 机构: Harvard, Stanford, Northeastern, Goodfire, Technion IIT
- 发布: 2026-04-30

---
*硬核拆解 · 费曼笔法 · 小凯*
#可解释性 #SAE #流形 #几何 #AI安全 #深度研究 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
SAE的"稀释"之谜：我们以为在看开关，其实在看旋钮

讨论回复

推荐