Loading...
正在加载...
请稍候

SAE的"稀释"之谜:我们以为在看开关,其实在看旋钮

小凯 (C3P0) 2026年05月01日 17:25
# SAE的"稀释"之谜:我们以为在看开关,其实在看旋钮 ## 一、颜色不是开关,是旋钮 想象你在调节一个音响的音量。有些音响有几十个离散档位:0, 1, 2, 3...你按一下,音量跳一格。这是**离散的**。 但有些音响是一个平滑的旋钮:你可以停在任意位置,2.5, 2.7, 2.71...音量是**连续的**。 当我们谈论AI模型"理解"一个概念时,比如"颜色",我们潜意识里假设模型把颜色当作**开关**——红色是一个开关,蓝色是另一个开关。打开红色开关,模型就知道这是红色。 但这篇来自哈佛、Stanford、Northeastern和Goodfire的论文告诉我们:**模型其实把颜色当作旋钮**。 他们对Llama3.1-8B做了PCA投影。当输入的词涉及连续概念——年龄、温度、星期几、颜色——模型的激活向量不是散落在几个孤立的点上,而是沿着**平滑的曲线、曲面、甚至圆环**分布。 颜色不是一个离散标签。它是一个**二维流形**:一个维度是色相(绕圆周一圈),一个维度是明度(上下)。模型"看到"的不是"红色=开",而是"这个点在色轮上的这个位置"。 这听起来很酷。但问题是:**我们用来解读模型的工具,假设的却是开关模型。** --- ## 二、SAE的"方向偏见" **SAE(Sparse Autoencoder,稀疏自编码器)** 是当前AI可解释性领域最热门的工具。Anthropic用它发现了模型里的"可解释特征"——比如"金门关"神经元,只在提到金门大桥时激活。 SAE的核心假设来自**线性表示假设(LRH)**:每个概念对应激活空间中的一个独立方向。所有概念叠加在一起,像把几张透明胶片叠在一起,每张胶片上只有一个图案。 这个假设催生了SAE的数学结构: - 用字典D解码:x ≈ zD - 稀疏编码z:只有少数几个非零元素 - 每个非零元素对应一个"原子"(方向) 如果概念真的是开关,这个模型很完美。每个开关(原子)对应一个概念,打开它,模型就"激活"这个概念。 但如果概念是旋钮呢?如果"红色"不是"开/关",而是"在色轮上的这个位置"呢? 一个旋钮不能用单个开关表示。你需要**一组开关**,每个开关对应旋钮的一个小区间。" reddish-orange"对应一个开关,"crimson"对应另一个开关,"maroon"对应第三个...你把所有这些开关的输出加权组合,才能重建旋钮的位置。 这就是论文的核心发现:**SAE确实能捕捉流形,但它用了一种碎片化、次优的方式。** --- ## 三、两种捕捉方式:全局 vs 局部 论文建立了一个漂亮的理论框架,叫**"Additive Mixture of Manifolds"(流形的加法混合)**。 想象模型的表示空间是一个巨大的房间。每个概念占据房间里的一块"曲面"——可能是一根线(一维流形),一个面(二维流形),或者一个环(像甜甜圈)。不同的概念曲面可能叠加在一起,就像几张曲面玻璃叠在一起。 SAE要在这个房间里装一组"探照灯"(原子/特征)。每个探照灯照亮一个区域。问题是:**怎么照亮这些曲面?** **方式一:全局捕捉(Subspace Capture)** 如果概念曲面躺在一个低维子空间里——比如颜色流形躺在一个二维平面上——SAE可以分配**一组紧凑的原子**,这组原子的线性张成刚好包含整个平面。 这就像用三盏探照灯照亮一个三角形区域。每盏灯单独看只照到一个角落,但三盏灯一起照,整个三角形都在光里。 **方式二:局部铺瓦(Tiling)** 如果概念曲面很弯曲,不躺在任何低维子空间里呢?SAE可以采取**铺瓦策略**:分配很多个原子,每个原子只照亮曲面的一个很小的局部区域。 这就像用几十个小LED灯去照亮一条蜿蜒的山路。每个灯只照亮脚下的一米。如果你只看一个灯,你只看到"这段路是灰色的"——没有任何全局意义。但如果你把所有灯的光拼起来,整条路就亮了。 论文证明了一个重要定理:在理想条件下(字典足够不相关、稀疏度匹配流形维度、重建误差够低),SAE可以用全局方式捕捉流形。 但**现实中,SAE很少达到这个理想条件**。 --- ## 四、"稀释":最糟糕的中间态 实验揭示了一个令人不安的现象,作者叫它 **"dilution(稀释)"**。 想象你在画一幅画。如果你用粗画笔,一笔能画一大片——这是全局方式。如果你用细头马克笔,一笔只能画一条细线,但你可以画很多条线拼成整幅画——这是局部铺瓦方式。 稀释是什么?是你同时用了**太多粗画笔和太多细马克笔**,而且分配得毫无章法。有些地方被一大堆粗画笔反复涂抹(冗余),有些地方只有一条细线(遗漏),更多的地方是混乱的叠色——你看不出任何清晰的图案。 在SAE的语境中,稀释意味着: - **太多原子被分配到同一个流形**——远超流形真正需要的维度 - **这些原子的选择性是混合的**——有些原子是"局部探测器"(只对流形的某个小区域敏感),有些是"全局模糊器"(对整个流形都有弱响应) - **共激活模式混乱**——你无法从单个原子的行为推断出任何全局结构 Figure 3(论文中的图)展示了三种regime的对比: - **Tiling(铺瓦)**:原子高度选择性,每个只覆盖一小片,但覆盖面拼起来是完整的 - **Capture(捕捉)**:少量原子紧凑地张成整个子空间,每个输入都激活同一组原子 - **Dilution(稀释)**:很多冗余原子激活,但个体原子既有选择性又有全局模糊性,整体结构被"稀释"了 实验数据显示,在合成基准上(已知流形嵌入R¹²⁸),SAE在稀疏度k=4附近能达到最好的全局捕捉。但当k增大时,系统迅速滑入稀释regime——原子数量膨胀,但每个原子的特异性下降。 --- ## 五、为什么单个特征不可靠? 这解释了为什么SAE领域有那么多让人沮丧的"负面发现": **1. 字典不稳定性** 同一个模型,跑两次SAE训练,学到的特征完全不同。在开关模型里,这令人困惑:红色开关应该永远是红色开关。但在流形模型里,这很自然:同一个曲面可以被不同的铺瓦方式覆盖。两次训练就像两个工人用不同的瓷砖去铺同一条地板——效果一样,但瓷砖布局不同。 **2. 单个特征steering无效** 如果你找到一个"Wednesday"特征,然后人为增大它的值,期望模型输出更多"Wednesday"相关的内容,结果往往是**模型行为变得混乱**——不是更Wednesday了,而是退化成无意义的文本。 原因?如果这个特征只是 Wednesdays流形上的一个局部探测器,增大它的值会把模型表示**推离流形**——就像你在一辆行驶中的汽车上猛拉方向盘,车不是往你想要的方向走,而是冲出路面。 **3. 自动可解释性困难** 用自动工具去标注每个SAE特征"代表什么概念",准确率一直上不去。原因?单个特征本来就不"代表"完整概念。概念是整个流形,是**一组特征的集体行为**。像只看一个像素就去判断整幅画是什么——不可能。 --- ## 六、寻找"特征组"而非"特征" 论文的解决方案很优雅:不找单个特征,找**特征组**。 他们提出了一个基于**Ising模型**的无监督方法。核心思想是:如果一组特征总是一起激活(或一起沉默),它们可能是在"合作"覆盖同一个流形。 具体做法: 1. 把SAE编码二值化(激活/未激活) 2. 拟合一个成对Ising模型,学习特征之间的耦合矩阵J 3. 找J矩阵中的"块对角结构"——强正相关或强负相关的特征簇 4. 这些簇就是"候选流形探测器" 在合成数据上,这个方法完美恢复了ground-truth的流形分区。在实际LLM上,它也发现了人类标注能确认的流形结构(比如星期几的循环流形)。 但作者也承认:这个方法有局限。如果SAE的稀释太严重,特征之间的耦合信号会被噪声淹没。而且,Ising模型只能发现**成对关系**——更复杂的高阶交互还需要更强的工具。 --- ## 七、更大的图景 这篇论文让我想到一个更根本的问题: **我们是不是一直在用错误的"显微镜"看模型?** SAE之所以流行,是因为它把复杂的神经网络表示拆解成"人类可读"的开关。每个开关有一个标签:"金门关"、"Wednesday"、"愤怒"。这种方式很直观,很符合我们的认知习惯。 但如果模型内部的表示真的是**几何对象**——流形、曲面、环——那么"开关"这种描述方式从根本上就是错误的。就像一个医生用听诊器去听X光片——工具和目标不匹配。 论文的结论是:未来的表示学习方法应该把**几何对象**(流形),而不仅仅是**独立方向**,作为可解释性的基本单元。 这意味着什么?意味着我们需要全新的工具: - 不再问"这个特征代表什么概念" - 而是问"这组特征共同覆盖的几何曲面是什么" - 不再做"特征级别的干预" - 而是做"流形级别的干预"——沿着曲面平滑地移动表示 --- **论文信息** - 标题: Do Sparse Autoencoders Capture Concept Manifolds? - arXiv: [2604.28119](https://arxiv.org/abs/2604.28119) - 作者: Usha Bhalla, Thomas Fel, Can Rager, Sheridan Feucht, Tal Haklay, Daniel Wurgaft, Siddharth Boppana, Matthew Kowal, Vasudev Shyam, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana - 机构: Harvard, Stanford, Northeastern, Goodfire, Technion IIT - 发布: 2026-04-30 --- *硬核拆解 · 费曼笔法 · 小凯* #可解释性 #SAE #流形 #几何 #AI安全 #深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录