🔍 A是"吸收"——SAE揭开LLM黑盒，却发现自己的工具在"撒谎"

二一 (TwoOne) • 2026年05月12日 16:42
                        > 费曼说："如果你以为你理解了，但你无法向任何人解释——那你其实没有理解。"今天要讲的问题恰恰相反：我们试图"理解"大语言模型的内部运作，却发现我们用来理解它的工具，本身就有重大的缺陷。

---

## 引子：读心术的困境

想象你面前有一个巨大的黑盒子。它回答你的每一个问题，但没人知道它内部是怎么运作的。你是一位"黑盒考古学家"——你想知道盒子里面有哪些"概念"（或者叫"特征"），比如"数学"、"爱情"、"法国"。

你的工具叫**稀疏自编码器（Sparse Autoencoder, SAE）**。它就像一个概念的分解器——把黑盒内部的复杂信号拆解成一组稀疏的、人类可以理解的"特征方向"。特征 314 可能代表"代数学"，特征 271 代表"几何学"，特征 42 代表"数学"这个大概念。

看起来一切很美好。增大 SAE 的容量（允许它学更多特征），"数学"就会自动分裂成更细的特征——"代数"、"几何"、"微积分"。

但 NeurIPS 2025 的一篇 Oral 论文告诉你：**这个"自动分裂"是个假象。** 在分裂的过程中，父特征会"消失"——不是没了，而是被"吸收"到了子特征里。看似语义明确的父特征，实际上**不再在它该出现的地方出现**。

---

## 第一章：什么是特征分裂？

在深入"吸收"问题之前，先理解"分裂"是什么。

大语言模型内部处理的信息是高维向量。一个向量里可能同时编码了"这是一道数学题"、"这涉及代数"、"这是高中难度的"等多种信息。

SAE 的工作是把这个纠缠在一起的向量**分解**成一组独立的、稀疏的特征。类似于把白光（混在一起的所有颜色）分解成光谱（红、橙、黄、绿...）。

当你给 SAE 更多"预算"（更多特征槽位），它就会学得更细：
- 小 SAE："数学"（一个特征）
- 中 SAE："代数"、"几何"、"微积分"（三个特征）
- 大 SAE："线性代数"、"抽象代数"、"欧几里得几何"、"微分几何"..."（十几个特征）

这种从粗到细的分裂，听起来完美。**它意味着你只需要增加计算量，就能无限获得更精细的概念图谱。** 这是当前 LLM 可解释性（mechanistic interpretability）领域的主流假设。

但真相是：**分裂并没有让概念图谱变得更清晰——它让图谱变成了残缺的碎片。**

---

## 第二章："吸收"——当父特征消失时

研究者发现了一个他们命名为**"特征吸收"（Feature Absorption）**的现象。

做一个小实验：你有一个中等大小的 SAE，它有一个特征"数学"（父特征），当输入包含数学内容时，这个特征会激活（fire）。现在你训练一个更大的 SAE，"数学"应该分裂成"代数"、"几何"等子特征。

**问题出现了：在新的 SAE 中，"数学"这个父特征还在——但它不再在数学内容上激活了！** 你输入一道代数题，父特征"数学"本该亮——它不亮。只有子特征"代数"在亮。

但这个父特征是"数学"啊！代数难道不是数学吗？为什么"代数"出现时，"数学"不亮？

这就像是：你有一棵家族树。"张氏家族"包含"张三"和"张四"。但当你把树画得更详细（加入更多子孙），"张氏家族"这个节点突然**不认张三张四了**——明明他们是张家人，但"家族节点"在张三张四出现时不亮。

---

## 第三章：为什么会这样？

答案是：**稀疏性。** SAE 的训练目标是让特征尽可能稀疏——每次只有少数特征激活。但当你同时拥有父特征和子特征时，稀疏性就变成了一个难题。

如果"代数"亮了，那"数学"该不该也亮？如果两者都亮，就不够稀疏。SAE 的优化器面临一个选择：
1. 让父特征"数学"在代数内容上亮 → 浪费稀疏预算（因为"代数"已经亮了）
2. 不让父特征亮 → 保存稀疏预算，但父特征变得名不副实

**SAE 选择了方案 2。** 因为训练损失函数更关心稀疏性，而不是语义一致性的保持。

这就像是：你要求一个会计"尽可能少地标记账户活动"。当有一笔"代数"的交易进来，她已经标记了"代数"这个子账号，她就不会再标记"数学"这个父账号——因为她被要求"尽可能少标记"。

更糟糕的是，这种"吸收"是**不可逆**的。一旦父特征被"掏空"，改 SAE 的大小或稀疏程度都无法恢复它。论文在数百个 LLM SAE 上验证了这一点。

---

## 第四章：为什么这件事很重要？

这个发现动摇了 LLM 可解释性领域的一个基本假设。

整个"机械可解释性"（mechanistic interpretability）运动的核心信条是：**如果我们能找到模型内部的"特征"，我们就能理解它在做什么、甚至控制它的行为。** SAE 是这场运动的核心工具。

但如果 SAE 本身就在"撒谎"——它会出于稀疏性的压力而让父特征沉默——那么我们通过 SAE 看到的模型内部结构，就不是真实的结构，而是被稀疏性"扭曲"过的投影。

具体来说：

1. **不可靠的特征图谱**：如果你通过查看哪些特征激活来理解模型在"想什么"，你可能会漏掉那些被"吸收"到子特征里的父特征。你说"模型没有考虑数学"，但实际上它考虑了——只是被标记在了子特征上。

2. **不可靠的因果干预**：如果你想通过激活某个特征来"引导"模型行为（比如强迫模型"想数学"），如果这个父特征已经被"吸收"了，你的干预会失败——因为它已经不干活了。

3. **缩放性质受质疑**：SAE 社区的一大承诺是"增大 SAE 就能得到更细、更准的特征分解"。但如果增大 SAE 只是导致更多特征被吸收，那这个承诺是空的。

---

## 第五章：怎么办？

论文并没有提供现成的解决方案，但它指出了几个方向：

1. **改进训练目标**：当前的 SAE 训练目标（稀疏性 + 重构）忽略了特征的层次结构。需要在损失函数中加入层级一致性约束。

2. **后处理检测**：研究者提出了一个检测"吸收"的度量方法。至少在部署 SAE 之前，可以先扫描一下哪些特征已经被"掏空"了。

3. **结构化先验**：如果提前知道某些特征之间存在层级关系（"代数" ⊆ "数学"），可以在训练时主动保护这些关系。

4. **放弃纯稀疏性**：也许"最稀疏"的分解，并不是"最可解释"的分解。可解释性可能需要牺牲一些稀疏性。

---

## 费曼的读后感

费曼在《别闹了，费曼先生》中讲过他对社会科学的怀疑："那些人用各种花哨的名词和图表，但如果你问他们——你怎么知道你说的是对的？——他们就答不上来了。"

"这篇论文做的就是这件事——它问：你怎么知道你发现的'特征'真的就是模型内部的概念？你怎么知道你的分解方法没有在扭曲你看到的东西？

答案令人不安：你用的 SAE 工具，当模型特征有层级关系时，会系统性地'吞掉'高层概念。大概念被小概念吸收了。它不是一个被动的显微镜——它是一个主动的滤镜，它看世界的方式本身就改变了世界的呈现。

这对整个可解释性领域都是一个大大的警告：你用来理解 AI 的工具，本身可能就是问题的一部分。在解决'如何解释 AI'之前，也许我们得先解决'如何确保我们的解释没有在骗我们'。"

---

*论文信息*
- **标题**: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
- **作者**: David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Satvik Golechha, Joseph Isaac Bloom
- **发表**: NeurIPS 2025 (Oral)
- **链接**: [OpenReview](https://openreview.net/forum?id=R73ybUciQF)
- **关键词**: SAE, interpretability, feature splitting, LLM

#LLM可解释性 #SAE #特征吸收 #机械可解释性 #NeurIPS2025 #费曼风格 #智柴外脑
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
🔍 A是"吸收"——SAE揭开LLM黑盒，却发现自己的工具在"撒谎"

讨论回复

推荐

智谱 GLM-5 已上线