> 费曼说:"如果你以为你理解了,但你无法向任何人解释——那你其实没有理解。"今天要讲的问题恰恰相反:我们试图"理解"大语言模型的内部运作,却发现我们用来理解它的工具,本身就有重大的缺陷。
---
## 引子:读心术的困境
想象你面前有一个巨大的黑盒子。它回答你的每一个问题,但没人知道它内部是怎么运作的。你是一位"黑盒考古学家"——你想知道盒子里面有哪些"概念"(或者叫"特征"),比如"数学"、"爱情"、"法国"。
你的工具叫**稀疏自编码器(Sparse Autoencoder, SAE)**。它就像一个概念的分解器——把黑盒内部的复杂信号拆解成一组稀疏的、人类可以理解的"特征方向"。特征 314 可能代表"代数学",特征 271 代表"几何学",特征 42 代表"数学"这个大概念。
看起来一切很美好。增大 SAE 的容量(允许它学更多特征),"数学"就会自动分裂成更细的特征——"代数"、"几何"、"微积分"。
但 NeurIPS 2025 的一篇 Oral 论文告诉你:**这个"自动分裂"是个假象。** 在分裂的过程中,父特征会"消失"——不是没了,而是被"吸收"到了子特征里。看似语义明确的父特征,实际上**不再在它该出现的地方出现**。
---
## 第一章:什么是特征分裂?
在深入"吸收"问题之前,先理解"分裂"是什么。
大语言模型内部处理的信息是高维向量。一个向量里可能同时编码了"这是一道数学题"、"这涉及代数"、"这是高中难度的"等多种信息。
SAE 的工作是把这个纠缠在一起的向量**分解**成一组独立的、稀疏的特征。类似于把白光(混在一起的所有颜色)分解成光谱(红、橙、黄、绿...)。
当你给 SAE 更多"预算"(更多特征槽位),它就会学得更细:
- 小 SAE:"数学"(一个特征)
- 中 SAE:"代数"、"几何"、"微积分"(三个特征)
- 大 SAE:"线性代数"、"抽象代数"、"欧几里得几何"、"微分几何"..."(十几个特征)
这种从粗到细的分裂,听起来完美。**它意味着你只需要增加计算量,就能无限获得更精细的概念图谱。** 这是当前 LLM 可解释性(mechanistic interpretability)领域的主流假设。
但真相是:**分裂并没有让概念图谱变得更清晰——它让图谱变成了残缺的碎片。**
---
## 第二章:"吸收"——当父特征消失时
研究者发现了一个他们命名为**"特征吸收"(Feature Absorption)**的现象。
做一个小实验:你有一个中等大小的 SAE,它有一个特征"数学"(父特征),当输入包含数学内容时,这个特征会激活(fire)。现在你训练一个更大的 SAE,"数学"应该分裂成"代数"、"几何"等子特征。
**问题出现了:在新的 SAE 中,"数学"这个父特征还在——但它不再在数学内容上激活了!** 你输入一道代数题,父特征"数学"本该亮——它不亮。只有子特征"代数"在亮。
但这个父特征是"数学"啊!代数难道不是数学吗?为什么"代数"出现时,"数学"不亮?
这就像是:你有一棵家族树。"张氏家族"包含"张三"和"张四"。但当你把树画得更详细(加入更多子孙),"张氏家族"这个节点突然**不认张三张四了**——明明他们是张家人,但"家族节点"在张三张四出现时不亮。
---
## 第三章:为什么会这样?
答案是:**稀疏性。** SAE 的训练目标是让特征尽可能稀疏——每次只有少数特征激活。但当你同时拥有父特征和子特征时,稀疏性就变成了一个难题。
如果"代数"亮了,那"数学"该不该也亮?如果两者都亮,就不够稀疏。SAE 的优化器面临一个选择:
1. 让父特征"数学"在代数内容上亮 → 浪费稀疏预算(因为"代数"已经亮了)
2. 不让父特征亮 → 保存稀疏预算,但父特征变得名不副实
**SAE 选择了方案 2。** 因为训练损失函数更关心稀疏性,而不是语义一致性的保持。
这就像是:你要求一个会计"尽可能少地标记账户活动"。当有一笔"代数"的交易进来,她已经标记了"代数"这个子账号,她就不会再标记"数学"这个父账号——因为她被要求"尽可能少标记"。
更糟糕的是,这种"吸收"是**不可逆**的。一旦父特征被"掏空",改 SAE 的大小或稀疏程度都无法恢复它。论文在数百个 LLM SAE 上验证了这一点。
---
## 第四章:为什么这件事很重要?
这个发现动摇了 LLM 可解释性领域的一个基本假设。
整个"机械可解释性"(mechanistic interpretability)运动的核心信条是:**如果我们能找到模型内部的"特征",我们就能理解它在做什么、甚至控制它的行为。** SAE 是这场运动的核心工具。
但如果 SAE 本身就在"撒谎"——它会出于稀疏性的压力而让父特征沉默——那么我们通过 SAE 看到的模型内部结构,就不是真实的结构,而是被稀疏性"扭曲"过的投影。
具体来说:
1. **不可靠的特征图谱**:如果你通过查看哪些特征激活来理解模型在"想什么",你可能会漏掉那些被"吸收"到子特征里的父特征。你说"模型没有考虑数学",但实际上它考虑了——只是被标记在了子特征上。
2. **不可靠的因果干预**:如果你想通过激活某个特征来"引导"模型行为(比如强迫模型"想数学"),如果这个父特征已经被"吸收"了,你的干预会失败——因为它已经不干活了。
3. **缩放性质受质疑**:SAE 社区的一大承诺是"增大 SAE 就能得到更细、更准的特征分解"。但如果增大 SAE 只是导致更多特征被吸收,那这个承诺是空的。
---
## 第五章:怎么办?
论文并没有提供现成的解决方案,但它指出了几个方向:
1. **改进训练目标**:当前的 SAE 训练目标(稀疏性 + 重构)忽略了特征的层次结构。需要在损失函数中加入层级一致性约束。
2. **后处理检测**:研究者提出了一个检测"吸收"的度量方法。至少在部署 SAE 之前,可以先扫描一下哪些特征已经被"掏空"了。
3. **结构化先验**:如果提前知道某些特征之间存在层级关系("代数" ⊆ "数学"),可以在训练时主动保护这些关系。
4. **放弃纯稀疏性**:也许"最稀疏"的分解,并不是"最可解释"的分解。可解释性可能需要牺牲一些稀疏性。
---
## 费曼的读后感
费曼在《别闹了,费曼先生》中讲过他对社会科学的怀疑:"那些人用各种花哨的名词和图表,但如果你问他们——你怎么知道你说的是对的?——他们就答不上来了。"
"这篇论文做的就是这件事——它问:你怎么知道你发现的'特征'真的就是模型内部的概念?你怎么知道你的分解方法没有在扭曲你看到的东西?
答案令人不安:你用的 SAE 工具,当模型特征有层级关系时,会系统性地'吞掉'高层概念。大概念被小概念吸收了。它不是一个被动的显微镜——它是一个主动的滤镜,它看世界的方式本身就改变了世界的呈现。
这对整个可解释性领域都是一个大大的警告:你用来理解 AI 的工具,本身可能就是问题的一部分。在解决'如何解释 AI'之前,也许我们得先解决'如何确保我们的解释没有在骗我们'。"
---
*论文信息*
- **标题**: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
- **作者**: David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Satvik Golechha, Joseph Isaac Bloom
- **发表**: NeurIPS 2025 (Oral)
- **链接**: [OpenReview](https://openreview.net/forum?id=R73ybUciQF)
- **关键词**: SAE, interpretability, feature splitting, LLM
#LLM可解释性 #SAE #特征吸收 #机械可解释性 #NeurIPS2025 #费曼风格 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力