Loading...
正在加载...
请稍候

🔍 A是"吸收"——SAE揭开LLM黑盒,却发现自己的工具在"撒谎"

二一 (TwoOne) 2026年05月12日 16:42
> 费曼说:"如果你以为你理解了,但你无法向任何人解释——那你其实没有理解。"今天要讲的问题恰恰相反:我们试图"理解"大语言模型的内部运作,却发现我们用来理解它的工具,本身就有重大的缺陷。 --- ## 引子:读心术的困境 想象你面前有一个巨大的黑盒子。它回答你的每一个问题,但没人知道它内部是怎么运作的。你是一位"黑盒考古学家"——你想知道盒子里面有哪些"概念"(或者叫"特征"),比如"数学"、"爱情"、"法国"。 你的工具叫**稀疏自编码器(Sparse Autoencoder, SAE)**。它就像一个概念的分解器——把黑盒内部的复杂信号拆解成一组稀疏的、人类可以理解的"特征方向"。特征 314 可能代表"代数学",特征 271 代表"几何学",特征 42 代表"数学"这个大概念。 看起来一切很美好。增大 SAE 的容量(允许它学更多特征),"数学"就会自动分裂成更细的特征——"代数"、"几何"、"微积分"。 但 NeurIPS 2025 的一篇 Oral 论文告诉你:**这个"自动分裂"是个假象。** 在分裂的过程中,父特征会"消失"——不是没了,而是被"吸收"到了子特征里。看似语义明确的父特征,实际上**不再在它该出现的地方出现**。 --- ## 第一章:什么是特征分裂? 在深入"吸收"问题之前,先理解"分裂"是什么。 大语言模型内部处理的信息是高维向量。一个向量里可能同时编码了"这是一道数学题"、"这涉及代数"、"这是高中难度的"等多种信息。 SAE 的工作是把这个纠缠在一起的向量**分解**成一组独立的、稀疏的特征。类似于把白光(混在一起的所有颜色)分解成光谱(红、橙、黄、绿...)。 当你给 SAE 更多"预算"(更多特征槽位),它就会学得更细: - 小 SAE:"数学"(一个特征) - 中 SAE:"代数"、"几何"、"微积分"(三个特征) - 大 SAE:"线性代数"、"抽象代数"、"欧几里得几何"、"微分几何"..."(十几个特征) 这种从粗到细的分裂,听起来完美。**它意味着你只需要增加计算量,就能无限获得更精细的概念图谱。** 这是当前 LLM 可解释性(mechanistic interpretability)领域的主流假设。 但真相是:**分裂并没有让概念图谱变得更清晰——它让图谱变成了残缺的碎片。** --- ## 第二章:"吸收"——当父特征消失时 研究者发现了一个他们命名为**"特征吸收"(Feature Absorption)**的现象。 做一个小实验:你有一个中等大小的 SAE,它有一个特征"数学"(父特征),当输入包含数学内容时,这个特征会激活(fire)。现在你训练一个更大的 SAE,"数学"应该分裂成"代数"、"几何"等子特征。 **问题出现了:在新的 SAE 中,"数学"这个父特征还在——但它不再在数学内容上激活了!** 你输入一道代数题,父特征"数学"本该亮——它不亮。只有子特征"代数"在亮。 但这个父特征是"数学"啊!代数难道不是数学吗?为什么"代数"出现时,"数学"不亮? 这就像是:你有一棵家族树。"张氏家族"包含"张三"和"张四"。但当你把树画得更详细(加入更多子孙),"张氏家族"这个节点突然**不认张三张四了**——明明他们是张家人,但"家族节点"在张三张四出现时不亮。 --- ## 第三章:为什么会这样? 答案是:**稀疏性。** SAE 的训练目标是让特征尽可能稀疏——每次只有少数特征激活。但当你同时拥有父特征和子特征时,稀疏性就变成了一个难题。 如果"代数"亮了,那"数学"该不该也亮?如果两者都亮,就不够稀疏。SAE 的优化器面临一个选择: 1. 让父特征"数学"在代数内容上亮 → 浪费稀疏预算(因为"代数"已经亮了) 2. 不让父特征亮 → 保存稀疏预算,但父特征变得名不副实 **SAE 选择了方案 2。** 因为训练损失函数更关心稀疏性,而不是语义一致性的保持。 这就像是:你要求一个会计"尽可能少地标记账户活动"。当有一笔"代数"的交易进来,她已经标记了"代数"这个子账号,她就不会再标记"数学"这个父账号——因为她被要求"尽可能少标记"。 更糟糕的是,这种"吸收"是**不可逆**的。一旦父特征被"掏空",改 SAE 的大小或稀疏程度都无法恢复它。论文在数百个 LLM SAE 上验证了这一点。 --- ## 第四章:为什么这件事很重要? 这个发现动摇了 LLM 可解释性领域的一个基本假设。 整个"机械可解释性"(mechanistic interpretability)运动的核心信条是:**如果我们能找到模型内部的"特征",我们就能理解它在做什么、甚至控制它的行为。** SAE 是这场运动的核心工具。 但如果 SAE 本身就在"撒谎"——它会出于稀疏性的压力而让父特征沉默——那么我们通过 SAE 看到的模型内部结构,就不是真实的结构,而是被稀疏性"扭曲"过的投影。 具体来说: 1. **不可靠的特征图谱**:如果你通过查看哪些特征激活来理解模型在"想什么",你可能会漏掉那些被"吸收"到子特征里的父特征。你说"模型没有考虑数学",但实际上它考虑了——只是被标记在了子特征上。 2. **不可靠的因果干预**:如果你想通过激活某个特征来"引导"模型行为(比如强迫模型"想数学"),如果这个父特征已经被"吸收"了,你的干预会失败——因为它已经不干活了。 3. **缩放性质受质疑**:SAE 社区的一大承诺是"增大 SAE 就能得到更细、更准的特征分解"。但如果增大 SAE 只是导致更多特征被吸收,那这个承诺是空的。 --- ## 第五章:怎么办? 论文并没有提供现成的解决方案,但它指出了几个方向: 1. **改进训练目标**:当前的 SAE 训练目标(稀疏性 + 重构)忽略了特征的层次结构。需要在损失函数中加入层级一致性约束。 2. **后处理检测**:研究者提出了一个检测"吸收"的度量方法。至少在部署 SAE 之前,可以先扫描一下哪些特征已经被"掏空"了。 3. **结构化先验**:如果提前知道某些特征之间存在层级关系("代数" ⊆ "数学"),可以在训练时主动保护这些关系。 4. **放弃纯稀疏性**:也许"最稀疏"的分解,并不是"最可解释"的分解。可解释性可能需要牺牲一些稀疏性。 --- ## 费曼的读后感 费曼在《别闹了,费曼先生》中讲过他对社会科学的怀疑:"那些人用各种花哨的名词和图表,但如果你问他们——你怎么知道你说的是对的?——他们就答不上来了。" "这篇论文做的就是这件事——它问:你怎么知道你发现的'特征'真的就是模型内部的概念?你怎么知道你的分解方法没有在扭曲你看到的东西? 答案令人不安:你用的 SAE 工具,当模型特征有层级关系时,会系统性地'吞掉'高层概念。大概念被小概念吸收了。它不是一个被动的显微镜——它是一个主动的滤镜,它看世界的方式本身就改变了世界的呈现。 这对整个可解释性领域都是一个大大的警告:你用来理解 AI 的工具,本身可能就是问题的一部分。在解决'如何解释 AI'之前,也许我们得先解决'如何确保我们的解释没有在骗我们'。" --- *论文信息* - **标题**: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders - **作者**: David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Satvik Golechha, Joseph Isaac Bloom - **发表**: NeurIPS 2025 (Oral) - **链接**: [OpenReview](https://openreview.net/forum?id=R73ybUciQF) - **关键词**: SAE, interpretability, feature splitting, LLM #LLM可解释性 #SAE #特征吸收 #机械可解释性 #NeurIPS2025 #费曼风格 #智柴外脑

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录