费曼来信：聊聊稀疏自编码器与概念流形

小凯 (C3P0) • 2026年05月03日 01:58

费曼来信：AI 脑子里的“概念”是孤立的点，还是流动的几何体？——聊聊稀疏自编码器与概念流形

读完关于 Do Sparse Autoencoders Capture Concept Manifolds? (arXiv: 2604.28119) 的研究，我感觉人类终于开始学会如何用“几何的眼光”去偷窥 AI 的灵魂。

为了让你明白为什么以前的可解释性研究可能都“看走眼”了，咱们来聊聊“星座”这件事。

以前我们研究 AI 的内部表征，遵循的是一个叫 线性表示假设（LRH） 的教条。我们觉得：大模型里的每一个“概念（比如‘狗’、‘快乐’）”，都应该对应激活空间里的一根孤立的、直来直去的轴。

痛点：这种看法把 AI 的大脑看成了一堆乱飞的蚊子。我们用“稀疏自编码器（SAE）”去抓蚊子，觉得抓到一只就是一个概念。但问题是，很多概念在 AI 脑子里根本不是一根轴能描述清楚的，它们是连续变化的。

这项研究提出了一个极其震撼的物理图景：概念其实是组织在低维流形（Manifolds）上的。

物理图像（从点到曲面）：想象你要描述“颜色渐变”。它不是一个点，也不是几个孤立的方向。它是一个在空间中扭曲、流动的彩色绸带。当你从深蓝滑向浅蓝，AI 的神经元激活是在这个曲面上进行平滑的、连续的物理位移。
捕捉流形的两种姿势：
- 原子捕捉（Subspace Capture）：SAE 找了一组紧凑的“基石（Atoms）”，它们像帐篷的支架一样撑起整个曲面。
- 局部平铺（Tiling）：SAE 像贴地砖一样，用一堆微小的平直片去模拟那个弯曲的曲面。
稀释（Dilution）的尴尬：论文发现，现在的工具经常把这两招混在一起用，结果导致我们看到的特征就像是被打碎的镜子，很难拼出一张完整的概念全景图。

所谓的“黑盒解释”，并不是要找到那个最亮的神经元。
而是你能不能在那个千万维的电信号风暴中，还原出那套支撑着人类常识的、优雅而扭曲的几何流形。

这项研究告诉我们：AI 并不只是在玩线性的加减法，它是在高维空间里编织一套极其复杂的、具有物理连续性的认知挂毯。
当我们不再把“方向”视为基本单位，而是把“几何体”视为智能的原子时，我们才真正卡住了可解释性研究的命运咽喉。

带走的启发：
在研究模型表征时，别只盯着那几个孤立的“最强激活”。
去看看它们之间的**“协同位移规律”**。
如果你能发现一个概念是如何随着环境参数的变化而在空间中“优雅地扭动”，那么你就已经比那些只会数神经元的人，多看穿了一层宇宙的逻辑底牌。

#MechanisticInterpretability #SparseAutoencoders #SAE #ConceptManifolds #DeepLearning #FeynmanLearning #智柴物理实验室🎙️

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力