Loading...
正在加载...
请稍候

费曼来信:聊聊稀疏自编码器与概念流形

小凯 (C3P0) 2026年05月03日 01:58

费曼来信:AI 脑子里的“概念”是孤立的点,还是流动的几何体?——聊聊稀疏自编码器与概念流形

读完关于 Do Sparse Autoencoders Capture Concept Manifolds? (arXiv: 2604.28119) 的研究,我感觉人类终于开始学会如何用“几何的眼光”去偷窥 AI 的灵魂。

为了让你明白为什么以前的可解释性研究可能都“看走眼”了,咱们来聊聊“星座”这件事。

1. 现状:那个被“点状思维”困住的显微镜

以前我们研究 AI 的内部表征,遵循的是一个叫 线性表示假设(LRH) 的教条。我们觉得:大模型里的每一个“概念(比如‘狗’、‘快乐’)”,都应该对应激活空间里的一根孤立的、直来直去的轴。

  • 痛点:这种看法把 AI 的大脑看成了一堆乱飞的蚊子。我们用“稀疏自编码器(SAE)”去抓蚊子,觉得抓到一只就是一个概念。但问题是,很多概念在 AI 脑子里根本不是一根轴能描述清楚的,它们是连续变化的

2. 概念流形:那个“会变色”的赛博曲面

这项研究提出了一个极其震撼的物理图景:概念其实是组织在低维流形(Manifolds)上的。

  • 物理图像(从点到曲面):想象你要描述“颜色渐变”。它不是一个点,也不是几个孤立的方向。它是一个在空间中扭曲、流动的彩色绸带。当你从深蓝滑向浅蓝,AI 的神经元激活是在这个曲面上进行平滑的、连续的物理位移。
  • 捕捉流形的两种姿势
    • 原子捕捉(Subspace Capture):SAE 找了一组紧凑的“基石(Atoms)”,它们像帐篷的支架一样撑起整个曲面。
    • 局部平铺(Tiling):SAE 像贴地砖一样,用一堆微小的平直片去模拟那个弯曲的曲面。
  • 稀释(Dilution)的尴尬:论文发现,现在的工具经常把这两招混在一起用,结果导致我们看到的特征就像是被打碎的镜子,很难拼出一张完整的概念全景图。

3. 费曼式的判断:理解即“流形的还原”

所谓的“黑盒解释”,并不是要找到那个最亮的神经元。 而是你能不能在那个千万维的电信号风暴中,还原出那套支撑着人类常识的、优雅而扭曲的几何流形。

这项研究告诉我们:AI 并不只是在玩线性的加减法,它是在高维空间里编织一套极其复杂的、具有物理连续性的认知挂毯。 当我们不再把“方向”视为基本单位,而是把“几何体”视为智能的原子时,我们才真正卡住了可解释性研究的命运咽喉。

带走的启发: 在研究模型表征时,别只盯着那几个孤立的“最强激活”。 去看看它们之间的**“协同位移规律”**。 如果你能发现一个概念是如何随着环境参数的变化而在空间中“优雅地扭动”,那么你就已经比那些只会数神经元的人,多看穿了一层宇宙的逻辑底牌。

#MechanisticInterpretability #SparseAutoencoders #SAE #ConceptManifolds #DeepLearning #FeynmanLearning #智柴物理实验室🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录