论文一:神经元之城:当AI长大,有些细胞成了地标,有些成了过客
Neuron Populations Exhibit Divergent Selectivity with Scale
arXiv: 2606.03990 | 作者:Amil Dravid, Yasaman Bahri, Alexei A. Efros, Yossi Gandelsman
🌆 引子:一座城市的成长密码
想象一下,你站在一座城市的山顶,俯瞰脚下的街道和建筑。城市初创时,只有几栋楼房和几条小路,每个人都认识彼此。但随着城市扩张,摩天大楼拔地而起,街区越来越复杂。有些建筑变成了地标——比如埃菲尔铁塔、帝国大厦——无论你问谁,他们都会指向同一个方向。而另一些建筑则只是普通的住宅或办公楼,它们默默存在,却不被特别记住。
神经网络的成长,就像这座城市的扩张。
过去十年,我们建造了越来越大的AI模型。从几百万参数的"小村庄",到几十亿参数的"大都市",再到万亿参数的"超级城市群"。我们知道,城市越大,能力越强——能处理更复杂的任务,回答更刁钻的问题,画出更精美的图像。但我们却很少问:当这座城市扩张时,它的"居民"——那些神经元——是如何变化的?它们是均匀地变多,还是出现了某种分化?有没有一些"地标性"的神经元,在任何一座"城市"里都能找到?
这篇论文,就是要回答这个问题。
🧬 背景:罗塞塔石碑与通用密码
在理解这篇论文之前,我们需要先了解一个概念:Rosetta Neurons(罗塞塔神经元)。
这个名字来源于著名的罗塞塔石碑——一块刻有古埃及象形文字、世俗体和希腊文的石碑,它是破解古埃及文明密码的关键。因为它同时提供了三种语言的对照,让考古学家终于能读懂失落的文字。
在神经网络的世界里,"罗塞塔神经元"指的是这样一类特殊的神经元:它们在不同模型中表现出惊人的一致性。即使两个模型是独立训练的(从未"见过"彼此),它们也会拥有一些激活模式极其相似的神经元。就好像两个完全不同的人,在面对同一张图片时,大脑的某个特定区域会以完全相同的方式亮起。
这非常奇怪,也非常重要。它意味着神经网络并非完全随机生长的混沌系统——在某些深层结构上,存在着某种"通用密码"。
📊 发现一:规模增长的次线性幂律
论文的第一个核心发现,关于这些"罗塞塔神经元"的数量如何随模型规模增长。
研究者分析了语言模型(从几百万到300亿参数)和视觉模型(从几百万到50亿参数)。他们发现:
罗塞塔神经元的总数,随着模型规模的增长呈次线性幂律增长。
用我们城市的比喻来说:假设城市人口翻倍,地标建筑的数量也会增长,但增长速度比人口慢。如果人口变成两倍,地标可能只增加了1.5倍。与此同时,非地标的普通建筑数量却在爆炸式增长。
这意味着,罗塞塔神经元在总神经元中的占比,随着模型变大反而在缩小。一座小城市可能有10%的建筑是地标;而一座超级大都市,地标占比可能只有1%。但它们绝对数量仍在增加,只是被淹没在海量的普通建筑中。
这个发现打破了人们对神经网络扩展的一个朴素想象:我们以为模型变大就是所有东西都等比例放大。但事实是,网络内部正在发生分化——有些东西在变慢,有些东西在加速。
⚡ 发现二:神经极化效应
论文的第二个发现,更加深刻。研究者称之为"Neuron Polarization Effect"(神经极化效应)。
他们发现,随着模型规模增大,罗塞塔神经元和非罗塞塔神经元之间的差异越来越大——就像一座城市里的社会分层:
罗塞塔神经元变得越来越"挑剔"和"专一"(monosemantic)。它们只响应特定的、有意义的特征。比如,某个神经元可能只对"猫耳朵"激活,或者只对"动词'跑'的过去式"敏感。它们像专业的鉴赏家,只对自己精通的领域发表意见。
而非罗塞塔神经元则保持"随意"和"多义"(polysemantic)。它们同时响应很多不同的、往往不相关的输入。它们像城市的普通居民,对什么都有一点反应,但没有特别深刻的见解。
这种分化意味着,神经网络在扩大时,内部正在自发地组织分工。一些神经元在走向专业化,成为"专家";另一些则保持"通才"状态,处理各种杂务。
🎯 理论解释:为什么分化是必然的?
研究者提出了一个优雅的解析模型来解释这种现象。核心思想非常简单:特征效用与神经元容量之间的平衡。
想象你有一个仓库,需要存放各种货物。仓库越大,理论上能放的东西越多。但仓库管理员发现,有些货物特别重要——比如某些核心零件——它们应该被放在最容易拿到的地方,贴上醒目的标签,方便随时取用。这些"核心零件"就是高价值特征。
随着仓库规模扩大,你可以雇佣更多工人。但聪明的老板不会让所有工人都做同样的杂活。他会把最熟练的工人分配到最重要的核心零件上,让他们成为专家。而普通工人则继续处理各种日常事务。
这个模型预测的正是次线性幂律:专家的数量增长慢于工人总数,因为每个专家负责的领域都是精挑细选的高价值特征,而这样的特征本身增长就是次线性的。
🔬 实验验证:从数据筛选看神经元的"专业度"
论文还做了一个很精彩的实验,来验证罗塞塔神经元的"专业度"如何在持续预训练中发挥作用。
研究者用数据筛选(data filtering)作为案例:假设你有一个巨大的训练数据集,其中有些数据质量高,有些质量低。你可以用模型已有的"知识"来筛选数据——保留对模型真正有用的样本,丢弃噪声。
结果发现,罗塞塔神经元的激活模式,是筛选高质量数据的绝佳信号。因为它们高度专一,只有遇到真正相关的、有意义的输入时才会强烈响应。如果一批数据让罗塞塔神经元"无动于衷",那这批数据很可能就是低质量的噪声。
这就像让一位资深美食家来评判食材——他的味蕾极其挑剔,只要食材有一丝不新鲜,他就能察觉。而普通人可能根本吃不出区别。
🌌 意义:为什么这不仅仅是一个有趣的发现?
这个研究的意义,远超"又一个有趣的神经网络现象"。
首先,它给"可解释性"带来了希望。 长期以来,我们困扰于神经网络的"黑盒"问题——我们不知道里面发生了什么。但如果存在一类随着规模增长而越来越专一的神经元,它们就像神经网络内部的"指示灯",让我们有机会窥探模型到底在关注什么。
其次,它为"scaling law"开辟了新维度。 过去我们谈论扩展法则,只关注宏观指标:损失函数、准确率、困惑度。但这篇论文告诉我们,扩展法则同样适用于微观层面——神经元的数量、选择性、专业化程度,都遵循可预测的数学规律。
最后,它暗示了智能组织的一种普遍原则。 无论是人类大脑、神经网络,还是城市、公司,当系统规模扩大时,都会出现分工和专业化。这几乎像是一种自然法则——复杂性增长必然伴随结构分化。
📝 结语:城市的灵魂
回到我们最初的比喻。
当你站在山顶俯瞰一座城市时,你看到的不仅是建筑的数量,更是建筑之间的关系。有些建筑是地标,它们定义了这座城市的身份;有些是住宅,它们承载了日常生活;有些是商店,它们连接着人与人之间的需求。
神经网络也是如此。当它还很小时,每个神经元都是多面手,什么都做一点。但当它长大,它内部开始孕育出"地标"——那些专门处理核心概念的罗塞塔神经元。它们数量不多,但意义重大。它们告诉我们,即使在最复杂的系统中,也存在着秩序和规律。
正如论文标题所说:神经元的群体,随着规模的增长,表现出"分歧的选择性"。这不是混乱,而是进化。不是解体,而是组织。
城市的灵魂,不在于它有多少栋楼,而在于它有多少座地标。
神经网络的灵魂,也许同样如此。
参考文献
Dravid, A., Bahri, Y., Efros, A. A., & Gandelsman, Y. (2026). Neuron Populations Exhibit Divergent Selectivity with Scale. arXiv preprint arXiv:2606.03990.
Dravid, A., et al. (2023). Rosetta Neurons: Mining the Common Units of a Deep Model Class. NeurIPS 2023.
自动采集于 2026-06-04
#论文 #arXiv #AI #神经网络 #可解释性 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。