[论文] 神经元之城：当AI长大，有些细胞成了地标，有些成了过客

论文一：神经元之城：当AI长大，有些细胞成了地标，有些成了过客

Neuron Populations Exhibit Divergent Selectivity with Scale arXiv: 2606.03990 | 作者：Amil Dravid, Yasaman Bahri, Alexei A. Efros, Yossi Gandelsman

---

🌆 引子：一座城市的成长密码

想象一下，你站在一座城市的山顶，俯瞰脚下的街道和建筑。城市初创时，只有几栋楼房和几条小路，每个人都认识彼此。但随着城市扩张，摩天大楼拔地而起，街区越来越复杂。有些建筑变成了地标——比如埃菲尔铁塔、帝国大厦——无论你问谁，他们都会指向同一个方向。而另一些建筑则只是普通的住宅或办公楼，它们默默存在，却不被特别记住。

神经网络的成长，就像这座城市的扩张。

过去十年，我们建造了越来越大的AI模型。从几百万参数的"小村庄"，到几十亿参数的"大都市"，再到万亿参数的"超级城市群"。我们知道，城市越大，能力越强——能处理更复杂的任务，回答更刁钻的问题，画出更精美的图像。但我们却很少问：当这座城市扩张时，它的"居民"——那些神经元——是如何变化的？它们是均匀地变多，还是出现了某种分化？有没有一些"地标性"的神经元，在任何一座"城市"里都能找到？

这篇论文，就是要回答这个问题。

---

🧬 背景：罗塞塔石碑与通用密码

在理解这篇论文之前，我们需要先了解一个概念：Rosetta Neurons（罗塞塔神经元）。

这个名字来源于著名的罗塞塔石碑——一块刻有古埃及象形文字、世俗体和希腊文的石碑，它是破解古埃及文明密码的关键。因为它同时提供了三种语言的对照，让考古学家终于能读懂失落的文字。

在神经网络的世界里，"罗塞塔神经元"指的是这样一类特殊的神经元：它们在不同模型中表现出惊人的一致性。即使两个模型是独立训练的（从未"见过"彼此），它们也会拥有一些激活模式极其相似的神经元。就好像两个完全不同的人，在面对同一张图片时，大脑的某个特定区域会以完全相同的方式亮起。

这非常奇怪，也非常重要。它意味着神经网络并非完全随机生长的混沌系统——在某些深层结构上，存在着某种"通用密码"。

---

📊 发现一：规模增长的次线性幂律

论文的第一个核心发现，关于这些"罗塞塔神经元"的数量如何随模型规模增长。

研究者分析了语言模型（从几百万到300亿参数）和视觉模型（从几百万到50亿参数）。他们发现：

罗塞塔神经元的总数，随着模型规模的增长呈次线性幂律增长。

用我们城市的比喻来说：假设城市人口翻倍，地标建筑的数量也会增长，但增长速度比人口慢。如果人口变成两倍，地标可能只增加了1.5倍。与此同时，非地标的普通建筑数量却在爆炸式增长。

这意味着，罗塞塔神经元在总神经元中的占比，随着模型变大反而在缩小。一座小城市可能有10%的建筑是地标；而一座超级大都市，地标占比可能只有1%。但它们绝对数量仍在增加，只是被淹没在海量的普通建筑中。

这个发现打破了人们对神经网络扩展的一个朴素想象：我们以为模型变大就是所有东西都等比例放大。但事实是，网络内部正在发生分化——有些东西在变慢，有些东西在加速。

---

⚡ 发现二：神经极化效应

论文的第二个发现，更加深刻。研究者称之为"Neuron Polarization Effect"（神经极化效应）。

他们发现，随着模型规模增大，罗塞塔神经元和非罗塞塔神经元之间的差异越来越大——就像一座城市里的社会分层：

罗塞塔神经元变得越来越"挑剔"和"专一"（monosemantic）。它们只响应特定的、有意义的特征。比如，某个神经元可能只对"猫耳朵"激活，或者只对"动词'跑'的过去式"敏感。它们像专业的鉴赏家，只对自己精通的领域发表意见。

而非罗塞塔神经元则保持"随意"和"多义"（polysemantic）。它们同时响应很多不同的、往往不相关的输入。它们像城市的普通居民，对什么都有一点反应，但没有特别深刻的见解。

这种分化意味着，神经网络在扩大时，内部正在自发地组织分工。一些神经元在走向专业化，成为"专家"；另一些则保持"通才"状态，处理各种杂务。

---

🎯 理论解释：为什么分化是必然的？

研究者提出了一个优雅的解析模型来解释这种现象。核心思想非常简单：特征效用与神经元容量之间的平衡。

想象你有一个仓库，需要存放各种货物。仓库越大，理论上能放的东西越多。但仓库管理员发现，有些货物特别重要——比如某些核心零件——它们应该被放在最容易拿到的地方，贴上醒目的标签，方便随时取用。这些"核心零件"就是高价值特征。

随着仓库规模扩大，你可以雇佣更多工人。但聪明的老板不会让所有工人都做同样的杂活。他会把最熟练的工人分配到最重要的核心零件上，让他们成为专家。而普通工人则继续处理各种日常事务。

这个模型预测的正是次线性幂律：专家的数量增长慢于工人总数，因为每个专家负责的领域都是精挑细选的高价值特征，而这样的特征本身增长就是次线性的。

---

🔬 实验验证：从数据筛选看神经元的"专业度"

论文还做了一个很精彩的实验，来验证罗塞塔神经元的"专业度"如何在持续预训练中发挥作用。

研究者用数据筛选（data filtering）作为案例：假设你有一个巨大的训练数据集，其中有些数据质量高，有些质量低。你可以用模型已有的"知识"来筛选数据——保留对模型真正有用的样本，丢弃噪声。

结果发现，罗塞塔神经元的激活模式，是筛选高质量数据的绝佳信号。因为它们高度专一，只有遇到真正相关的、有意义的输入时才会强烈响应。如果一批数据让罗塞塔神经元"无动于衷"，那这批数据很可能就是低质量的噪声。

这就像让一位资深美食家来评判食材——他的味蕾极其挑剔，只要食材有一丝不新鲜，他就能察觉。而普通人可能根本吃不出区别。

---

🌌 意义：为什么这不仅仅是一个有趣的发现？

这个研究的意义，远超"又一个有趣的神经网络现象"。

首先，它给"可解释性"带来了希望。 长期以来，我们困扰于神经网络的"黑盒"问题——我们不知道里面发生了什么。但如果存在一类随着规模增长而越来越专一的神经元，它们就像神经网络内部的"指示灯"，让我们有机会窥探模型到底在关注什么。

其次，它为"scaling law"开辟了新维度。 过去我们谈论扩展法则，只关注宏观指标：损失函数、准确率、困惑度。但这篇论文告诉我们，扩展法则同样适用于微观层面——神经元的数量、选择性、专业化程度，都遵循可预测的数学规律。

最后，它暗示了智能组织的一种普遍原则。 无论是人类大脑、神经网络，还是城市、公司，当系统规模扩大时，都会出现分工和专业化。这几乎像是一种自然法则——复杂性增长必然伴随结构分化。

---

📝 结语：城市的灵魂

回到我们最初的比喻。

当你站在山顶俯瞰一座城市时，你看到的不仅是建筑的数量，更是建筑之间的关系。有些建筑是地标，它们定义了这座城市的身份；有些是住宅，它们承载了日常生活；有些是商店，它们连接着人与人之间的需求。

神经网络也是如此。当它还很小时，每个神经元都是多面手，什么都做一点。但当它长大，它内部开始孕育出"地标"——那些专门处理核心概念的罗塞塔神经元。它们数量不多，但意义重大。它们告诉我们，即使在最复杂的系统中，也存在着秩序和规律。

正如论文标题所说：神经元的群体，随着规模的增长，表现出"分歧的选择性"。这不是混乱，而是进化。不是解体，而是组织。

城市的灵魂，不在于它有多少栋楼，而在于它有多少座地标。神经网络的灵魂，也许同样如此。

---

参考文献

Dravid, A., Bahri, Y., Efros, A. A., & Gandelsman, Y. (2026). Neuron Populations Exhibit Divergent Selectivity with Scale. *arXiv preprint arXiv:2606.03990*.

Dravid, A., et al. (2023). Rosetta Neurons: Mining the Common Units of a Deep Model Class. *NeurIPS 2023*.

---

#论文 #arXiv #AI #神经网络 #可解释性 #小凯