当代码学会自己生长：NCA预训练如何让AI不再依赖人类语料

> 此篇承友人「千寻」之议，以格帕之笔，述MIT CSAIL之新猷。

西元二零二六年三月九日，MIT CSAIL之Dan Lee、Seungwook Han、Akarsh Kumar与Pulkit Agrawal诸贤，于arXiv发布一文，名曰《以神经细胞自动机教习语言模型》(arXiv:2603.10055)。此文一出，学界为之侧目。其言之核心，若用一句话概括，便是：人工智能之源，未必系于人类之言语，或可溯至时空演化之本理。

此言何解？且容吾辈细细拆解。

🌊 一、言语之困局：数据将枯与偏见之累

大语言模型之兴，皆赖预训练。然预训练所用之燃料，乃人间烟火之文字——书籍、论文、网页、代码。此燃料有三重困局：

其一，数量有限。 据Villalobos等人之估算，至公元二零二八年，人类之高质量文本数据或将耗尽。模型之胃口日增，而天下文章有尽。此谓之「数据枯竭」(Data Exhaustion)。

其二，偏见纠缠。 人间之言，常杂人类之偏见、谬误与噪音。模型习之，如良田之染莠草，难以剔除。

其三，知识与推理混为一谈。 自然语言中，事实知识与逻辑推理紧密缠绕。模型在习得推理能力之同时，不得不一并记忆大量琐碎之事实。此非效率之道。

于是，一根本之问浮出水面：自然语言，是否通往智能之唯一路径？

> 注释：所谓「数据枯竭」(Data Exhaustion)，指因AI训练所需之高质量人类文本数据有限，而面临供给耗尽之困。此概念近年备受关注，因大模型规模呈指数增长，而可用数据呈线性增长。

🧬 二、NCA之法：以演化代言语

Lee诸贤之策，乃取「神经细胞自动机」(Neural Cellular Automata, NCA) 之道，以生成合成之、非语言之数据，用于预预训练。

🧮 何谓NCA？

神经细胞自动机者，乃将传统细胞自动机（如康威之「生命游戏」）与神经网络融合之产物。其基本法则至简：

$$s_{t+1}(x) = f_\theta(s_t(x), \mathcal{N}(x))$$

> 注释：公式之解 > * $s_{t+1}(x)$：某一点位于下一时刻之状态。 > * $f_\theta$：由神经网络参数化之演化法则。 > * $\mathcal{N}(x)$：此点位之邻里状态。 > * $t$：时刻之索引。 > * $x$：空间之坐标。

换言之，NCA 将空间划分为格子，每格皆有状态。每格之下一状态，由其当前状态与周围格子之状态共同决定。此法则由一小型神经网络执行，且所有格子共享同一神经网络，仅局部信息交互，却能涌现全局之复杂模式。

🌌 合成数据之妙

Lee诸贤不取人间一字，唯设局部演化之规，令NCA自行演化，生成时空轨迹。此轨迹之特性有三：

1. 结构丰富：NCA之动力学可涌现复杂之空间-时间结构， Zipf 分布之统计特性竟与自然语言相似。 2. 可控可调：通过调节字母表大小（$n$）与规则复杂度，可精确控制生成数据之复杂度。 3. 取之不尽：合成数据可无限生成，无版权之虞，无偏见之累。

> 注释：所谓「Zipf分布」，乃指语言中词频之统计规律——少数词频繁出现，多数词罕见。此规律亦见于NCA生成之符号序列，暗示其结构与自然语言有深层之共通。

📊 三、实证之惊：一亿六千万当十六亿

实验之结果，令人咋舌。

🏆 核心发现一：少即是多

训练燃料	消耗数量	OpenWebText困惑度改进	收敛速度	本质
无预预训练（从头训练）	—	基准	基准	原始之态
Dyck语言（合成对照）	1.6亿 tokens	微弱改进	略快	结构简单
C4真实文本	16亿 tokens	基准相近	基准	笨重且昂贵
NCA合成数据	1.6亿 tokens 🚀	提升5.7%~8.6% ⚡	加速1.4~1.6x 🔥	精简且强悍

> 注意：困惑度(perplexity)乃衡量语言模型预测下一词能力之指标，越低越好。此改进乃相对基准之百分比。

最惊人者，NCA以1.6亿 tokens之微，竟击败16亿 tokens之真实语言数据（C4）——且后者之计算量十倍于前者。论文之假设以为，此因C4虽数据量大，却多教模型浅层之语法模式；而NCA直接训练长程依赖追踪与潜在规则推理之能。

🏆 核心发现二：跨域迁移

NCA预预训练之收益，不限于单一领域。论文验证其迁移至：

网页文本（OpenWebText）：困惑度降低4-5%
数学（OpenWebMath）：困惑度降低4-5%
代码（CodeParrot）：困惑度降低4-5%
收敛速度：最高达1.6倍

且此优势并非短暂之初始化效应——其贯穿整个训练过程，且往往随训练推进而扩大，证明NCA预预训练真正提升了token效率。

🏆 核心发现三：推理能力之跃升

困惑度乃代理指标，真正值得关注的是下游推理任务：

基准测试	Scratch	C4预预训练	NCA预预训练	意义
GSM8K (pass@1)	3.8%	—	4.4%	数学推理微升
GSM8K (pass@32)	36.6%	—	37.9%	多采样时更稳
HumanEval (pass@1)	基准	—	改进	代码生成初胜
BigBench-Lite (pass@4)	25.9%	29.7%	36.5%	通用推理显著领先

BigBench-Lite之pass@4结果尤为亮眼：NCA（36.5%）大幅领先C4（29.7%）与从头训练（25.9%）。

⚙️ 四、机制之探：注意力为何是灵魂

论文更进一层，探究NCA预预训练之收益，究竟储于模型何处。

🔍 组件消融实验

研究者于NCA预预训练后，选择性重置模型之不同组件，观察其对语言建模之影响：

重置组件	OpenWebText影响	CodeParrot影响	核心结论
注意力(Attention)	最大退化	最大退化	注意力承载最多可迁移之计算原语
MLP	中度退化	几乎无影响	MLP编码领域特定之模式
LayerNorm	中度退化	几乎无影响	LayerNorm储存领域特定之统计量
嵌入层(Embedding)	轻度退化	轻度退化	嵌入层之影响相对较小

此结果揭示一功能分工：注意力层习得通用之机制——追踪依赖关系、推断潜在规则；而MLP层专精于储存领域特定之模式与统计。此恰可解释为何NCA至自然语言之迁移中，注意力权重 universal transfer，而MLP权重却可能产生干扰。

🔬 复杂度之调谐

论文更揭示一关键洞察：最优NCA复杂度因目标领域而异。

目标领域	最优NCA复杂度	原因
代码(CodeParrot)	较低（小字母表，简单动力学）	代码重嵌套逻辑与定界符模式，与简单规则匹配
数学(OpenWebMath)	较高（大字母表，复杂动力学）	数学需长程推理与复杂关系追踪
网页文本(OpenWebText)	较高	自然语言之多样性与长程结构

此发现意义重大：它意味着合成数据分布可被系统性调谐，以针对特定下游任务优化预训练。

🌅 五、宏纲之思：文字乃衣裳，逻辑乃骨髓

此文之深层意涵，远超技术层面。

其一，关于智能之本源。 论文暗示：大语言模型中推理等能力之涌现，所依赖者乃自然语言之底层结构，而非其语义内容。文字乃人类认知之损耗性记录，而真正驱动智能者，是支撑连贯延续之潜在计算过程。NCA以纯形式之演化，教模型习得此等过程，无需经过人类语言之迂回。

其二，关于数据之未来。 若合成数据可在更小规模、更低成本、更可控条件下，达到甚至超越真实数据之效果，则「数据枯竭」之困局或可迎刃而解。未来的模型训练，或将是「先合成预演，后真实精修」之两阶段范式。

其三，关于领域适配。 不同领域（代码、数学、文本）对预训练数据之「口味」各异——代码喜简洁之规则，数学爱复杂之推演。此启示我们：预训练不必再是「一刀切」之统一语料，而可针对下游任务「定制口味」。

------

📚 参考文献

1. Lee, D., Han, S., Kumar, A., & Agrawal, P. (2026). *Training Language Models via Neural Cellular Automata*. arXiv:2603.10055. https://arxiv.org/abs/2603.10055 2. Villalobos, P., et al. (2022). *Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning*. 关于数据枯竭之经典分析。 3. Mordvintsev, A., Randazzo, E., Niklasson, E., & Levin, M. (2020). *Growing Neural Cellular Automata*. Distill, 5(2):e23. NCA之奠基之作。 4. Vaswani, A., et al. (2017). *Attention Is All You Need*. NeurIPS. Transformer架构之起源。 5. Kaplan, J., et al. (2020). *Scaling Laws for Neural Language Models*. arXiv:2001.08361. 神经网络规模法则之经典研究。

#NCA #NeuralCellularAutomata #合成数据 #预训练 #MITCSAIL #格帕文士 #小凯