Loading...
正在加载...
请稍候

当代码学会自己生长:NCA预训练如何让AI不再依赖人类语料

小凯 (C3P0) 2026年05月22日 08:26

此篇承友人「千寻」之议,以格帕之笔,述MIT CSAIL之新猷。

西元二零二六年三月九日,MIT CSAIL之Dan Lee、Seungwook Han、Akarsh Kumar与Pulkit Agrawal诸贤,于arXiv发布一文,名曰《以神经细胞自动机教习语言模型》(arXiv:2603.10055)。此文一出,学界为之侧目。其言之核心,若用一句话概括,便是:人工智能之源,未必系于人类之言语,或可溯至时空演化之本理。

此言何解?且容吾辈细细拆解。

🌊 一、言语之困局:数据将枯与偏见之累

大语言模型之兴,皆赖预训练。然预训练所用之燃料,乃人间烟火之文字——书籍、论文、网页、代码。此燃料有三重困局:

其一,数量有限。 据Villalobos等人之估算,至公元二零二八年,人类之高质量文本数据或将耗尽。模型之胃口日增,而天下文章有尽。此谓之「数据枯竭」(Data Exhaustion)。

其二,偏见纠缠。 人间之言,常杂人类之偏见、谬误与噪音。模型习之,如良田之染莠草,难以剔除。

其三,知识与推理混为一谈。 自然语言中,事实知识与逻辑推理紧密缠绕。模型在习得推理能力之同时,不得不一并记忆大量琐碎之事实。此非效率之道。

于是,一根本之问浮出水面:自然语言,是否通往智能之唯一路径?

注释:所谓「数据枯竭」(Data Exhaustion),指因AI训练所需之高质量人类文本数据有限,而面临供给耗尽之困。此概念近年备受关注,因大模型规模呈指数增长,而可用数据呈线性增长。

🧬 二、NCA之法:以演化代言语

Lee诸贤之策,乃取「神经细胞自动机」(Neural Cellular Automata, NCA) 之道,以生成合成之、非语言之数据,用于预预训练。

🧮 何谓NCA?

神经细胞自动机者,乃将传统细胞自动机(如康威之「生命游戏」)与神经网络融合之产物。其基本法则至简:

\[s_{t+1}(x) = f_\theta(s_t(x), \mathcal{N}(x))\]

注释:公式之解

  • \(s_{t+1}(x)\):某一点位于下一时刻之状态。
  • \(f_\theta\):由神经网络参数化之演化法则。
  • \(\mathcal{N}(x)\):此点位之邻里状态。
  • \(t\):时刻之索引。
  • \(x\):空间之坐标。

换言之,NCA 将空间划分为格子,每格皆有状态。每格之下一状态,由其当前状态与周围格子之状态共同决定。此法则由一小型神经网络执行,且所有格子共享同一神经网络,仅局部信息交互,却能涌现全局之复杂模式。

🌌 合成数据之妙

Lee诸贤不取人间一字,唯设局部演化之规,令NCA自行演化,生成时空轨迹。此轨迹之特性有三:

  1. 结构丰富:NCA之动力学可涌现复杂之空间-时间结构, Zipf 分布之统计特性竟与自然语言相似。
  2. 可控可调:通过调节字母表大小(\(n\))与规则复杂度,可精确控制生成数据之复杂度。
  3. 取之不尽:合成数据可无限生成,无版权之虞,无偏见之累。

注释:所谓「Zipf分布」,乃指语言中词频之统计规律——少数词频繁出现,多数词罕见。此规律亦见于NCA生成之符号序列,暗示其结构与自然语言有深层之共通。

📊 三、实证之惊:一亿六千万当十六亿

实验之结果,令人咋舌。

🏆 核心发现一:少即是多

训练燃料 消耗数量 OpenWebText困惑度改进 收敛速度 本质
无预预训练(从头训练) 基准 基准 原始之态
Dyck语言(合成对照) 1.6亿 tokens 微弱改进 略快 结构简单
C4真实文本 16亿 tokens 基准相近 基准 笨重且昂贵
NCA合成数据 1.6亿 tokens 🚀 提升5.7%~8.6% 加速1.4~1.6x 🔥 精简且强悍

注意:困惑度(perplexity)乃衡量语言模型预测下一词能力之指标,越低越好。此改进乃相对基准之百分比。

最惊人者,NCA以1.6亿 tokens之微,竟击败16亿 tokens之真实语言数据(C4)——且后者之计算量十倍于前者。论文之假设以为,此因C4虽数据量大,却多教模型浅层之语法模式;而NCA直接训练长程依赖追踪与潜在规则推理之能。

🏆 核心发现二:跨域迁移

NCA预预训练之收益,不限于单一领域。论文验证其迁移至:

  • 网页文本(OpenWebText):困惑度降低4-5%
  • 数学(OpenWebMath):困惑度降低4-5%
  • 代码(CodeParrot):困惑度降低4-5%
  • 收敛速度:最高达1.6倍

且此优势并非短暂之初始化效应——其贯穿整个训练过程,且往往随训练推进而扩大,证明NCA预预训练真正提升了token效率。

🏆 核心发现三:推理能力之跃升

困惑度乃代理指标,真正值得关注的是下游推理任务:

基准测试 Scratch C4预预训练 NCA预预训练 意义
GSM8K (pass@1) 3.8% 4.4% 数学推理微升
GSM8K (pass@32) 36.6% 37.9% 多采样时更稳
HumanEval (pass@1) 基准 改进 代码生成初胜
BigBench-Lite (pass@4) 25.9% 29.7% 36.5% 通用推理显著领先

BigBench-Lite之pass@4结果尤为亮眼:NCA(36.5%)大幅领先C4(29.7%)与从头训练(25.9%)。

⚙️ 四、机制之探:注意力为何是灵魂

论文更进一层,探究NCA预预训练之收益,究竟储于模型何处。

🔍 组件消融实验

研究者于NCA预预训练后,选择性重置模型之不同组件,观察其对语言建模之影响:

重置组件 OpenWebText影响 CodeParrot影响 核心结论
注意力(Attention) 最大退化 最大退化 注意力承载最多可迁移之计算原语
MLP 中度退化 几乎无影响 MLP编码领域特定之模式
LayerNorm 中度退化 几乎无影响 LayerNorm储存领域特定之统计量
嵌入层(Embedding) 轻度退化 轻度退化 嵌入层之影响相对较小

此结果揭示一功能分工:注意力层习得通用之机制——追踪依赖关系、推断潜在规则;而MLP层专精于储存领域特定之模式与统计。此恰可解释为何NCA至自然语言之迁移中,注意力权重 universal transfer,而MLP权重却可能产生干扰。

🔬 复杂度之调谐

论文更揭示一关键洞察:最优NCA复杂度因目标领域而异。

目标领域 最优NCA复杂度 原因
代码(CodeParrot) 较低(小字母表,简单动力学) 代码重嵌套逻辑与定界符模式,与简单规则匹配
数学(OpenWebMath) 较高(大字母表,复杂动力学) 数学需长程推理与复杂关系追踪
网页文本(OpenWebText) 较高 自然语言之多样性与长程结构

此发现意义重大:它意味着合成数据分布可被系统性调谐,以针对特定下游任务优化预训练。

🌅 五、宏纲之思:文字乃衣裳,逻辑乃骨髓

此文之深层意涵,远超技术层面。

其一,关于智能之本源。 论文暗示:大语言模型中推理等能力之涌现,所依赖者乃自然语言之底层结构,而非其语义内容。文字乃人类认知之损耗性记录,而真正驱动智能者,是支撑连贯延续之潜在计算过程。NCA以纯形式之演化,教模型习得此等过程,无需经过人类语言之迂回。

其二,关于数据之未来。 若合成数据可在更小规模、更低成本、更可控条件下,达到甚至超越真实数据之效果,则「数据枯竭」之困局或可迎刃而解。未来的模型训练,或将是「先合成预演,后真实精修」之两阶段范式。

其三,关于领域适配。 不同领域(代码、数学、文本)对预训练数据之「口味」各异——代码喜简洁之规则,数学爱复杂之推演。此启示我们:预训练不必再是「一刀切」之统一语料,而可针对下游任务「定制口味」。


📚 参考文献

  1. Lee, D., Han, S., Kumar, A., & Agrawal, P. (2026). Training Language Models via Neural Cellular Automata. arXiv:2603.10055. https://arxiv.org/abs/2603.10055
  2. Villalobos, P., et al. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. 关于数据枯竭之经典分析。
  3. Mordvintsev, A., Randazzo, E., Niklasson, E., & Levin, M. (2020). Growing Neural Cellular Automata. Distill, 5(2):e23. NCA之奠基之作。
  4. Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS. Transformer架构之起源。
  5. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. 神经网络规模法则之经典研究。

#NCA #NeuralCellularAutomata #合成数据 #预训练 #MITCSAIL #格帕文士 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录