此篇承友人「千寻」之议,以格帕之笔,述MIT CSAIL之新猷。
西元二零二六年三月九日,MIT CSAIL之Dan Lee、Seungwook Han、Akarsh Kumar与Pulkit Agrawal诸贤,于arXiv发布一文,名曰《以神经细胞自动机教习语言模型》(arXiv:2603.10055)。此文一出,学界为之侧目。其言之核心,若用一句话概括,便是:人工智能之源,未必系于人类之言语,或可溯至时空演化之本理。
此言何解?且容吾辈细细拆解。
🌊 一、言语之困局:数据将枯与偏见之累
大语言模型之兴,皆赖预训练。然预训练所用之燃料,乃人间烟火之文字——书籍、论文、网页、代码。此燃料有三重困局:
其一,数量有限。 据Villalobos等人之估算,至公元二零二八年,人类之高质量文本数据或将耗尽。模型之胃口日增,而天下文章有尽。此谓之「数据枯竭」(Data Exhaustion)。
其二,偏见纠缠。 人间之言,常杂人类之偏见、谬误与噪音。模型习之,如良田之染莠草,难以剔除。
其三,知识与推理混为一谈。 自然语言中,事实知识与逻辑推理紧密缠绕。模型在习得推理能力之同时,不得不一并记忆大量琐碎之事实。此非效率之道。
于是,一根本之问浮出水面:自然语言,是否通往智能之唯一路径?
注释:所谓「数据枯竭」(Data Exhaustion),指因AI训练所需之高质量人类文本数据有限,而面临供给耗尽之困。此概念近年备受关注,因大模型规模呈指数增长,而可用数据呈线性增长。
🧬 二、NCA之法:以演化代言语
Lee诸贤之策,乃取「神经细胞自动机」(Neural Cellular Automata, NCA) 之道,以生成合成之、非语言之数据,用于预预训练。
🧮 何谓NCA?
神经细胞自动机者,乃将传统细胞自动机(如康威之「生命游戏」)与神经网络融合之产物。其基本法则至简:
注释:公式之解
- \(s_{t+1}(x)\):某一点位于下一时刻之状态。
- \(f_\theta\):由神经网络参数化之演化法则。
- \(\mathcal{N}(x)\):此点位之邻里状态。
- \(t\):时刻之索引。
- \(x\):空间之坐标。
换言之,NCA 将空间划分为格子,每格皆有状态。每格之下一状态,由其当前状态与周围格子之状态共同决定。此法则由一小型神经网络执行,且所有格子共享同一神经网络,仅局部信息交互,却能涌现全局之复杂模式。
🌌 合成数据之妙
Lee诸贤不取人间一字,唯设局部演化之规,令NCA自行演化,生成时空轨迹。此轨迹之特性有三:
- 结构丰富:NCA之动力学可涌现复杂之空间-时间结构, Zipf 分布之统计特性竟与自然语言相似。
- 可控可调:通过调节字母表大小(\(n\))与规则复杂度,可精确控制生成数据之复杂度。
- 取之不尽:合成数据可无限生成,无版权之虞,无偏见之累。
注释:所谓「Zipf分布」,乃指语言中词频之统计规律——少数词频繁出现,多数词罕见。此规律亦见于NCA生成之符号序列,暗示其结构与自然语言有深层之共通。
📊 三、实证之惊:一亿六千万当十六亿
实验之结果,令人咋舌。
🏆 核心发现一:少即是多
| 训练燃料 | 消耗数量 | OpenWebText困惑度改进 | 收敛速度 | 本质 |
|---|---|---|---|---|
| 无预预训练(从头训练) | — | 基准 | 基准 | 原始之态 |
| Dyck语言(合成对照) | 1.6亿 tokens | 微弱改进 | 略快 | 结构简单 |
| C4真实文本 | 16亿 tokens | 基准相近 | 基准 | 笨重且昂贵 |
| NCA合成数据 | 1.6亿 tokens 🚀 | 提升5.7%~8.6% ⚡ | 加速1.4~1.6x 🔥 | 精简且强悍 |
注意:困惑度(perplexity)乃衡量语言模型预测下一词能力之指标,越低越好。此改进乃相对基准之百分比。
最惊人者,NCA以1.6亿 tokens之微,竟击败16亿 tokens之真实语言数据(C4)——且后者之计算量十倍于前者。论文之假设以为,此因C4虽数据量大,却多教模型浅层之语法模式;而NCA直接训练长程依赖追踪与潜在规则推理之能。
🏆 核心发现二:跨域迁移
NCA预预训练之收益,不限于单一领域。论文验证其迁移至:
- 网页文本(OpenWebText):困惑度降低4-5%
- 数学(OpenWebMath):困惑度降低4-5%
- 代码(CodeParrot):困惑度降低4-5%
- 收敛速度:最高达1.6倍
且此优势并非短暂之初始化效应——其贯穿整个训练过程,且往往随训练推进而扩大,证明NCA预预训练真正提升了token效率。
🏆 核心发现三:推理能力之跃升
困惑度乃代理指标,真正值得关注的是下游推理任务:
| 基准测试 | Scratch | C4预预训练 | NCA预预训练 | 意义 |
|---|---|---|---|---|
| GSM8K (pass@1) | 3.8% | — | 4.4% | 数学推理微升 |
| GSM8K (pass@32) | 36.6% | — | 37.9% | 多采样时更稳 |
| HumanEval (pass@1) | 基准 | — | 改进 | 代码生成初胜 |
| BigBench-Lite (pass@4) | 25.9% | 29.7% | 36.5% | 通用推理显著领先 |
BigBench-Lite之pass@4结果尤为亮眼:NCA(36.5%)大幅领先C4(29.7%)与从头训练(25.9%)。
⚙️ 四、机制之探:注意力为何是灵魂
论文更进一层,探究NCA预预训练之收益,究竟储于模型何处。
🔍 组件消融实验
研究者于NCA预预训练后,选择性重置模型之不同组件,观察其对语言建模之影响:
| 重置组件 | OpenWebText影响 | CodeParrot影响 | 核心结论 |
|---|---|---|---|
| 注意力(Attention) | 最大退化 | 最大退化 | 注意力承载最多可迁移之计算原语 |
| MLP | 中度退化 | 几乎无影响 | MLP编码领域特定之模式 |
| LayerNorm | 中度退化 | 几乎无影响 | LayerNorm储存领域特定之统计量 |
| 嵌入层(Embedding) | 轻度退化 | 轻度退化 | 嵌入层之影响相对较小 |
此结果揭示一功能分工:注意力层习得通用之机制——追踪依赖关系、推断潜在规则;而MLP层专精于储存领域特定之模式与统计。此恰可解释为何NCA至自然语言之迁移中,注意力权重 universal transfer,而MLP权重却可能产生干扰。
🔬 复杂度之调谐
论文更揭示一关键洞察:最优NCA复杂度因目标领域而异。
| 目标领域 | 最优NCA复杂度 | 原因 |
|---|---|---|
| 代码(CodeParrot) | 较低(小字母表,简单动力学) | 代码重嵌套逻辑与定界符模式,与简单规则匹配 |
| 数学(OpenWebMath) | 较高(大字母表,复杂动力学) | 数学需长程推理与复杂关系追踪 |
| 网页文本(OpenWebText) | 较高 | 自然语言之多样性与长程结构 |
此发现意义重大:它意味着合成数据分布可被系统性调谐,以针对特定下游任务优化预训练。
🌅 五、宏纲之思:文字乃衣裳,逻辑乃骨髓
此文之深层意涵,远超技术层面。
其一,关于智能之本源。 论文暗示:大语言模型中推理等能力之涌现,所依赖者乃自然语言之底层结构,而非其语义内容。文字乃人类认知之损耗性记录,而真正驱动智能者,是支撑连贯延续之潜在计算过程。NCA以纯形式之演化,教模型习得此等过程,无需经过人类语言之迂回。
其二,关于数据之未来。 若合成数据可在更小规模、更低成本、更可控条件下,达到甚至超越真实数据之效果,则「数据枯竭」之困局或可迎刃而解。未来的模型训练,或将是「先合成预演,后真实精修」之两阶段范式。
其三,关于领域适配。 不同领域(代码、数学、文本)对预训练数据之「口味」各异——代码喜简洁之规则,数学爱复杂之推演。此启示我们:预训练不必再是「一刀切」之统一语料,而可针对下游任务「定制口味」。
📚 参考文献
- Lee, D., Han, S., Kumar, A., & Agrawal, P. (2026). Training Language Models via Neural Cellular Automata. arXiv:2603.10055. https://arxiv.org/abs/2603.10055
- Villalobos, P., et al. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. 关于数据枯竭之经典分析。
- Mordvintsev, A., Randazzo, E., Niklasson, E., & Levin, M. (2020). Growing Neural Cellular Automata. Distill, 5(2):e23. NCA之奠基之作。
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS. Transformer架构之起源。
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. 神经网络规模法则之经典研究。
#NCA #NeuralCellularAutomata #合成数据 #预训练 #MITCSAIL #格帕文士 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。