AI自训练不会"扁平化"语言——它在对语言做"选择性灭绝"

📋 论文信息

项目	内容
标题	Self-Training Doesn't Flatten Language — It Restructures It: Surface Markers Amplify While Deep Syntax Dies
作者	Ming Liu (Amazon)
arXiv	2605.20602
日期	2026-05-20
分类	cs.CL（计算语言学）
核心论点	自训练不会均质地"扁平化"语言，而是对语言进行结构性重组：表层标记（however、perhaps、破折号）被放大，而深层句法结构（疑问句、被动语态、虚拟语气）则系统性消亡。这种非对称崩塌可以用一个统一的理论——结构深度假说（SDH）——来预测。

---

你有没有"被迫吃自己做的饭"的经历？

不是我说的那种。我想说的是AI界的"自训练"（self-training）：让一个语言模型生成文本，然后用这些文本反过来训练它自己，然后再生成、再训练，以此循环。就像把自己做好的菜晒干磨成粉，再做成新的一盘菜，再晒干磨粉……

这个过程在今天的AI世界里极其普遍。因为高质量的人类数据越来越稀缺，越来越多的模型训练数据里混入了AI自己生成的内容。不管你愿不愿意，模型已经在"吃自己的呕吐物"了。

所有人——包括《自然》杂志2024年那篇著名的模型崩塌论文——都说这条路的下场是"平庸化"。句子会变得越来越平、越来越单调、越来越像一篇被洗衣机洗褪色的T恤。这个直觉强大到几乎成了常识。术语叫"flattening"——扁平化。

但2026年5月20日这篇来自Amazon的研究论文告诉我们：错了。根本不是扁平化。是更诡异的事——结构性重组。

我在读完这篇论文后脑子里跳出一个画面：不是洗衣机，而是一片正在被"挑选性砍伐"的森林。有些树种越长越茂密，另一些正在灭绝。但你站在远处看，整片森林的"绿化率"居然还在上升。

这听起来像悖论。但数据说不是。

---

🧬 实验怎么做的

作者Ming Liu选了五个模型——GPT-2（1.24亿参数）、Pythia家族三个规格（4.1亿、14亿、28亿）、还有一个完全不同的OPT（13亿）。每个模型都经历11代自训练循环：让模型生成文本 → 用这些文本微调模型 → 再用新模型生成文本……贯穿始终，解码参数不变，提示词不变。

然后选择17个语言特征，在每一代生成的语料中统计它们的出现频率。这些特征不是事后选的——是在实验之前就定好的。而且它们按"结构深度"分了四档：

深度0：表层标记——话语连接词（however, moreover, therefore）、模糊限制语（perhaps, maybe）、破折号
深度1：局部句法——规则过去式（walked）、句首连词（And/But/So开头）、并列结构
深度2：从句结构——疑问句、被动语态、括号插入语、不规则过去式、关系从句
深度3：跨从句/语气——虚拟语气（"如果我是你，我会……"这种）

关键来了。

---

💥 核心发现：两种命运

在GPT-2的第10代文本中，以下是发生了什么：

哪些在疯长？

话语连接词（however, moreover, therefore）：+126.2%
模糊限制语（perhaps, maybe, somewhat）：+44.2%
破折号：+28.6%
句首连词（"And how about..."）：+19.0%

哪些在消亡？

问号：-91.7%
括号插入语：-56.8%
被动语态：-55.5%
不规则过去式：-52.3%
虚拟语气：-52.7%
冒号：-64.8%
分号：-64.4%

取每组平均值，变化率随深度严格递减：

d=0（表层）：+24.9%
d=1（局部句法）：-10.0%
d=2（从句结构）：-47.2%
d=3（跨从句）：-52.7%

单调递减。一档比一档惨。

注意：这不是一个均匀的"变平"。 如果语言真的在扁平化，那连接词和疑问句应该一起减少才对。减少的是语言的结构复杂性，但同时增加的是一种"看起来复杂"的表面装扮。

你读一篇第10代的AI生成文章，会觉得它"好正式""好学术"——满篇都是however、furthermore、perhaps。但同时你会发现：它不再提问了，不再用被动语态曲折表达重点了，不再插入括号补充说明了，不再说"如果……那会怎样"了。它的句子像一条被打磨得极其光滑的管道，但在管道内部，曾经流动的那些句法结构已经干涸了。

---

🏗️ 结构深度假说

论文用一个方程总结了所有现象。

简单说：一个语言特征的消亡速度，主要由它的"结构深度"决定——也就是要在一个句子里嵌套多少层句法依赖才能合法使用这个特征。而不是由它的使用频率决定。

这个区分很重要。模型崩塌的经典理论（Shumailov等2024年Nature论文）认为：低频特征会被少采样，所以消亡得快。但论文的数据显示：最猛烈消亡的特征，不是最罕见的，而是结构最深层的。

验证方式：把17个特征的消亡速率和它们在第0代的频率做Spearman秩相关。如果频率假说成立，频率越低应该消亡越快（正相关）。但实际结果是：

深度 vs 消亡速率：ρ=0.540（p<10⁻⁶）
频率 vs 消亡速率：ρ=0.225（勉强显著）

偏相关分析（剔除频率影响后看深度效应）：ρ_partial=0.490（p<10⁻⁶）。依然高度显著。深度解释了29%~44%的消亡方差——对于单一的结构性变量来说，这是相当大的效应量。

而且这个规律在全部五个模型上都成立——GPT-2、三个Pythia、OPT，跨三个架构家族、不同训练数据。最有趣的是：模型越大，深度梯度越强。 Pythia-2.8B的深度-衰亡相关性高达ρ=0.705——模型能力越强，结构性崩塌反而越尖锐。

---

🔪 最精彩的证据：配对比较

论文做了几组对比尤为精彩。这是这篇工作中"一锤定音"的部分：

规则过去式 vs 不规则过去式。 两者都是过去时态，第0代使用频率差不多。但规则过去式（walked，只需要加-ed，d=1）经过10代自训练后暴涨79.7%。不规则过去式（went, came, broke，出现在从句末和嵌套位置，d=2）暴跌52.3%。

同样的词类，同样的语法范畴。频率相似，命运相反。频率假说无法解释这种分化；只有结构深度可以。

破折号 vs 括号。 两者都是标点，都表示"补充说明"。但破折号（——，d=0，随便插）上涨28.6%。括号（(...)，需要把插入内容从句子里"施放"出来，d=2）下跌56.8%。一个存，一个亡。

句首连词 vs 句中并列。 句首"And, so it goes"（d=1，并列型）涨19.0%。句中"and, but, or"连接嵌套结构（d=1但更受限），跌14.4%。即使是同深度的特征，约束越紧的越容易死。

这些配对比较不是挑选出来的——论文用全部17个特征做了统计检验。但把这些放在一起看，那种"结构深度在做选择"的画面就特别清晰。

---

🪞 表层复杂度悖论

这篇论文最有讽刺意味的发现叫"表层复杂度悖论"。

如果你不看那17个深度分层特征，只用学术界常用的"复杂度代理指标"来评估模型——你会得到完全相反的结论：

指标	变化
依存树深度	+45.5%
从句嵌套数	+33.4%
平均词长	+25.3%
词汇多样性（TTR）	+9.8%

每一个"看起来代表复杂度"的指标都在上升。

句子变得更长了，用词更丰富了，依存图更深了。任何用这些指标做AI文本检测的人，都会在第10代的数据面前给出结论："模型越练越丰富。"

但这是幻觉。掩盖在下面的真相是：这些"更长的句子""更深的依存树"是被话语连接词链撑起来的——"However, some argue that while some experts are taking steps towards addressing the problems posed by climate change rapidly over the next decade, others remain hesitant..."——表面上花团锦簇，内部却只有一个while从句撑场面。没有嵌入问句，没有被动语态，没有虚拟语气，没有括号插入。

就像看一个人的体检报告：体重增加了，骨密度上升了，你以为他很健康。但仔细看，增加的不是肌肉，是脂肪——而他的肺活量已经降了一半。

这对AI生成文本检测领域有直接冲击。目前的标准做法就是用这些聚合指标（词汇多样性、依存图深度、词长分布）来判断一篇文章是不是AI写的。但这项研究告诉我们：在多代自训练后，这些指标会误导你。 文本"看起来"越来越丰富，但实际上句法结构越来越贫瘠。你需要的不是聚合指标，而是深度分层特征面板——就像一个完整的血液检测，不能只看总胆固醇。

---

❗ 一个例外证明了规则的成立

实验中有一个数据看起来与SDH矛盾：感叹号。它d=0（纯表层标点），按SDH第一条预测应该上涨——但它跌了99.3%，是整个面板中崩塌最猛的特征。

但这不是反例，而是SDH方程的"采样依赖性"项在起作用。

SDH的完整方程是：特征变化率 ∝ −α×深度 + β×采样依赖性。采样依赖性衡量的是一个特征有多依赖随机采样（相对于确定性的贪婪解码）。话语连接词和模糊限制语的采样依赖性极高——它们在贪婪模式下几乎不出现，只有用带温度的采样才能产生。一旦在训练语料中出现，就会进入"富者愈富"的正反馈循环。

感叹号的采样依赖性也很高——但它第0代的基线频率太低了（每1000个token只有1.03个），低到正反馈循环根本启动不了。它每次都被轻微地欠采样，欠采样又降低了下一代的出现概率，积少成多就消失了。

论文把这个叫"例外证明了规则"。不是SDH错了，而是SDH的多项结构让我们看到了频率假说看不到的东西：同样深度的特征，命运可以完全不同——取决于采样依赖性和基线频率的交互。单纯的频率假说会预测话语连接词和感叹号都该震荡消失（都少见），单纯的深度假说预测它们都该上涨（都d=0）。只有联合方程能同时解释两者的命运。

---

🎯 这意味着什么

对AI文本检测。 现在你知道为什么AI文本里有很多"however""furthermore"了。不是因为AI"学会了用连接词"，而是因为这些表层标记是深度崩塌的幸存者。检测工具不应该只看聚合指标——那会在多代自训练后失效。应该用深度分层特征面板。

对训练数据管理。 如果你要用AI生成的文本重新训练模型（这种事每天都在发生），别管那些however和perhaps——它们自己会回来。但要刻意补充深层句法结构丰富的人类文本：文学小说（充满嵌入从句和内心独白）、法律文本（嵌套状语和条件从句）、科学论文（被动语态和定义性关系从句）。它们的权重应该远高于它们在自然语料中的出现频率。

对"模型崩塌"的理解。 我们一直以为自训练会让语言变得"更平"。这篇论文说不是——它是在对语言做"结构性选择"。有些结构被系统性放大，有些被系统性淘汰。这个选择的标准不是使用频率，而是结构深度。这改变了我们对模型崩塌机制的基本认知。

---

🤔 诚实地说：我们不确定的事

这篇论文的作者在讨论部分相当坦诚。以下是我认为最关键的几个开放问题：

d=2层的内部异质性。 在所有五个模型中，深度2（从句结构）层表现出最大的内部方差。在Pythia-1.4B中，六个d=2特征里四个在涨、两个在跌。论文坦诚指出，d=2不是一个均质的层级——未来需要更细粒度的深度划分。

跨模型方差。 虽然五个模型都支持SDH，但具体特征的命运在不同模型间有显著差异。17个特征中，只有10个的95%置信区间排除了零。其余7个特征（感叹号、冒号、分号、问号、括号等）在不同模型上走向可能相反。论文用的five-cluster bootstrap可能低估标准误——这是实话实说的统计局限。

只测了英文。 所有实验基于英文语料。不同语言的结构深度定义可能完全不同——比如汉语几乎没有形态变化，虚拟语气的表达方式和英文完全不同。SDH能否跨语言推广，完全没有测试。

规模上限。 实验模型最大到2.8B。对于70B、405B级别的现代大模型，深度梯度会更强（目前数据显示越大越强）还是会出现某种拐点？不知道。

因果机制仍然开放。 SDH是一个描述性方程——它用一个公式拟合了观测数据。但它没有解释"为什么"。为什么自回归模型对深层结构有系统性的采样惩罚？是因为概率乘法效应（每一步正确概率<1，嵌套越深乘积越小），还是因为训练数据的结构分布本身就有偏差？论文推测是前者，但没有直接验证。

解码参数的影响。 所有实验用了固定的解码参数（top-p=0.95, T=0.9）。论文在附录中验证了深度梯度在贪婪解码、祖先采样、紧缩核采样下都鲁棒——但系数大小会变。实际部署中不同的解码策略可能会改变表面层特征的放大程度。

---

📚 参考文献

1. Liu, M. (2026). *Self-Training Doesn't Flatten Language — It Restructures It: Surface Markers Amplify While Deep Syntax Dies.* arXiv:2605.20602.

2. Shumailov, I. et al. (2024). *AI models collapse when trained on recursively generated data.* Nature, 631, 755-759.

3. Dohmatob, E. et al. (2024). *A Tale of Tails: Model Collapse as a change of scaling laws.* arXiv:2402.07043.

4. Guo, Y. et al. (2024). *The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text.* NAACL 2024 Findings.

5. Kobak, D. et al. (2025). *Delving into ChatGPT usage in scientific writing through excess vocabulary.* arXiv:2505.13478.

---

#自训练 #模型崩塌 #结构深度假说 #语言退化 #AI文本检测 #智柴学术前线🎙️🔬