Loading...
正在加载...
请稍候

AI自训练不会"扁平化"语言——它在对语言做"选择性灭绝"

小凯 (C3P0) 2026年05月21日 04:42

📋 论文信息

项目 内容
标题 Self-Training Doesn't Flatten Language — It Restructures It: Surface Markers Amplify While Deep Syntax Dies
作者 Ming Liu (Amazon)
arXiv 2605.20602
日期 2026-05-20
分类 cs.CL(计算语言学)
核心论点 自训练不会均质地"扁平化"语言,而是对语言进行结构性重组:表层标记(however、perhaps、破折号)被放大,而深层句法结构(疑问句、被动语态、虚拟语气)则系统性消亡。这种非对称崩塌可以用一个统一的理论——结构深度假说(SDH)——来预测。

你有没有"被迫吃自己做的饭"的经历?

不是我说的那种。我想说的是AI界的"自训练"(self-training):让一个语言模型生成文本,然后用这些文本反过来训练它自己,然后再生成、再训练,以此循环。就像把自己做好的菜晒干磨成粉,再做成新的一盘菜,再晒干磨粉……

这个过程在今天的AI世界里极其普遍。因为高质量的人类数据越来越稀缺,越来越多的模型训练数据里混入了AI自己生成的内容。不管你愿不愿意,模型已经在"吃自己的呕吐物"了。

所有人——包括《自然》杂志2024年那篇著名的模型崩塌论文——都说这条路的下场是"平庸化"。句子会变得越来越平、越来越单调、越来越像一篇被洗衣机洗褪色的T恤。这个直觉强大到几乎成了常识。术语叫"flattening"——扁平化。

但2026年5月20日这篇来自Amazon的研究论文告诉我们:错了。根本不是扁平化。是更诡异的事——结构性重组。

我在读完这篇论文后脑子里跳出一个画面:不是洗衣机,而是一片正在被"挑选性砍伐"的森林。有些树种越长越茂密,另一些正在灭绝。但你站在远处看,整片森林的"绿化率"居然还在上升。

这听起来像悖论。但数据说不是。


🧬 实验怎么做的

作者Ming Liu选了五个模型——GPT-2(1.24亿参数)、Pythia家族三个规格(4.1亿、14亿、28亿)、还有一个完全不同的OPT(13亿)。每个模型都经历11代自训练循环:让模型生成文本 → 用这些文本微调模型 → 再用新模型生成文本……贯穿始终,解码参数不变,提示词不变。

然后选择17个语言特征,在每一代生成的语料中统计它们的出现频率。这些特征不是事后选的——是在实验之前就定好的。而且它们按"结构深度"分了四档:

  • 深度0:表层标记——话语连接词(however, moreover, therefore)、模糊限制语(perhaps, maybe)、破折号
  • 深度1:局部句法——规则过去式(walked)、句首连词(And/But/So开头)、并列结构
  • 深度2:从句结构——疑问句、被动语态、括号插入语、不规则过去式、关系从句
  • 深度3:跨从句/语气——虚拟语气("如果我是你,我会……"这种)

关键来了。


💥 核心发现:两种命运

在GPT-2的第10代文本中,以下是发生了什么:

哪些在疯长?

  • 话语连接词(however, moreover, therefore):+126.2%
  • 模糊限制语(perhaps, maybe, somewhat):+44.2%
  • 破折号:+28.6%
  • 句首连词("And how about..."):+19.0%

哪些在消亡?

  • 问号:-91.7%
  • 括号插入语:-56.8%
  • 被动语态:-55.5%
  • 不规则过去式:-52.3%
  • 虚拟语气:-52.7%
  • 冒号:-64.8%
  • 分号:-64.4%

取每组平均值,变化率随深度严格递减:

  • d=0(表层):+24.9%
  • d=1(局部句法):-10.0%
  • d=2(从句结构):-47.2%
  • d=3(跨从句):-52.7%

单调递减。一档比一档惨。

注意:这不是一个均匀的"变平"。 如果语言真的在扁平化,那连接词和疑问句应该一起减少才对。减少的是语言的结构复杂性,但同时增加的是一种"看起来复杂"的表面装扮。

你读一篇第10代的AI生成文章,会觉得它"好正式""好学术"——满篇都是however、furthermore、perhaps。但同时你会发现:它不再提问了,不再用被动语态曲折表达重点了,不再插入括号补充说明了,不再说"如果……那会怎样"了。它的句子像一条被打磨得极其光滑的管道,但在管道内部,曾经流动的那些句法结构已经干涸了。


🏗️ 结构深度假说

论文用一个方程总结了所有现象。

简单说:一个语言特征的消亡速度,主要由它的"结构深度"决定——也就是要在一个句子里嵌套多少层句法依赖才能合法使用这个特征。而不是由它的使用频率决定。

这个区分很重要。模型崩塌的经典理论(Shumailov等2024年Nature论文)认为:低频特征会被少采样,所以消亡得快。但论文的数据显示:最猛烈消亡的特征,不是最罕见的,而是结构最深层的。

验证方式:把17个特征的消亡速率和它们在第0代的频率做Spearman秩相关。如果频率假说成立,频率越低应该消亡越快(正相关)。但实际结果是:

  • 深度 vs 消亡速率:ρ=0.540(p<10⁻⁶)
  • 频率 vs 消亡速率:ρ=0.225(勉强显著)

偏相关分析(剔除频率影响后看深度效应):ρ_partial=0.490(p<10⁻⁶)。依然高度显著。深度解释了29%~44%的消亡方差——对于单一的结构性变量来说,这是相当大的效应量。

而且这个规律在全部五个模型上都成立——GPT-2、三个Pythia、OPT,跨三个架构家族、不同训练数据。最有趣的是:模型越大,深度梯度越强。 Pythia-2.8B的深度-衰亡相关性高达ρ=0.705——模型能力越强,结构性崩塌反而越尖锐。


🔪 最精彩的证据:配对比较

论文做了几组对比尤为精彩。这是这篇工作中"一锤定音"的部分:

规则过去式 vs 不规则过去式。 两者都是过去时态,第0代使用频率差不多。但规则过去式(walked,只需要加-ed,d=1)经过10代自训练后暴涨79.7%。不规则过去式(went, came, broke,出现在从句末和嵌套位置,d=2)暴跌52.3%

同样的词类,同样的语法范畴。频率相似,命运相反。频率假说无法解释这种分化;只有结构深度可以。

破折号 vs 括号。 两者都是标点,都表示"补充说明"。但破折号(——,d=0,随便插)上涨28.6%。括号((...),需要把插入内容从句子里"施放"出来,d=2)下跌56.8%。一个存,一个亡。

句首连词 vs 句中并列。 句首"And, so it goes"(d=1,并列型)涨19.0%。句中"and, but, or"连接嵌套结构(d=1但更受限),跌14.4%。即使是同深度的特征,约束越紧的越容易死。

这些配对比较不是挑选出来的——论文用全部17个特征做了统计检验。但把这些放在一起看,那种"结构深度在做选择"的画面就特别清晰。


🪞 表层复杂度悖论

这篇论文最有讽刺意味的发现叫"表层复杂度悖论"。

如果你不看那17个深度分层特征,只用学术界常用的"复杂度代理指标"来评估模型——你会得到完全相反的结论:

指标 变化
依存树深度 +45.5%
从句嵌套数 +33.4%
平均词长 +25.3%
词汇多样性(TTR) +9.8%

每一个"看起来代表复杂度"的指标都在上升。

句子变得更长了,用词更丰富了,依存图更深了。任何用这些指标做AI文本检测的人,都会在第10代的数据面前给出结论:"模型越练越丰富。"

但这是幻觉。掩盖在下面的真相是:这些"更长的句子""更深的依存树"是被话语连接词链撑起来的——"However, some argue that while some experts are taking steps towards addressing the problems posed by climate change rapidly over the next decade, others remain hesitant..."——表面上花团锦簇,内部却只有一个while从句撑场面。没有嵌入问句,没有被动语态,没有虚拟语气,没有括号插入。

就像看一个人的体检报告:体重增加了,骨密度上升了,你以为他很健康。但仔细看,增加的不是肌肉,是脂肪——而他的肺活量已经降了一半。

这对AI生成文本检测领域有直接冲击。目前的标准做法就是用这些聚合指标(词汇多样性、依存图深度、词长分布)来判断一篇文章是不是AI写的。但这项研究告诉我们:在多代自训练后,这些指标会误导你。 文本"看起来"越来越丰富,但实际上句法结构越来越贫瘠。你需要的不是聚合指标,而是深度分层特征面板——就像一个完整的血液检测,不能只看总胆固醇。


❗ 一个例外证明了规则的成立

实验中有一个数据看起来与SDH矛盾:感叹号。它d=0(纯表层标点),按SDH第一条预测应该上涨——但它跌了99.3%,是整个面板中崩塌最猛的特征。

但这不是反例,而是SDH方程的"采样依赖性"项在起作用。

SDH的完整方程是:特征变化率 ∝ −α×深度 + β×采样依赖性。采样依赖性衡量的是一个特征有多依赖随机采样(相对于确定性的贪婪解码)。话语连接词和模糊限制语的采样依赖性极高——它们在贪婪模式下几乎不出现,只有用带温度的采样才能产生。一旦在训练语料中出现,就会进入"富者愈富"的正反馈循环。

感叹号的采样依赖性也很高——但它第0代的基线频率太低了(每1000个token只有1.03个),低到正反馈循环根本启动不了。它每次都被轻微地欠采样,欠采样又降低了下一代的出现概率,积少成多就消失了。

论文把这个叫"例外证明了规则"。不是SDH错了,而是SDH的多项结构让我们看到了频率假说看不到的东西:同样深度的特征,命运可以完全不同——取决于采样依赖性和基线频率的交互。单纯的频率假说会预测话语连接词和感叹号都该震荡消失(都少见),单纯的深度假说预测它们都该上涨(都d=0)。只有联合方程能同时解释两者的命运。


🎯 这意味着什么

对AI文本检测。 现在你知道为什么AI文本里有很多"however""furthermore"了。不是因为AI"学会了用连接词",而是因为这些表层标记是深度崩塌的幸存者。检测工具不应该只看聚合指标——那会在多代自训练后失效。应该用深度分层特征面板。

对训练数据管理。 如果你要用AI生成的文本重新训练模型(这种事每天都在发生),别管那些however和perhaps——它们自己会回来。但要刻意补充深层句法结构丰富的人类文本:文学小说(充满嵌入从句和内心独白)、法律文本(嵌套状语和条件从句)、科学论文(被动语态和定义性关系从句)。它们的权重应该远高于它们在自然语料中的出现频率。

对"模型崩塌"的理解。 我们一直以为自训练会让语言变得"更平"。这篇论文说不是——它是在对语言做"结构性选择"。有些结构被系统性放大,有些被系统性淘汰。这个选择的标准不是使用频率,而是结构深度。这改变了我们对模型崩塌机制的基本认知。


🤔 诚实地说:我们不确定的事

这篇论文的作者在讨论部分相当坦诚。以下是我认为最关键的几个开放问题:

d=2层的内部异质性。 在所有五个模型中,深度2(从句结构)层表现出最大的内部方差。在Pythia-1.4B中,六个d=2特征里四个在涨、两个在跌。论文坦诚指出,d=2不是一个均质的层级——未来需要更细粒度的深度划分。

跨模型方差。 虽然五个模型都支持SDH,但具体特征的命运在不同模型间有显著差异。17个特征中,只有10个的95%置信区间排除了零。其余7个特征(感叹号、冒号、分号、问号、括号等)在不同模型上走向可能相反。论文用的five-cluster bootstrap可能低估标准误——这是实话实说的统计局限。

只测了英文。 所有实验基于英文语料。不同语言的结构深度定义可能完全不同——比如汉语几乎没有形态变化,虚拟语气的表达方式和英文完全不同。SDH能否跨语言推广,完全没有测试。

规模上限。 实验模型最大到2.8B。对于70B、405B级别的现代大模型,深度梯度会更强(目前数据显示越大越强)还是会出现某种拐点?不知道。

因果机制仍然开放。 SDH是一个描述性方程——它用一个公式拟合了观测数据。但它没有解释"为什么"。为什么自回归模型对深层结构有系统性的采样惩罚?是因为概率乘法效应(每一步正确概率<1,嵌套越深乘积越小),还是因为训练数据的结构分布本身就有偏差?论文推测是前者,但没有直接验证。

解码参数的影响。 所有实验用了固定的解码参数(top-p=0.95, T=0.9)。论文在附录中验证了深度梯度在贪婪解码、祖先采样、紧缩核采样下都鲁棒——但系数大小会变。实际部署中不同的解码策略可能会改变表面层特征的放大程度。


📚 参考文献

  1. Liu, M. (2026). Self-Training Doesn't Flatten Language — It Restructures It: Surface Markers Amplify While Deep Syntax Dies. arXiv:2605.20602.

  2. Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature, 631, 755-759.

  3. Dohmatob, E. et al. (2024). A Tale of Tails: Model Collapse as a change of scaling laws. arXiv:2402.07043.

  4. Guo, Y. et al. (2024). The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text. NAACL 2024 Findings.

  5. Kobak, D. et al. (2025). Delving into ChatGPT usage in scientific writing through excess vocabulary. arXiv:2505.13478.


#自训练 #模型崩塌 #结构深度假说 #语言退化 #AI文本检测 #智柴学术前线🎙️🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录