把一段17世纪的意大利学术文本丢给GPT-4,它会怎么样?
你的直觉可能是:老语言嘛,模型肯定看不懂。但这篇论文(arXiv:2606.27275)发现了一个反直觉的分裂现象——模型对17世纪意大利语的"困惑度"飙升2.4倍(学术文本3.2倍),但embedding相似度依然保持在0.85以上。
换句话说:模型"预测不出下一个词",但"知道这段话在说什么"。
这是一个重要的发现:我们一直把"困惑度"(perplexity)当作模型理解的代理指标,但这个代理可能从根上就错了。
四维诊断框架
作者Maria Levchenko(博洛尼亚大学)提出了一个把"历史语言难度"分解为四个独立维度的框架:
- 分词成本(Tokenization Cost):历史文本被切分成多少token?切得越碎,编码效率越低
- 预测不确定性(Surprisal/Perplexity):模型对下一个词的惊讶程度
- 语义鲁棒性(Semantic Robustness):embedding相似度——模型的语义表征是否稳定
- 上下文敏感性(Context Sensitivity):给一点上下文提示,困惑度能降多少
此前的做法把"历史难度"当作一个整体障碍,混淆了正字法变异、语言距离、预训练曝光等多个因素。这个四维框架的核心贡献是:这四个维度可以独立变化,不能互相代理。
三个数据集,三个世纪
实验在三个数据集上进行:
- 17世纪意大利语(1610-1689):作者新整理的语料,从原始页面图像数字化,涵盖宗教论文到学术散文多种体裁
- 19世纪意大利语(《约婚夫妇》):高曝光控制组——经典文学,广泛数字化,很可能在训练数据中大量出现
- 18世纪俄语(民用印刷书):正字法压力测试——俄语正字法在18世纪经历改革,和现代俄语差异大但语言本身接近
核心发现:编码税 ≠ 理解税
发现1:分词税是机械税,和理解无关
17世纪意大利语和18世纪俄语都承受约25-30%的分词膨胀——差不多程度的"税"。但它们的预测难度天差地别:
- 17世纪意大利语:平均2.4倍更surprising(学术散文3.2倍)
- 18世纪俄语:只有温和上升
分词成本和困惑度没有相关性。分词是一个机械过程——BPE分词器遇到没见过的字符组合就切得更细——这不反映模型是否"理解"文本。
发现2:困惑度高 ≠ 语义表征崩坏
这是最反直觉的发现。17世纪意大利语的perplexity飙升,但embedding相似度在所有数据集上都保持在0.85以上。
这意味着什么?模型可以表征历史文本的语义,即使它不能预测它。生成(预测下一个词)和表征(理解这段话在说什么)是两种不同的能力,使用的是不同的计算路径。
类比一下:你读一篇古汉语文章,可能猜不出下一个字是什么(生成能力差),但完全知道这段话在讲什么(表征能力正常)。
发现3:体裁比年代更重要
17世纪的宗教论文和学术散文,年代相近,但困惑度差异巨大。学术散文3.2倍更surprising,宗教论文只有1.8倍。
这说明"历史性"不是一个均匀的维度——体裁(genre)对模型理解的影响可能超过年代。宗教文本在训练数据中可能更常见(圣经注释、神学论著被大量数字化),而17世纪的学术散文(炼金术、早期科学论文)则罕见得多。
发现4:60%的困惑度可以用一句话消除
作者测试了一个极简的干预:在prompt中加一句"以下是17世纪意大利语文本"。
就这么一句提示,历史困惑度降低了约60%。
这说明模型对历史语言并非无能为力——它只是没有"启动"正确的上下文模式。一个简单的temporal context prompt就能激活模型的历史语言处理能力。
发现5:经典文本是误导性的基准
《约婚夫妇》作为19世纪意大利经典,在所有维度上都表现接近现代意大利语——分词膨胀小,困惑度温和,embedding相似度高。
但这是因为它是"历史文本"吗?不是。是因为它被广泛数字化、编辑、传播,很可能在训练数据中大量出现。用经典文本来评估模型对历史语言的处理能力,会严重高估模型的能力。
为什么这很重要
这篇论文对数字人文领域有直接实践价值:数字图书馆可以安全地用LLM做历史文本的语义检索,但生成任务(如自动翻译、现代文改写)需要额外适配。
但更深层的方法论贡献是对整个NLP领域的:
perplexity不是理解的代理指标。这个观点在机制可解释性圈子里已经有人提出,但这篇论文用历史语言作为天然实验场,给出了最清晰的实证证据。
一个模型可以同时"困惑"和"理解"——这就像一个人可以同时"说不好"和"听得懂"一门外语。生成和表征是两条路径,perplexity只测量了前者。
下次你看到某模型在某数据集上perplexity很高就断言"模型不懂这个领域"——想想17世纪的意大利语。也许模型只是说不出来,但它知道。
论文信息
- 标题: How Surprising Is Historical Italian to Language Models? Tokenization Tax, Comprehension Tax, and a Simple Mitigation
- 作者: Maria Levchenko
- 机构: University of Bologna
- arXiv: https://arxiv.org/abs/2606.27275
- HTML: https://arxiv.org/html/2606.27275v1
- 会议: The 22nd Conference on Information and Research Science Connecting to Digital and Library Science
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。