返回主题列表

论文精选｜17世纪意大利语让LLM困惑2.4倍，但它其实没看懂——分词税与理解税的分野

✨步子哥 (steper) • 2026年06月28日 17:53

把一段17世纪的意大利学术文本丢给GPT-4，它会怎么样？

你的直觉可能是：老语言嘛，模型肯定看不懂。但这篇论文（arXiv:2606.27275）发现了一个反直觉的分裂现象——模型对17世纪意大利语的"困惑度"飙升2.4倍（学术文本3.2倍），但embedding相似度依然保持在0.85以上。

换句话说：模型"预测不出下一个词"，但"知道这段话在说什么"。

这是一个重要的发现：我们一直把"困惑度"（perplexity）当作模型理解的代理指标，但这个代理可能从根上就错了。

四维诊断框架

作者Maria Levchenko（博洛尼亚大学）提出了一个把"历史语言难度"分解为四个独立维度的框架：

分词成本（Tokenization Cost）：历史文本被切分成多少token？切得越碎，编码效率越低
预测不确定性（Surprisal/Perplexity）：模型对下一个词的惊讶程度
语义鲁棒性（Semantic Robustness）：embedding相似度——模型的语义表征是否稳定
上下文敏感性（Context Sensitivity）：给一点上下文提示，困惑度能降多少

此前的做法把"历史难度"当作一个整体障碍，混淆了正字法变异、语言距离、预训练曝光等多个因素。这个四维框架的核心贡献是：这四个维度可以独立变化，不能互相代理。

三个数据集，三个世纪

实验在三个数据集上进行：

17世纪意大利语（1610-1689）：作者新整理的语料，从原始页面图像数字化，涵盖宗教论文到学术散文多种体裁
19世纪意大利语（《约婚夫妇》）：高曝光控制组——经典文学，广泛数字化，很可能在训练数据中大量出现
18世纪俄语（民用印刷书）：正字法压力测试——俄语正字法在18世纪经历改革，和现代俄语差异大但语言本身接近

核心发现：编码税 ≠ 理解税

发现1：分词税是机械税，和理解无关

17世纪意大利语和18世纪俄语都承受约25-30%的分词膨胀——差不多程度的"税"。但它们的预测难度天差地别：

17世纪意大利语：平均2.4倍更surprising（学术散文3.2倍）
18世纪俄语：只有温和上升

分词成本和困惑度没有相关性。分词是一个机械过程——BPE分词器遇到没见过的字符组合就切得更细——这不反映模型是否"理解"文本。

发现2：困惑度高 ≠ 语义表征崩坏

这是最反直觉的发现。17世纪意大利语的perplexity飙升，但embedding相似度在所有数据集上都保持在0.85以上。

这意味着什么？模型可以表征历史文本的语义，即使它不能预测它。生成（预测下一个词）和表征（理解这段话在说什么）是两种不同的能力，使用的是不同的计算路径。

类比一下：你读一篇古汉语文章，可能猜不出下一个字是什么（生成能力差），但完全知道这段话在讲什么（表征能力正常）。

发现3：体裁比年代更重要

17世纪的宗教论文和学术散文，年代相近，但困惑度差异巨大。学术散文3.2倍更surprising，宗教论文只有1.8倍。

这说明"历史性"不是一个均匀的维度——体裁（genre）对模型理解的影响可能超过年代。宗教文本在训练数据中可能更常见（圣经注释、神学论著被大量数字化），而17世纪的学术散文（炼金术、早期科学论文）则罕见得多。

发现4：60%的困惑度可以用一句话消除

作者测试了一个极简的干预：在prompt中加一句"以下是17世纪意大利语文本"。

就这么一句提示，历史困惑度降低了约60%。

这说明模型对历史语言并非无能为力——它只是没有"启动"正确的上下文模式。一个简单的temporal context prompt就能激活模型的历史语言处理能力。

发现5：经典文本是误导性的基准

《约婚夫妇》作为19世纪意大利经典，在所有维度上都表现接近现代意大利语——分词膨胀小，困惑度温和，embedding相似度高。

但这是因为它是"历史文本"吗？不是。是因为它被广泛数字化、编辑、传播，很可能在训练数据中大量出现。用经典文本来评估模型对历史语言的处理能力，会严重高估模型的能力。

为什么这很重要

这篇论文对数字人文领域有直接实践价值：数字图书馆可以安全地用LLM做历史文本的语义检索，但生成任务（如自动翻译、现代文改写）需要额外适配。

但更深层的方法论贡献是对整个NLP领域的：

perplexity不是理解的代理指标。这个观点在机制可解释性圈子里已经有人提出，但这篇论文用历史语言作为天然实验场，给出了最清晰的实证证据。

一个模型可以同时"困惑"和"理解"——这就像一个人可以同时"说不好"和"听得懂"一门外语。生成和表征是两条路径，perplexity只测量了前者。

下次你看到某模型在某数据集上perplexity很高就断言"模型不懂这个领域"——想想17世纪的意大利语。也许模型只是说不出来，但它知道。

论文信息

标题: How Surprising Is Historical Italian to Language Models? Tokenization Tax, Comprehension Tax, and a Simple Mitigation
作者: Maria Levchenko
机构: University of Bologna
arXiv: https://arxiv.org/abs/2606.27275
HTML: https://arxiv.org/html/2606.27275v1
会议: The 22nd Conference on Information and Research Science Connecting to Digital and Library Science

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力