← 返回主题列表
✨步子哥
@steper · 2026年06月28日 17:53 · 5浏览

论文精选|17世纪意大利语让LLM困惑2.4倍,但它其实没看懂——分词税与理解税的分野

把一段17世纪的意大利学术文本丢给GPT-4,它会怎么样?

你的直觉可能是:老语言嘛,模型肯定看不懂。但这篇论文(arXiv:2606.27275)发现了一个反直觉的分裂现象——模型对17世纪意大利语的"困惑度"飙升2.4倍(学术文本3.2倍),但embedding相似度依然保持在0.85以上。

换句话说:模型"预测不出下一个词",但"知道这段话在说什么"

这是一个重要的发现:我们一直把"困惑度"(perplexity)当作模型理解的代理指标,但这个代理可能从根上就错了。

四维诊断框架

作者Maria Levchenko(博洛尼亚大学)提出了一个把"历史语言难度"分解为四个独立维度的框架:

1. 分词成本(Tokenization Cost):历史文本被切分成多少token?切得越碎,编码效率越低 2. 预测不确定性(Surprisal/Perplexity):模型对下一个词的惊讶程度 3. 语义鲁棒性(Semantic Robustness):embedding相似度——模型的语义表征是否稳定 4. 上下文敏感性(Context Sensitivity):给一点上下文提示,困惑度能降多少

此前的做法把"历史难度"当作一个整体障碍,混淆了正字法变异、语言距离、预训练曝光等多个因素。这个四维框架的核心贡献是:这四个维度可以独立变化,不能互相代理

三个数据集,三个世纪

实验在三个数据集上进行:

  • 17世纪意大利语(1610-1689):作者新整理的语料,从原始页面图像数字化,涵盖宗教论文到学术散文多种体裁
  • 19世纪意大利语(《约婚夫妇》):高曝光控制组——经典文学,广泛数字化,很可能在训练数据中大量出现
  • 18世纪俄语(民用印刷书):正字法压力测试——俄语正字法在18世纪经历改革,和现代俄语差异大但语言本身接近

核心发现:编码税 ≠ 理解税

发现1:分词税是机械税,和理解无关

17世纪意大利语和18世纪俄语都承受约25-30%的分词膨胀——差不多程度的"税"。但它们的预测难度天差地别:

  • 17世纪意大利语:平均2.4倍更surprising(学术散文3.2倍)
  • 18世纪俄语:只有温和上升
分词成本和困惑度没有相关性。分词是一个机械过程——BPE分词器遇到没见过的字符组合就切得更细——这不反映模型是否"理解"文本。

发现2:困惑度高 ≠ 语义表征崩坏

这是最反直觉的发现。17世纪意大利语的perplexity飙升,但embedding相似度在所有数据集上都保持在0.85以上。

这意味着什么?模型可以表征历史文本的语义,即使它不能预测它。生成(预测下一个词)和表征(理解这段话在说什么)是两种不同的能力,使用的是不同的计算路径。

类比一下:你读一篇古汉语文章,可能猜不出下一个字是什么(生成能力差),但完全知道这段话在讲什么(表征能力正常)。

发现3:体裁比年代更重要

17世纪的宗教论文和学术散文,年代相近,但困惑度差异巨大。学术散文3.2倍更surprising,宗教论文只有1.8倍。

这说明"历史性"不是一个均匀的维度——体裁(genre)对模型理解的影响可能超过年代。宗教文本在训练数据中可能更常见(圣经注释、神学论著被大量数字化),而17世纪的学术散文(炼金术、早期科学论文)则罕见得多。

发现4:60%的困惑度可以用一句话消除

作者测试了一个极简的干预:在prompt中加一句"以下是17世纪意大利语文本"。

就这么一句提示,历史困惑度降低了约60%。

这说明模型对历史语言并非无能为力——它只是没有"启动"正确的上下文模式。一个简单的temporal context prompt就能激活模型的历史语言处理能力。

发现5:经典文本是误导性的基准

《约婚夫妇》作为19世纪意大利经典,在所有维度上都表现接近现代意大利语——分词膨胀小,困惑度温和,embedding相似度高。

但这是因为它是"历史文本"吗?不是。是因为它被广泛数字化、编辑、传播,很可能在训练数据中大量出现。用经典文本来评估模型对历史语言的处理能力,会严重高估模型的能力。

为什么这很重要

这篇论文对数字人文领域有直接实践价值:数字图书馆可以安全地用LLM做历史文本的语义检索,但生成任务(如自动翻译、现代文改写)需要额外适配

但更深层的方法论贡献是对整个NLP领域的:

perplexity不是理解的代理指标。这个观点在机制可解释性圈子里已经有人提出,但这篇论文用历史语言作为天然实验场,给出了最清晰的实证证据。

一个模型可以同时"困惑"和"理解"——这就像一个人可以同时"说不好"和"听得懂"一门外语。生成和表征是两条路径,perplexity只测量了前者。

下次你看到某模型在某数据集上perplexity很高就断言"模型不懂这个领域"——想想17世纪的意大利语。也许模型只是说不出来,但它知道。

论文信息

  • 标题: How Surprising Is Historical Italian to Language Models? Tokenization Tax, Comprehension Tax, and a Simple Mitigation
  • 作者: Maria Levchenko
  • 机构: University of Bologna
  • arXiv: https://arxiv.org/abs/2606.27275
  • HTML: https://arxiv.org/html/2606.27275v1
  • 会议: The 22nd Conference on Information and Research Science Connecting to Digital and Library Science

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens