六百年无人读懂的书：统计学家终于证明了它里面真的有"两种语言"

> 论文: A Quantitative Confirmation of the Currier Language Distinction > 作者: Christophe Parisel > arXiv: 2604.25979 [cs.CR, cs.CL] > 发表日期: 2026-04-28

---

一、一本来自地下室的书

1912 年，一个名叫 Wilfrid Voynich 的波兰裔美国书商走进意大利北部一座耶稣会修道院的地下室。他在一个尘封的箱子里翻出了一本小书——约 240 页，23.5 厘米长，16.2 厘米宽，羊皮纸装订。

他打开第一页，愣住了。

书里全是陌生的符号：弯弯曲曲的字母、仿佛来自另一个星球的植物插图、赤裸的人体浸泡在奇怪的管道中、精密的天文轮盘、以及没有任何人认识的"文字"。碳-14 测年后来告诉我们，这些羊皮纸制作于 1404 到 1438 年之间——欧洲的中世纪晚期，达芬奇出生前的几十年。

但最让密码学家、语言学家和历史学家抓狂的不是那些诡异的插图。是文字本身。

六百多年来，无数人试图破译它。二战时英国密码学的掌门人、破译恩尼格玛密码的团队成员之一尝试过。美国国家安全局（NSA）的整个部门研究过它。计算机时代到来后，机器学习算法被喂进这些符号。所有人都失败了。

这本书就是伏尼契手稿（Voynich Manuscript）——被公认为世界上最神秘的手稿。

而 2026 年 4 月，一位名叫 Christophe Parisel 的独立研究者发表了一篇论文，用冷酷的统计学证明了一个近乎惊人的事实：这本书里的"文字"确实分成两种截然不同的体系。不是猜测，不是印象，而是数学上的必然。

---

二、Currier 的直觉：一个密码学家的敏锐嗅觉

故事要先倒回 1976 年。

Prescott Currier 是一位美国海军的密码学家，二战期间专门破译敌方密码。战后他在 NSA 工作，对统计模式有着猎犬般的敏感。在 1976 年一场关于伏尼契手稿的学术研讨会上，他站起来说了一句话，改变了整个研究领域：

"这本书里不止一种'语言'。"

他基于自己的统计计数，将手稿分成了两类——后人称之为 Currier A 和 Currier B。他的证据不是主观的"感觉"，而是实实在在的数字：

在 A 类页面中，符号组合 "chol" 和 "chor" 出现频率极高，经常连续重复；在 B 类中几乎不见。
在 B 类页面中，词尾的 "dy" 泛滥成灾；在 A 类中几乎不存在。
"chaiin" 在 B 类中罕见，在 A 类中中等频率。
一个词在 A 类中最常见的是 "daiin"；在 B 类中则是 "chedy"。而 "chedy" 在 A 类中根本不出现。

Currier 自己立刻澄清：他说的"语言"不一定是指希腊语 vs 拉丁语那种不同的自然语言。他指的是统计特征模式——就像两个人的笔迹，即使写的是同一种语言，字母的倾斜度、间距、连笔习惯也截然不同。

更惊人的是，Currier 还注意到手稿的笔迹本身就分成两类。A 类的字大而圆润，B 类的字小而紧凑。后来的古文字学家 Lisa Fagin Davis 将抄写手迹细分为五种，但奇妙的是：没有一种手迹同时写 A 和 B。写 A 的是 Scribe 1 和 4；写 B 的是 Scribe 2、3、5。

但这个发现就像一把钥匙被扔进了大海——人人都知道它可能很重要，但五十年间，几乎没有人用现代定量方法去严格验证它。

---

三、为什么验证这么难？

Parisel 在论文中提出了三个核心挑战：

第一，是不是自然波动？ 任何长文本的局部统计都会有涨落。A 和 B 的差异会不会只是"这本书前半段和后半段碰巧不同"的随机噪声？

第二，是不是物理结构的混淆？ Currier 的原始分类和手稿的"册页结构"（quire boundaries）高度相关。换句话说，A 类和 B 类的区分可能只是"不同装订册由不同人抄写"的副产品，而非文本本身的内在属性。

第三，也是最难的：如果 Currier 从未存在过，一个完全不知情的算法能否自己发现这个区分？ 一个研究者对手稿的无偏观察，是否会独立地推导出同样的 A/B 分割？

这三个问题，Parisel 用一篇 16 页的论文全部回答了。

---

四、Beta-Binomial 混合模型的魔法

Parisel 的核心武器是 Beta-Binomial 混合模型——一种生成式概率模型，常用于处理"过度分散"的计数数据。

让我们用大白话解释他的思路。

如果伏尼契手稿使用了一种替换密码系统（substitution cipher），而 A 和 B 代表两种不同的替换规则，那么视觉上相似的字符对应该在 A 和 B 中表现出系统性的频率比例差异。

举个例子：假设在某种密码中，字符 "d" 和 "l" 是同一密文字母的两个变体（allograph）。如果在 A 类中 "d" 占主导，在 B 类中 "l" 占主导，那么 d/l 的比例会在 A/B 边界上发生跳跃。

Parisel 计算了 185 个 folio（对开页）中多对字符的替换比例，然后做了三件事：

第一件事：打乱标签。 他把 Currier 的 A/B 标签随机重排了一千次。结果发现，随机标签下几乎不可能重现 Currier 观察到的模式（p < 0.001）。这意味着差异不是幻觉。

第二件事：单语言马尔可夫模拟。 他假设整本书来自同一个均匀的统计来源，然后用计算机生成了 200 个"假手稿"。没有一个假手稿能复制出真实手稿中的 A/B 差异模式。这意味着一本书不可能是"一个人用一种规则从头到尾写完的"。

第三件事：无监督聚类。 这是全文最惊艳的部分。Parisel 把 Currier 的 A/B 标签全部藏起来，只把原始字符计数喂给 Beta-Binomial 混合模型。模型被要求在不知道任何先验分类的情况下，自己决定"这本书包含几种统计体制"。

贝叶斯信息准则（BIC）明确选择了 k = 2——两种体制。模型恢复的两种体制，与 Currier 五十年前手动标记的 A/B 分类，吻合度为 ARI = 0.383。185 个 folio 中，有 113 个（61%）以超过 90% 的后验置信度被分配到了正确的类别。

注意这里的震撼性：一个 1976 年的密码学家的肉眼观察，被一个 2026 年的概率生成模型完全独立地重新发现。数据本身在说话。

但这还不够。Parisel 做了第四件事：预测验证。他用一部分 folio 训练监督分类器，然后在完全没见过的 folio 上预测它们的 A/B 身份。交叉验证准确率：89.2%。500 次标签随机置换中，零次达到 comparable 的准确率（p < 0.002）。

这不是对训练数据的描述，这是对未来数据的预测。A/B 区分不是一个事后的标签游戏；它是一个真实的、可预测的统计属性。

---

五、三个功能区域：密码的指纹

Parisel 的深入分析揭示了一个更精微的结构：字符对按照它们对 A/B 区分的"忠诚度"，分成三个功能区域。

范畴性区域（Categorical）

包括 d/l、or/ar、s/r、e/ee 这几对。它们的 Cramér's V 值超过 0.20（这是一个很强的关联度），在混合模型中表现出巨大的制度差异，是聚类算法的"顶梁柱"。

这些对的行为方式极像密码替换：在 A 中几乎只用其中一个变体，在 B 中几乎只用另一个，切换是近二值的。就像开关一样——开或关，没有中间状态。

中间性区域（Intermediate）

包括 ol/al、y/dy、k/t 这几对。Cramér's V 在 0.04 到 0.15 之间，PC1 载荷中等。它们不像开关那样绝对，但确实携带了 A/B 边界信号。更像是分级偏好——A 中倾向于这个，B 中倾向于那个，但偶尔例外。

自由变异区域（Free Variation）

包括 o/a、ch/sh、f/p 这几对。Cramér's V 接近零，PC1 载荷几乎为零，在混合模型中的制度差异极小。它们完全不受 A/B 区分约束。

这三组的存在意义极其深远。它们告诉我们：伏尼契手稿的"书写系统"不是一个简单的、全局统一的密码表。 有些字符对是严格体制依赖的（像密码替换），有些只是偏好性的，有些则根本不受体制影响（像真正的变体异写，allographic variation）。

---

六、e/ch 异常：一个叛逆的字符对

在全部分析中，有一个字符对的行为让 Parisel 特别着迷：e/ch。

从聚合统计来看，e/ch 的 Cramér's V 几乎为零（0.007），看起来像是"自由变异"区域的一员。但当它出现在 A/B 边界时，它的跳跃幅度是最大的（p = 2.45 × 10⁻⁶）。更奇怪的是，当 e/ch 被包含在聚类特征中时，它主动抑制了聚类效果——无监督 K-means 的 ARI 只有 0.208；但把 e/ch 移除后，ARI 翻倍到 0.456。

Parisel 的解释优雅而深刻：e/ch 的变异不是被 A/B 二元体制决定的，而是被更微观的因素条件化的——可能是词级结构，也可能是字符在词中的位置。 它携带了最多的局部边界信息，但对全局分区最具破坏性。

这就像在一个侦探故事里，有一个证人对案情的某些局部细节知道得最多，但他的证词如果全盘采纳反而会让整个案件的框架崩塌。e/ch 在提醒我们：A/B 区分虽然重要，但它只是伏尼契手稿统计结构的冰山一角。

---

七、被解释的 29%，和未被解释的 71%

Parisel 的模型有一个令人警醒的定量结果：A/B 标签解释了 folio 间字符对比例的 29.3% 的方差（R² = 0.293）。

这意味着什么？

Currier 的 A/B 区分确实是手稿中最主要的统计轴。但它只解释了不到三分之一的变化。剩下的 71%——超过七成的统计结构——来自 A/B 二元框架无法捕捉的来源。

Parisel 给出了几个线索：

Split-Markov 模型（假设 A 和 B 各自内部是均匀的）系统地低估了每个 folio 的方差，低估倍数在 1.5 到 6 倍之间。这说明 A 和 B 各自内部还有子结构或梯度。
空间不对称性：前向空间分割（用前面的 folio 预测后面的）准确率 79.6%，但反向分割（用后面的预测前面的）只有 41.3%。这不是因为信号失败，而是因为手稿的时间结构本身就是不对称的：早期主要是 A，晚期主要是 B。这暗示了一个可能的创作顺序。
手稿中还存在大量的"中间形态"，A 和 B 不是两个孤立的岛，而是一条光谱的两端。

---

八、对"骗局论"的一击

伏尼契研究领域有一个持续不断的争论：这到底是不是一场骗局？

Gordon Rugg 在 2004 年提出，整个手稿可能是一位 15 世纪的江湖骗子用 Cardan grille（卡丹格栅）技术生成的无意义文本。Andreas Schinner 和 Timm 在 2020 年进一步提出了可能的生成算法。如果手稿只是精心设计的 gibberish，那么它当然不需要被"破译"——因为它本来就没有意义。

Parisel 的结果给了骗局论一记重击。

如果整本书是一个人在一个连续的创作过程中用一种方法生成的——无论是骗局还是密码——那么它的统计结构应该是均匀的。最多有一些随机涨落。但 Parisel 证明：

1. 单一均匀来源无法生成观察到的 A/B 差异（200 次模拟全部失败）。 2. 两种统计体制不仅在全局上不同，在同一册页的内部边界上也能检测到（p = 6.89 × 10⁻⁵）。 3. 字符对之间的切换模式呈现出密码般的层级结构（范畴性/中间性/自由变异），这不是随机文本会自然涌现的特征。

骗局论者当然可以争辩说："作者故意设计了两种 gibberish 系统来增加神秘感。" 但这种特设假设（ad hoc hypothesis）的代价是巨大的——你需要假设一个 15 世纪的作者不仅精通统计模式，还故意制造了一种连 21 世纪的机器学习模型都需要五页数学推导才能逼近的结构复杂性。

更简洁的解释是：手稿包含真实的、有意义的结构。 它可能是密码，可能是某种未知语言，可能是构造语言。但它不太可能是纯粹的 gibberish。

---

九、与 Naibbe 密码的对话

就在几个月前，科学记者 Michael Greshko 在 Cryptologia 期刊上发表了一个引人入胜的"反证"：他没有试图破译伏尼契手稿，而是反过来，设计了一个 15 世纪技术可行的密码——"Naibbe 密码"——能把拉丁语或意大利语加密成统计上与伏尼契文高度相似的密文。

Naibbe 密码的核心是一种 verbose homophonic substitution（冗长同音替换）：用一副纸牌或骰子作为随机源，将明文字母映射为多个不同的伏尼契式符号串。Greshko 证明，这个方法能同时复现伏尼契文的多个关键统计特征：符号频率、词长分布、位置模式。

但 Naibbe 密码无法完美复现 Voynich B 的属性。这意味着：即使密码假说是正确的，真正的系统也比 Naibbe 更复杂。

Parisel 的 A/B 区分研究为密码论提供了新的约束条件。任何候选密码必须解释：

为什么某些字符对在 A/B 间近范畴切换，而另一些完全不受影响？
为什么 A 类中 "chedy" 几乎不存在，而 B 类中 "daiin" 仍可出现？
为什么同一册页内部可以同时存在 A 和 B 的 folio？

这些问题让密码论者的任务变得更难了，但也让密码论变得更有价值了——因为现在他们有了更精确的靶子。

---

十、写在最后

Parisel 的论文标题非常谦逊："A Quantitative Confirmation of the Currier Language Distinction"（Currier 语言区分的定量确认）。但它实际上做了远比"确认"更多的事。

它用五条独立的证据链——标签重排、马尔可夫模拟、册页边界分析、无监督混合模型、预测验证——构建了一个几乎不可撼动的论证：伏尼契手稿确实包含两种统计上可分离的"书写体制"。

它揭示了三个功能区域，为所有未来的破解尝试划定了约束条件。

它定量地告诉我们，A/B 只是 29% 的故事，71% 仍藏在黑暗中。

而我个人最喜欢的一个隐喻是这样的：伏尼契手稿不是一座没有入口的城堡。它是一座我们知道有门、但还没找到钥匙孔在哪里的城堡。Currier 在五十年前指出了一个方向，说"这边和那边看起来不一样"。Parisel 用统计学证明了 Currier 是对的，而且还量化了"不一样"的程度和结构。

但这扇门背后是什么？是一座金库，还是一面空墙？我们仍然不知道。

或许永远也不会知道。但正是这种"知道一些、不知道更多"的状态，让伏尼契手稿在六百年后仍然令人魂牵梦绕。它不是未解之谜——它是谜的结构本身。

---

*本文基于 Christophe Parisel 的论文 arXiv:2604.25979 撰写。文中关于伏尼契手稿的历史背景参考了 Mary D'Imperio 的《An Elegant Enigma》(NSA, 1978)、Kennedy & Churchill 的《The Voynich Manuscript》(2004)、以及 Bowern & Lindemann 的《The Linguistics of the Voynich Manuscript》(Annual Review of Linguistics, 2021)。关于 Naibbe 密码的讨论参考了 Michael Greshko 发表于 Cryptologia (2025) 的研究。*