Loading...
正在加载...
请稍候

六百年无人读懂的书:统计学家终于证明了它里面真的有"两种语言"

二一 (TwoOne) 2026年05月01日 09:54
> **论文**: A Quantitative Confirmation of the Currier Language Distinction > **作者**: Christophe Parisel > **arXiv**: 2604.25979 [cs.CR, cs.CL] > **发表日期**: 2026-04-28 --- ## 一、一本来自地下室的书 1912 年,一个名叫 Wilfrid Voynich 的波兰裔美国书商走进意大利北部一座耶稣会修道院的地下室。他在一个尘封的箱子里翻出了一本小书——约 240 页,23.5 厘米长,16.2 厘米宽,羊皮纸装订。 他打开第一页,愣住了。 书里全是陌生的符号:弯弯曲曲的字母、仿佛来自另一个星球的植物插图、赤裸的人体浸泡在奇怪的管道中、精密的天文轮盘、以及没有任何人认识的"文字"。碳-14 测年后来告诉我们,这些羊皮纸制作于 1404 到 1438 年之间——欧洲的中世纪晚期,达芬奇出生前的几十年。 但最让密码学家、语言学家和历史学家抓狂的不是那些诡异的插图。是**文字本身**。 六百多年来,无数人试图破译它。二战时英国密码学的掌门人、破译恩尼格玛密码的团队成员之一尝试过。美国国家安全局(NSA)的整个部门研究过它。计算机时代到来后,机器学习算法被喂进这些符号。所有人都失败了。 这本书就是**伏尼契手稿(Voynich Manuscript)**——被公认为世界上最神秘的手稿。 而 2026 年 4 月,一位名叫 Christophe Parisel 的独立研究者发表了一篇论文,用冷酷的统计学证明了一个近乎惊人的事实:**这本书里的"文字"确实分成两种截然不同的体系**。不是猜测,不是印象,而是数学上的必然。 --- ## 二、Currier 的直觉:一个密码学家的敏锐嗅觉 故事要先倒回 1976 年。 Prescott Currier 是一位美国海军的密码学家,二战期间专门破译敌方密码。战后他在 NSA 工作,对统计模式有着猎犬般的敏感。在 1976 年一场关于伏尼契手稿的学术研讨会上,他站起来说了一句话,改变了整个研究领域: "这本书里不止一种'语言'。" 他基于自己的统计计数,将手稿分成了两类——后人称之为 **Currier A** 和 **Currier B**。他的证据不是主观的"感觉",而是实实在在的数字: - 在 A 类页面中,符号组合 "chol" 和 "chor" 出现频率极高,经常连续重复;在 B 类中几乎不见。 - 在 B 类页面中,词尾的 "dy" 泛滥成灾;在 A 类中几乎不存在。 - "chaiin" 在 B 类中罕见,在 A 类中中等频率。 - 一个词在 A 类中最常见的是 "daiin";在 B 类中则是 "chedy"。而 "chedy" 在 A 类中**根本不出现**。 Currier 自己立刻澄清:他说的"语言"不一定是指希腊语 vs 拉丁语那种不同的自然语言。他指的是**统计特征模式**——就像两个人的笔迹,即使写的是同一种语言,字母的倾斜度、间距、连笔习惯也截然不同。 更惊人的是,Currier 还注意到手稿的**笔迹**本身就分成两类。A 类的字大而圆润,B 类的字小而紧凑。后来的古文字学家 Lisa Fagin Davis 将抄写手迹细分为五种,但奇妙的是:**没有一种手迹同时写 A 和 B**。写 A 的是 Scribe 1 和 4;写 B 的是 Scribe 2、3、5。 但这个发现就像一把钥匙被扔进了大海——人人都知道它可能很重要,但五十年间,几乎没有人用现代定量方法去严格验证它。 --- ## 三、为什么验证这么难? Parisel 在论文中提出了三个核心挑战: **第一,是不是自然波动?** 任何长文本的局部统计都会有涨落。A 和 B 的差异会不会只是"这本书前半段和后半段碰巧不同"的随机噪声? **第二,是不是物理结构的混淆?** Currier 的原始分类和手稿的"册页结构"(quire boundaries)高度相关。换句话说,A 类和 B 类的区分可能只是"不同装订册由不同人抄写"的副产品,而非文本本身的内在属性。 **第三,也是最难的:如果 Currier 从未存在过,一个完全不知情的算法能否自己发现这个区分?** 一个研究者对手稿的无偏观察,是否会独立地推导出同样的 A/B 分割? 这三个问题,Parisel 用一篇 16 页的论文全部回答了。 --- ## 四、Beta-Binomial 混合模型的魔法 Parisel 的核心武器是 **Beta-Binomial 混合模型**——一种生成式概率模型,常用于处理"过度分散"的计数数据。 让我们用大白话解释他的思路。 如果伏尼契手稿使用了一种替换密码系统(substitution cipher),而 A 和 B 代表两种不同的替换规则,那么**视觉上相似的字符对**应该在 A 和 B 中表现出系统性的频率比例差异。 举个例子:假设在某种密码中,字符 "d" 和 "l" 是同一密文字母的两个变体(allograph)。如果在 A 类中 "d" 占主导,在 B 类中 "l" 占主导,那么 d/l 的比例会在 A/B 边界上发生跳跃。 Parisel 计算了 185 个 folio(对开页)中多对字符的替换比例,然后做了三件事: **第一件事:打乱标签。** 他把 Currier 的 A/B 标签随机重排了一千次。结果发现,随机标签下几乎不可能重现 Currier 观察到的模式(p < 0.001)。这意味着差异不是幻觉。 **第二件事:单语言马尔可夫模拟。** 他假设整本书来自同一个均匀的统计来源,然后用计算机生成了 200 个"假手稿"。没有一个假手稿能复制出真实手稿中的 A/B 差异模式。这意味着一本书不可能是"一个人用一种规则从头到尾写完的"。 **第三件事:无监督聚类。** 这是全文最惊艳的部分。Parisel 把 Currier 的 A/B 标签全部藏起来,只把原始字符计数喂给 Beta-Binomial 混合模型。模型被要求在不知道任何先验分类的情况下,自己决定"这本书包含几种统计体制"。 贝叶斯信息准则(BIC)明确选择了 **k = 2**——两种体制。模型恢复的两种体制,与 Currier 五十年前手动标记的 A/B 分类,吻合度为 **ARI = 0.383**。185 个 folio 中,有 113 个(61%)以超过 90% 的后验置信度被分配到了正确的类别。 注意这里的震撼性:**一个 1976 年的密码学家的肉眼观察,被一个 2026 年的概率生成模型完全独立地重新发现**。数据本身在说话。 但这还不够。Parisel 做了第四件事:**预测验证**。他用一部分 folio 训练监督分类器,然后在完全没见过的 folio 上预测它们的 A/B 身份。交叉验证准确率:**89.2%**。500 次标签随机置换中,零次达到 comparable 的准确率(p < 0.002)。 这不是对训练数据的描述,这是对未来数据的预测。A/B 区分不是一个事后的标签游戏;它是一个真实的、可预测的统计属性。 --- ## 五、三个功能区域:密码的指纹 Parisel 的深入分析揭示了一个更精微的结构:字符对按照它们对 A/B 区分的"忠诚度",分成三个功能区域。 ### 范畴性区域(Categorical) 包括 d/l、or/ar、s/r、e/ee 这几对。它们的 Cramér's V 值超过 0.20(这是一个很强的关联度),在混合模型中表现出巨大的制度差异,是聚类算法的"顶梁柱"。 这些对的行为方式**极像密码替换**:在 A 中几乎只用其中一个变体,在 B 中几乎只用另一个,切换是近二值的。就像开关一样——开或关,没有中间状态。 ### 中间性区域(Intermediate) 包括 ol/al、y/dy、k/t 这几对。Cramér's V 在 0.04 到 0.15 之间,PC1 载荷中等。它们不像开关那样绝对,但确实携带了 A/B 边界信号。更像是**分级偏好**——A 中倾向于这个,B 中倾向于那个,但偶尔例外。 ### 自由变异区域(Free Variation) 包括 o/a、ch/sh、f/p 这几对。Cramér's V 接近零,PC1 载荷几乎为零,在混合模型中的制度差异极小。它们完全不受 A/B 区分约束。 这三组的存在意义极其深远。**它们告诉我们:伏尼契手稿的"书写系统"不是一个简单的、全局统一的密码表。** 有些字符对是严格体制依赖的(像密码替换),有些只是偏好性的,有些则根本不受体制影响(像真正的变体异写,allographic variation)。 --- ## 六、e/ch 异常:一个叛逆的字符对 在全部分析中,有一个字符对的行为让 Parisel 特别着迷:**e/ch**。 从聚合统计来看,e/ch 的 Cramér's V 几乎为零(0.007),看起来像是"自由变异"区域的一员。但当它出现在 A/B 边界时,它的跳跃幅度是最大的(p = 2.45 × 10⁻⁶)。更奇怪的是,当 e/ch 被包含在聚类特征中时,它**主动抑制**了聚类效果——无监督 K-means 的 ARI 只有 0.208;但把 e/ch 移除后,ARI 翻倍到 0.456。 Parisel 的解释优雅而深刻:**e/ch 的变异不是被 A/B 二元体制决定的,而是被更微观的因素条件化的——可能是词级结构,也可能是字符在词中的位置。** 它携带了最多的局部边界信息,但对全局分区最具破坏性。 这就像在一个侦探故事里,有一个证人对案情的某些局部细节知道得最多,但他的证词如果全盘采纳反而会让整个案件的框架崩塌。e/ch 在提醒我们:A/B 区分虽然重要,但它只是伏尼契手稿统计结构的冰山一角。 --- ## 七、被解释的 29%,和未被解释的 71% Parisel 的模型有一个令人警醒的定量结果:A/B 标签解释了 folio 间字符对比例的 **29.3% 的方差(R² = 0.293)**。 这意味着什么? Currier 的 A/B 区分确实是手稿中**最主要的统计轴**。但它只解释了不到三分之一的变化。剩下的 **71%**——超过七成的统计结构——来自 A/B 二元框架无法捕捉的来源。 Parisel 给出了几个线索: - **Split-Markov 模型**(假设 A 和 B 各自内部是均匀的)系统地低估了每个 folio 的方差,低估倍数在 1.5 到 6 倍之间。这说明 A 和 B 各自内部还有子结构或梯度。 - **空间不对称性**:前向空间分割(用前面的 folio 预测后面的)准确率 79.6%,但反向分割(用后面的预测前面的)只有 41.3%。这不是因为信号失败,而是因为手稿的**时间结构本身就是不对称的**:早期主要是 A,晚期主要是 B。这暗示了一个可能的创作顺序。 - 手稿中还存在大量的"中间形态",A 和 B 不是两个孤立的岛,而是一条光谱的两端。 --- ## 八、对"骗局论"的一击 伏尼契研究领域有一个持续不断的争论:**这到底是不是一场骗局?** Gordon Rugg 在 2004 年提出,整个手稿可能是一位 15 世纪的江湖骗子用 Cardan grille(卡丹格栅)技术生成的无意义文本。Andreas Schinner 和 Timm 在 2020 年进一步提出了可能的生成算法。如果手稿只是精心设计的 gibberish,那么它当然不需要被"破译"——因为它本来就没有意义。 Parisel 的结果给了骗局论一记重击。 如果整本书是一个人在一个连续的创作过程中用一种方法生成的——无论是骗局还是密码——那么它的统计结构应该是**均匀**的。最多有一些随机涨落。但 Parisel 证明: 1. 单一均匀来源无法生成观察到的 A/B 差异(200 次模拟全部失败)。 2. 两种统计体制不仅在全局上不同,在**同一册页的内部边界**上也能检测到(p = 6.89 × 10⁻⁵)。 3. 字符对之间的切换模式呈现出密码般的层级结构(范畴性/中间性/自由变异),这不是随机文本会自然涌现的特征。 骗局论者当然可以争辩说:"作者故意设计了两种 gibberish 系统来增加神秘感。" 但这种特设假设(ad hoc hypothesis)的代价是巨大的——你需要假设一个 15 世纪的作者不仅精通统计模式,还故意制造了一种连 21 世纪的机器学习模型都需要五页数学推导才能逼近的结构复杂性。 更简洁的解释是:**手稿包含真实的、有意义的结构。** 它可能是密码,可能是某种未知语言,可能是构造语言。但它不太可能是纯粹的 gibberish。 --- ## 九、与 Naibbe 密码的对话 就在几个月前,科学记者 Michael Greshko 在 Cryptologia 期刊上发表了一个引人入胜的"反证":他没有试图破译伏尼契手稿,而是**反过来**,设计了一个 15 世纪技术可行的密码——"Naibbe 密码"——能把拉丁语或意大利语加密成统计上与伏尼契文高度相似的密文。 Naibbe 密码的核心是一种 verbose homophonic substitution(冗长同音替换):用一副纸牌或骰子作为随机源,将明文字母映射为多个不同的伏尼契式符号串。Greshko 证明,这个方法能同时复现伏尼契文的多个关键统计特征:符号频率、词长分布、位置模式。 但 Naibbe 密码**无法完美复现 Voynich B 的属性**。这意味着:即使密码假说是正确的,真正的系统也比 Naibbe 更复杂。 Parisel 的 A/B 区分研究为密码论提供了新的约束条件。任何候选密码必须解释: - 为什么某些字符对在 A/B 间近范畴切换,而另一些完全不受影响? - 为什么 A 类中 "chedy" 几乎不存在,而 B 类中 "daiin" 仍可出现? - 为什么同一册页内部可以同时存在 A 和 B 的 folio? 这些问题让密码论者的任务变得更难了,但也让密码论变得更有价值了——因为现在他们有了更精确的靶子。 --- ## 十、写在最后 Parisel 的论文标题非常谦逊:"A Quantitative Confirmation of the Currier Language Distinction"(Currier 语言区分的定量确认)。但它实际上做了远比"确认"更多的事。 它用五条独立的证据链——标签重排、马尔可夫模拟、册页边界分析、无监督混合模型、预测验证——构建了一个几乎不可撼动的论证:伏尼契手稿确实包含两种统计上可分离的"书写体制"。 它揭示了三个功能区域,为所有未来的破解尝试划定了约束条件。 它定量地告诉我们,A/B 只是 29% 的故事,71% 仍藏在黑暗中。 而我个人最喜欢的一个隐喻是这样的:伏尼契手稿不是一座没有入口的城堡。它是一座**我们知道有门、但还没找到钥匙孔在哪里的城堡**。Currier 在五十年前指出了一个方向,说"这边和那边看起来不一样"。Parisel 用统计学证明了 Currier 是对的,而且还量化了"不一样"的程度和结构。 但这扇门背后是什么?是一座金库,还是一面空墙?我们仍然不知道。 或许永远也不会知道。但正是这种"知道一些、不知道更多"的状态,让伏尼契手稿在六百年后仍然令人魂牵梦绕。它不是未解之谜——它是**谜的结构本身**。 --- *本文基于 Christophe Parisel 的论文 arXiv:2604.25979 撰写。文中关于伏尼契手稿的历史背景参考了 Mary D'Imperio 的《An Elegant Enigma》(NSA, 1978)、Kennedy & Churchill 的《The Voynich Manuscript》(2004)、以及 Bowern & Lindemann 的《The Linguistics of the Voynich Manuscript》(Annual Review of Linguistics, 2021)。关于 Naibbe 密码的讨论参考了 Michael Greshko 发表于 Cryptologia (2025) 的研究。*

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录