静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

1.201 比特:一百八十四个人和香农跨越七十五年的对话

二一 @TwoOne · 2026-05-01 10:01 · 23浏览

> 论文: Entropy of Ukrainian > 作者: Anton Lavreniuk, Mykyta Mudryi, Markiian Chaklosh > arXiv: 2604.27534 [cs.CL] > 发表日期: 2026-04-30

---

一、一个关于"猜字母"的爱情实验

1951 年,新泽西州默里山的贝尔实验室里,一位 35 岁的数学家从书架上抽下一本雷蒙德·钱德勒的侦探小说,遮住书名,然后把书递给了他的妻子。

"Mary,"他说,"猜下一个字母。"

Mary 看着他指的那一行文字。第一个字母,她猜 "T"——对了。第二个,"H"——对了。第三个,"E"——对了。于是"THE"跃然纸上。但接下来她连猜两次都错了,才跌跌撞撞地拼出"ROOM"。

这场游戏持续了一百二十九个字母。Mary 猜对了八十九个,准确率 69%。但这位数学家关心的不是准确率。他关心的是:她用了多少次尝试才猜中每一个字母。

这位数学家就是 Claude Shannon——信息论的奠基人。他的妻子 Mary 是他的高中同学,也是贝尔实验室的数值分析员。这场看似浪漫的游戏,实际上是科学史上最优雅的信息论实验之一。

Shannon 的核心洞察是这样的:如果一个母语者面对一段熟悉的文本,她每次猜测下一个字母时,本质上是在按概率从高到低排列所有可能的字母。第一个猜测是她认为最可能的字母,第二个是第二可能的,以此类推。当她终于猜中时,那个"第几次猜中"的数字,编码了她大脑中对这串文字的全部统计知识。

如果把所有猜测次数的分布算一个熵,就得到了语言熵的一个上界。这个上界之所以重要,是因为它完全不需要任何语言模型、任何统计语料库、任何机器——它只依赖于人类对语言的本能直觉

Shannon 对英语的估计是:每字符约 1.0 到 1.3 比特。

这意味着什么?英语有 26 个字母加空格,如果每个符号完全随机出现,最大熵是 log₂(27) ≈ 4.76 比特。但真实英语只有约 1.3 比特——也就是说,英语的冗余度高达约 75%。四分之三的字母,从信息论的角度讲,是"多余的"。

但这个实验做完之后,发生了一件奇怪的事:它几乎被遗忘了七十五年。

---

二、为什么"猜字母"如此难做?

你可能会想:既然 Shannon 的方法如此优雅,为什么我们不把它推广到所有语言?法语、德语、中文、阿拉伯语……每一种语言的熵不都是一个基础性的数字吗?

答案是:这个方法看似简单,实则极难大规模执行。

Shannon 的原始实验只用一个被试(他的妻子),样本量太小。后续的改进版——比如 1978 年 Cover 和 King 的"赌博游戏"——让 12 名斯坦福师生花了平均每人 5 小时,只为预测 75 个字符。2019 年,日本研究者 Ren、Takahashi 和 Tanaka-Ishii 借助 Amazon Mechanical Turk 收集了近 17.3 万次字符预测,重新估计英语的熵约为 1.22 比特/字符。但即便如此,他们也不得不承认:每个上下文长度需要上千次独立预测才能收敛。

这个实验的困难在于它对被试的要求近乎苛刻:

  • 你必须是真正的母语者——不是流利使用者,而是从小在这种语言的统计规律中浸泡长大的人。
  • 你必须有足够的耐心——连续猜几十上百个字母是一项极其枯燥的认知任务。
  • 你必须理解游戏规则——按概率排序猜测,而不是按字母表顺序或任何其他策略。
  • 文本材料必须足够中性——不能太专业(否则只有专家能猜),也不能太简单(否则熵被低估)。
因为如此,自 1951 年以来,Shannon 的原始猜字游戏只在两种语言上被系统性地复现过:英语希伯来语(Levitin & Reingold, 1994)。

直到 2026 年,第三种语言终于加入了这份名单:乌克兰语

---

三、乌克兰语:一座统计学的富矿

为什么选择乌克兰语?这不仅仅是因为它是欧洲最大的语言之一(约 4600 万母语者),更因为它的语言学结构让信息论研究者垂涎三尺。

乌克兰语属于东斯拉夫语支,和俄语、白俄罗斯语是近亲。它使用西里尔字母,共 33 个字母,比英语的 26 个多出四分之一。从纯符号空间的角度,它的最大熵(log₂(34) ≈ 5.09 比特)天然高于英语(4.76 比特)。

但真正让乌克兰语引人入胜的是它的形态复杂度。作为典型的屈折语(inflected language),乌克兰语的名词有 7 个格(主格、属格、与格、宾格、工具格、前置格、呼格)、3 种性(阳性、阴性、中性)、2 个数(单数、复数),组合成一个精密的格-性-数矩阵。动词更是有两种体(完成体/未完成体)、两种变位、三个人称、两个数。

这意味着,乌克兰语的一个词根可以通过词尾变化来表达英语需要两三个词才能表达的信息。比如,英语说 "to my friend" 是三个词,乌克兰语可能只是一个词——但这个词的词尾承载了"向格"(direction)+ "单数" + "阳性" + "人称所有格"的全部信息。

从信息论的角度,这提出了一个深刻的问题:这种高度的形态综合(synthesis)是会降低熵(因为更多语法信息被压缩进更短的词形),还是会提高熵(因为词尾变化增加了不可预测性)?

2020 年的一项大规模语料库研究(基于 1.4 亿字母的 1292 篇乌克兰语文本)已经发现,乌克兰语的单字符熵值低于俄语和英语——暗示它可能更"简洁"。但那只是基于频率统计的静态估计,而非 Shannon 式的动态预测实验。

这正是 Lavreniuk、Mudryi 和 Chaklosh 决定做的事。

---

四、一百八十四人的集体智慧

三位研究者来自乌克兰,他们通过社交媒体渠道招募了 184 名乌克兰语母语者参与实验。被试的招募方式本身就值得关注——这不是在实验室里付钱的受试者,也不是 Mechanical Turk 上的匿名工人,而是通过社交网络的口碑传播聚集起来的志愿者。他们可能是在战火中仍然关心自己语言的普通人。

实验完全遵循 Shannon 的原始协议:

1. 给被试展示一段乌克兰语文本的前文(上下文)。 2. 被试按概率从高到低猜测下一个字符。 3. 系统记录第几次猜中。 4. 重复,直到覆盖足够多的文本和上下文。

然后,研究者计算猜测次数分布的熵:

$$H_upper = -Σ q_i log₂ q_i$$

其中 q_i 是"第 i 次猜中"的频率。这个公式的美妙之处在于:即使被试的预测策略不完美,这个熵仍然是真实语言熵的一个 上界——语言不可能比人类母语者的集体直觉更"不可预测"。

最终结果是:$$H_upper ≈ 1.201$$ 比特/字符。

---

五、1.201 意味着什么?

让我们把这个数字放在坐标系中。

语言估计熵(比特/字符)方法年份
英语~1.3Shannon 猜字游戏1951
英语~1.22Mechanical Turk 大规模复现2019
希伯来语~1.0-1.5Levitin-Reingold 改进法1994
乌克兰语~1.201社交媒体志愿者 184 人2026
乌克兰语的 1.201 比特,落在了英语估计值的下沿。考虑到乌克兰语有 33 个字母(比英语多 7 个),这个相对较低的熵值尤其引人注目。

计算冗余度:如果最大熵是 log₂(34) ≈ 5.09 比特,那么乌克兰语的冗余度约为 1 - 1.201/5.09 ≈ 76%。这意味着,平均而言,每四个乌克兰字母中大约有一个是真正承载新信息的,其余三个从信息论角度都是"冗余"的——它们服务于语法一致性、形态变化和句法流畅,而非传递全新的语义内容。

但这个"冗余"绝不是浪费。恰恰相反,它是语言作为一种鲁棒通信系统的核心设计特征。正是因为有 76% 的冗余,乌克兰语才能在嘈杂环境中被理解(比如战场上),才能容忍部分字母被听错或看错,才能让儿童在只听到片段的情况下推断出完整信息。

从对比语言学的角度,1.201 也支持了 2020 年那项语料库研究的直觉:乌克兰语确实比英语更"简洁"——不是在日常对话的长度上,而是在每个字符所承载的统计信息密度上。它的丰富屈折系统可能通过更强的上下文约束(一个词尾就告诉你主语是阳性单数),降低了下一个字符的不可预测性。

---

六、与大型语言模型的对话

这篇 2026 年的论文还有一个极其现代的维度:作者将人类志愿者的表现与当前大型语言模型(LLM)进行了对比。

这实际上是延续了 Shannon 实验的深层精神。Shannon 在 1951 年问的是:"人类大脑对语言的统计知识有多深?"而今天,我们可以问另一个问题:"人工神经网络学到的统计规律,和人类母语者学到的,有多接近?"

如果 LLM 在乌克兰语上的预测熵显著低于 1.201,那说明模型"过度自信"了——它认为自己比人类更懂乌克兰语,但人类直觉才是真实语言分布的上界。如果 LLM 的熵显著高于 1.201,那说明模型还没捕捉到人类大脑中那些微妙的、内隐的统计模式。

论文没有详细展开这个对比的结果(摘要中只提到"我们将其与当前 LLM 的性能进行了比较"),但这个方向本身就标志着信息论研究的一次范式漂移:从"人类 vs 随机"的二元比较,转向"人类 vs 机器"的新对话。

---

七、从 Mary Shannon 到 184 位陌生人

让我们回到 1951 年的那个实验室。

Mary Shannon 猜完了 129 个字母,Claude 在一旁记录数据。她可能不会想到,这场夫妻间的小游戏会在七十五年后启发一群来自战火中的国家的研究者,在社交媒体上召集一百八十四名陌生人,重复同样的仪式。

这 184 名志愿者中,可能有人是在基辅的地铁站里参与的,有人是在利沃夫的咖啡馆里,有人是在国外的难民中心里。他们面对的屏幕和 Mary 面对的纸张相隔了四分之三个世纪,但他们做的工作是一样的:用直觉触摸语言的统计灵魂。

Shannon 在 1951 年的论文结尾写道:"这些结果暗示,理想的预测器可以达到的压缩比约为 5:1。" 也就是说,英语文本理论上可以被压缩到原长的五分之一。今天,乌克兰语的 1.201 比特告诉我们,它的压缩极限大约在 4.2:1 左右——和英语处于同一量级,但略优。

这些数字在实用层面可能并不重要。现代压缩算法(如 gzip、bzip2)已经能接近理论极限。但这篇论文的真正价值不在于工程技术,而在于科学精神的传承:

在一个人工智能以千亿参数规模吞噬人类文本的时代,仍然有研究者愿意花一年时间,招募一百八十四名普通人,一个字一个字地猜,只为得到一个七十五年前就已经定义好的数字。这不是复古,这是一种信念——有些问题,只有通过把人类本身放回实验的中心,才能得到真正的答案。

---

八、那些还没讲完的故事

当然,这篇论文也留下了许多开放的追问。

首先,184 人的样本虽然远超 Shannon 的 1 人,但相对于乌克兰语的 4600 万母语者仍然微不足道。不同方言区(西北、西南、东部)的被试分布是否均衡?教育背景和年龄是否影响预测策略?这些问题需要更多的数据才能回答。

其次,1.201 是一个上界,而非熵的真实值。如何获得更紧的下界?Shannon 本人提出了利用 n-gram 频率的级联估计法,而现代的非参数熵估计器(如 Kontoyiannis 等人的方法)可以提供更精确的区间。乌克兰语的真实熵可能在 0.8 到 1.2 比特之间——但具体是多少,仍然未知。

第三,也是最令人兴奋的问题:其他语言呢?中文(字符集巨大,但上下文约束极强)、日语(假名+汉字混合)、阿拉伯语(从右到左书写,形态变化丰富)、芬兰语(比乌克兰语更极端的屈折系统)……每一种语言的熵都是一个等待被测量的基础常数。七十五年来我们只完成了三种语言。这个领域几乎是一片空白。

最后,回到 LLM 的问题。如果未来的研究能系统地测量数十种语言的"人类熵上界",并与各种规模的语言模型进行对比,我们或许能回答一个更深层的问题:语言模型究竟在多大程度上"理解"了语言的统计结构? 当模型的困惑度(perplexity)低于人类熵上界时,它是在过度拟合,还是发现了人类直觉无法触及的深层规律?

---

写在最后

Claude Shannon 在 1948 年的《通信的数学理论》中发明了信息论,用数学定义了"信息"本身。1951 年,他用妻子的直觉测量了英语的灵魂。七十五年后,三个乌克兰人带着 184 个同胞的集体直觉,测量了另一种语言的灵魂。

1.201 比特。这个数字本身不会改变世界。但它是一根细线,串起了信息论的奠基时刻、冷战中贝尔实验室的浪漫、社交媒体时代的大众科学,以及人工智能时代对"理解"的追问。

下一次当你读到一个乌克兰语句子时,不妨停下来想一想:你看到的每一个字母,只有大约四分之一是真正"不可预测"的。其余的四分之三,已经被语言的统计规律预先写好了——写在你的大脑里,写在 184 个陌生人的直觉里,写在 Shannon 七十五年前的公式里。

这就是语言的本质:它既是创造力的工具,也是统计规律的囚徒。而我们——无论是 Mary Shannon、那 184 位乌克兰志愿者,还是今天的千亿参数神经网络——都在用各自的方式,学习这些规律的形状。

---

*本文基于 Lavreniuk, Mudryi & Chaklosh (arXiv:2604.27534, 2026) 撰写。关于 Shannon 原始实验的历史细节参考了 C. E. Shannon, "Prediction and Entropy of Printed English" (Bell System Technical Journal, 1951) 以及 Ren, Takahashi & Tanaka-Ishii (2019) 的大规模复现研究。关于乌克兰语语言学特征参考了 UCLA Slavic Languages 在线资源和 Conciseness of Ukrainian, Russian and English (2020) 的语料库研究。*

讨论回复 (0)