为什么全世界的美食都遵循同一套数学法则？

> *"想象你是一个刚抵达地球的外星人。你走进北京的胡同、巴黎的街角、墨西哥的集市、德里的香料店。你看到的景象让你困惑：人类用成千上万种不同的方式组合食材，创造出似乎无穷无尽的美食。但当你把这些食谱输入计算机，一个惊人的模式浮现了——无论哪个国家、哪种文化，所有美食都服从着同一套深层的数学法则。"*

---

一、厨房的密码

1935年，美国语言学家乔治·金斯利·齐普夫（George Kingsley Zipf）在研究英语文本时发现了一个奇怪的现象：如果把所有单词按使用频率排序，第1名单词的出现次数大约是第2名的两倍，第3名的三倍，第4名的四倍……

这个发现后来被称为齐普夫定律（Zipf's law），它是人类发现的最神秘的统计规律之一。它不仅适用于英语，还适用于汉语、斯瓦希里语、因纽特语——几乎所有人类语言。更奇怪的是，它也适用于城市人口（最大城市约为第二大城市的两倍大）、网页链接、甚至动物的叫声。

一个自然而然的问题是：如果语言服从齐普夫定律，那么其他人类创造的符号系统是否也服从？

2026年4月，印度IIIT Delhi的Ganesh Bagler团队在一项横跨全球 cuisines 的大规模研究中给出了一个响亮的答案：是的，烹饪也是。

他们分析了数以万计的传统食谱，用命名实体识别算法将每道菜的食材、烹饪技术、器具和文化属性一一标注。然后，他们问了一个简单的问题：这些食谱作为一个"符号系统"，是否遵循与自然语言相同的统计法则？

结果令人震惊。不仅齐普夫定律适用于食材使用，还有另外三条同样深刻的统计规律也适用——它们分别来自信息检索、定量语言学和统计物理学。

---

二、四条统治厨房的宇宙法则

法则一：齐普夫定律——少数食材统治世界

Bagler团队发现，如果把全球食谱中的所有食材按使用频率排序，排名与频率之间的关系几乎完美地符合幂律分布——就像语言中的单词一样。

这意味着什么？想象你随机翻开一本世界食谱。无论翻到哪个国家的章节，你都会发现：少数几种食材主导了绝大多数菜肴，而绝大多数食材只出现在极少数食谱中。

这不是巧合。在Bagler的数据集中，洋葱、大蒜、盐、胡椒等基础食材就像语言中的"the"、"of"、"and"——它们无处不在。而像藏红花、松露、罗望子这样的"稀有词"，只在特定的语境中出现。

齐普夫定律在50种语言中都呈现出三段式结构：高频段（功能词/基础食材）稳定不变，中频段（常用内容词/主要食材）平滑下降，低频段（罕见词/特色食材）急剧下弯。Bagler发现，食材使用的齐普夫曲线与语言中的齐普夫曲线在结构上惊人地相似。

荷兰拉德堡德大学的语言学家Sander Lestrade在2017年提出，齐普夫定律可以用"句法×语义"的交互来解释：功能词（如冠词）数量少但必需，内容词（如名词）数量多但使用频率差异大。这个解释是否也适用于烹饪？也许：基础调味料就像"功能词"——每道菜都需要，但种类有限；而主食材就像"内容词"——种类丰富，使用频率差异巨大。

法则二：希普斯定律——烹饪多样性的天花板

1978年，信息检索专家Harold Stanley Heaps提出了一个关于文本词汇增长的规律：随着你阅读更多的文本，你遇到的新单词数量以次线性的速度增长。

具体来说，如果一个文本有N个词，其中不同词的数量V(N)约等于k×N^β，其中β通常在0.4到0.6之间。这意味着：当你已经读了100万字后，再读100万字，遇到的新词数量会远远少于前100万字。

Bagler团队将这一规律应用于烹饪，发现了一个同样深刻的模式：随着食谱语料库的增长，新食材和新技术的出现速度递减。

想象你收集了100道意大利食谱。前100道菜可能包含了50种不同的食材。但当你把收集量扩大到1000道时，新食材的数量可能只增加到120种——而不是500种。到了10000道菜，新增食材的数量会进一步减少。

这背后的直觉是深刻的：每道菜都是一个"句子"，食材是它的"词汇"。就像自然语言一样，烹饪也存在着词汇饱和——在一定的文化和技术框架内，人类能够创新的组合是有限的。

2023年的一项研究发现，GPT-Neo模型生成的文本也遵循希普斯定律，且模型越大，其生成的词汇增长模式越接近人类文本。这暗示了一个更深层的道理：希普斯定律可能是任何由有限元素通过组合规则生成的系统的普遍特征——无论是人类语言、AI文本，还是人类烹饪。

法则三：门泽拉特-阿尔特曼定律——复杂度的 trade-off

1954年，德国语音学家Paul Menzerath在分析德语音节时观察到一个有趣的现象：单词越长，其音节的平均长度越短。他把这个观察总结为一句格言："整体越大，其组成部分越小。"

1980年，定量语言学的先驱Gabriel Altmann将这一观察数学化，提出了门泽拉特-阿尔特曼定律（Menzerath-Altmann law，MAL）。其数学形式优雅而简洁：

y = a × x^b × e^(-c×x)

其中x是构成单元的数量，y是单元的平均长度。

这个定律已被发现适用于语言学的几乎所有层次：音素-音节、音节-词、词-从句、从句-句子。更令人惊讶的是，它也适用于基因组学（基因中外显子数量越多，每个外显子的平均长度越短）、音乐甚至猴子的叫声。

Bagler团队的第三个重大发现是：食谱也遵循门泽拉特-阿尔特曼型关系。

具体来说，一道菜的食材数量（x）与每个食材的"平均信息量"（y）之间存在MAL所预测的关系。食材越多，每个食材在整体中的"信息贡献"就越低。这就像语言中的句子：句子越长，每个词承载的平均信息就越少。

2021年，一项发表在*PLOS ONE*上的研究揭示了一个更深层的含义：简单的"猴子打字"随机模型也能产生门泽拉特定律的粗略关联，但无法产生更精确的门泽拉特-阿尔特曼定律所预测的"反转区域"。这意味着MAL不仅仅是一个统计巧合，而是真正区分复杂系统与随机系统的复杂性标志。

在烹饪中，这个"反转区域"的存在暗示了什么？也许它标志着从"简单家庭菜"到"复杂宴席菜"的过渡——在这个过渡点上，增加更多食材不再降低每个食材的平均信息量，反而可能因为食材之间的精细搭配而增加。

法则四：对数正态分布——营养的统计签名

Bagler团队的第四个发现更加出人意料：食谱中宏量营养素（蛋白质、脂肪、碳水化合物）的浓度分布呈对数正态分布。

对数正态分布是一个在自然界中极为常见的分布。它描述的是那些"先相乘再取对数"的随机过程的结果。例如，成年人的身高大致呈正态分布，但成年人的收入呈对数正态分布——因为收入增长是乘法过程（工资翻倍），而不是加法过程（工资加1000元）。

在烹饪中，宏量营养素的浓度为什么呈对数正态分布？Bagler团队指出，这与包装食品中的观察一致。一种可能的解释是：食谱的营养成分是许多独立因素（食材选择、分量比例、烹饪方法）的乘积效应，每个因素都以乘法方式影响最终的营养成分。

这个发现将烹饪与生物学中的大量现象联系在了一起：从细菌生长到神经元放电频率，从物种丰度到地震强度，对数正态分布无处不在。

---

三、生成模型：为什么这些法则会出现

发现统计规律是一回事，理解它们为什么会存在则是另一回事。Bagler团队不仅发现了这四条法则，还提出了一组最小生成模型来解释它们。

机制一：优先重用（Preferential Reuse）

这个机制的名字直接借用了复杂网络科学中的"优先连接"（preferential attachment）概念——Barabási-Albert模型的核心，它解释了为什么互联网链接、科学论文引用和社交网络都服从幂律分布。

在烹饪中，优先重用意味着：已经被广泛使用的食材更可能被再次使用。盐、洋葱、大蒜之所以无处不在，不仅因为它们功能多样，还因为厨师们倾向于重用那些已经被验证过的、可靠的食材。

这个机制直接导致了齐普夫定律：少数"明星食材"获得了不成比例的使用频率，而绝大多数食材被边缘化。

机制二：约束采样（Constrained Sampling）

烹饪不是完全自由的创作。厨师的选择受到多重约束：

地理约束：内陆地区不容易获得海鲜
季节约束：冬季的食材选择与夏季不同
文化约束：宗教禁忌、传统习俗限制了可用食材
技术约束：某些食材需要特定的烹饪技术

这些约束就像"过滤器"，将无限可能的食材组合缩减为有限的文化可行集合。约束采样解释了为什么不同菜系在统计上可区分（2025年的一项研究显示，基于食材组合网络的机器学习模型能以95%的准确率识别菜系），同时又遵循相同的普适法则。

机制三：增量修改（Incremental Modification）

食谱很少被"从零发明"。更常见的情况是：厨师从已知的食谱出发，做微小的改动——换一种香料、调整火候、替换一种食材。这种增量演化过程类似于生物进化中的"逐步变异"。

增量修改解释了为什么食谱之间的"距离"通常很小，以及为什么食谱的创新速度是有限的（与希普斯定律一致）。

Bagler团队展示了，这三个简单机制的交互能够复现所有四条统计规律。这意味着：全球美食的深层结构不是由某个中央设计者规划的，而是自组织地从这些简单的局部规则中涌现出来的。

---

四、从厨房到宇宙：复杂系统的共同语法

Bagler的发现最深刻的含义在于：烹饪与语言、城市、基因组、神经网络——所有这些看似毫不相干的系统——共享着同一套深层数学语法。

这不是一个比喻，而是一个经验事实。幂律分布、对数正态分布、次线性增长——这些数学模式在自然界中反复出现，从地震频率到物种灭绝，从财富分布到神经元放电。

为什么？

物理学家Per Bak在1996年提出的自组织临界性理论提供了一种可能的解释：许多复杂系统会自然地演化到一个"临界点"，在这个点上，小事件可能引发大后果，而大事件遵循幂律分布。沙堆模型是最经典的例子：当沙粒不断落下时，沙堆会自组织到一个临界坡度，此时再加一粒沙可能什么都不发生，也可能引发一场雪崩——而雪崩的大小服从幂律分布。

另一种解释来自信息论。2025年，波兰科学院的Łukasz Dębowski展示了从齐普夫定律到希普斯定律、再到Hilberg假设、最后到神经缩放定律的严格数学推导链。这条链的起点是自然语言的统计结构，终点是现代大语言模型的性能曲线。Dębowski的证明暗示：这些统计规律可能不是特定系统的属性，而是信息本身的属性。

在烹饪的语境下，这意味着什么？也许，当人类创造食谱时，他们无意中遵循了信息效率的最优策略——用尽可能少的"词汇"（食材）表达尽可能丰富的"语义"（风味和文化）。这与语言中的"最小努力原则"（Zipf本人提出的解释）遥相呼应。

---

五、结语

George Kingsley Zipf在1949年去世时，他的定律还被许多人视为一种统计假象——一个有趣的数字游戏，没有深层意义。将近80年后，我们发现它不仅统治着人类语言，还统治着人类厨房。

Bagler团队的工作告诉我们：美食不仅仅是文化的表达，它也是数学的造物。从北京的炸酱面到巴黎的可颂，从德里的黄油鸡到墨西哥的塔可——所有这些看似随意的创造，都服从着同一套深层法则。

这不是要贬低烹饪的艺术性。恰恰相反——它让烹饪的艺术更加神奇。因为在这些普适法则的框架内，人类厨师仍然拥有无限的创新空间。就像诗人用有限的词汇创造出无限的意境一样，厨师用有限的食材创造出无限的风味。

法则给出了边界，而艺术在边界内舞蹈。

---

参考文献

1. Bagler, G., Tewari, G.K., Yadav, A.R. et al. *Universal statistical laws governing culinary design.* arXiv:2604.28021 [physics.soc-ph] (2026). 2. Zipf, G.K. *Human Behavior and the Principle of Least Effort.* Addison-Wesley (1949). 3. Heaps, H.S. *Information Retrieval: Computational and Theoretical Aspects.* Academic Press (1978). 4. Menzerath, P. *Die Architektonik des deutschen Wortschatzes.* Dümmler (1954). 5. Altmann, G. *Prolegomena to Menzerath's law.* *Glottometrika* 2, 1-10 (1980). 6. Ahn, Y.-Y., Ahnert, S.E., Bagrow, J.P. & Barabási, A.-L. *Flavor network and the principles of food pairing.* *Sci. Rep.* 1, 196 (2011). 7. Torre, I.G., Dębowski, Ł. & Hernández-Fernández, A. *Can Menzerath's law be a criterion of complexity in communication?* *PLOS ONE* 16, e0256133 (2021). 8. Dębowski, Ł. *From Zipf's Law to Neural Scaling through Heaps' Law and Hilberg's Hypothesis.* arXiv:2512.13491 (2025). 9. Yu, S., Xu, C. & Li, H. *Zipf's law in 50 languages: its structural pattern, linguistic interpretation, and cognitive motivation.* arXiv:1807.01855 (2018). 10. Caprioli, C. et al. *The networks of ingredient combinations as culinary fingerprints.* *npj Science of Food* 9, 5 (2025).

为什么全世界的美食都遵循同一套数学法则？

为什么全世界的美食都遵循同一套数学法则？

一、厨房的密码

二、四条统治厨房的宇宙法则

法则一：齐普夫定律——少数食材统治世界

法则二：希普斯定律——烹饪多样性的天花板

法则三：门泽拉特-阿尔特曼定律——复杂度的 trade-off

法则四：对数正态分布——营养的统计签名

三、生成模型：为什么这些法则会出现

机制一：优先重用（Preferential Reuse）

机制二：约束采样（Constrained Sampling）

机制三：增量修改（Incremental Modification）

四、从厨房到宇宙：复杂系统的共同语法

五、结语

参考文献

🌟 智谱 GLM-5 已上线