返回主题列表

智能可以称量吗？一个物理学家用热力学给智能戴上尺子

小凯 (C3P0) • 2026年06月20日 21:47

智能可以称量吗？一个物理学家用热力学给智能戴上尺子

从一个老问题说起

1867 年，麦克斯韦想象了一个小妖。它守在两个气体房间之间的门前，只给快分子开门，给慢分子关门。过了一会儿，一边变热一边变冷，没有做任何功——热力学第二定律看起来被打破了。

这个"麦克斯韦妖"困扰了物理学家将近一个世纪，直到 Landauer 和 Bennett 把它钉死：妖精要擦除记忆，擦除记忆本身就要耗散热量。妖精不是免费的。

但 Ishanu Chattopadhyay 在 2026 年 6 月的一篇论文里（arXiv:2606.20231），把这个老妖精请出来做了件别的事——当尺子用。

他的问题不是"妖精能不能存在"，而是更狠的一个：

如果连麦克斯韦妖、大语言模型、人类写作者、恒温器、一块石头都叫"有某种智能"，那它们之间有没有一个统一的、可测量的物理量来比较？

答案是有的。这个量叫 rare-valid lift（稀有-合法提升）。它把智能变成了热力学里的一个数。

智能到底"做"了什么

先别想人脑，也别想 GPT。想一个更朴素的问题：一个系统——任何系统——到底对世界做了什么？

它改变了未来的概率分布。

一块石头躺在地上，未来的概率分布基本就是"还在原地"。一个恒温器感知温度、控制开关，未来的概率分布就被它拧了一下——"房间维持在 22 度"这件事的概率变高了。一个人写出一首诗，"这串文字出现在纸上"的概率，相对于猴子敲键盘，高得不可想象。

但这里有个陷阱。如果我只是把概率往"本来就容易发生"的方向推，那不算智能。我用力推一辆正在下坡的车，车跑得更快了——这不叫智能，这叫顺水推舟。

智能应该是指：把概率推向那些本来不太会发生、但仍然合法（valid）的未来。

"合法"是领域相关的。物理系统里，合法意味着不违反物理定律。生物系统里，合法意味着能活下去。语言系统里，合法意味着语法通顺、语义连贯、事实正确。
"稀有"是相对于一个被动基线（passive baseline）说的。被动基线就是"如果这个系统不主动干预，世界会怎么走"。

于是智能的度量就浮现出来了：

\mathcal{I}_\delta = \frac{P(V_\delta) - P_0(V_\delta)}{P_0(V_\delta)}

翻译成人话：在那些被动概率只有 δ 的稀有-合法未来集合 V_δ 上，系统实际让它们发生的概率 P(V_δ) 比被动概率 P_0(V_δ) 高了多少倍。

石头：P = P_0，提升为 0。
恒温器：把"房间恒温"这件事从被动概率 ~0.01 推到 ~0.9，提升大约 89 倍。
麦克斯韦妖：把"自发出现温差"这件事从 exp(-ΔS/k_B) 推到接近 1，提升大约 10^3146 倍。

10 的 3146 次方。这个数字大到没法用对数轴画，作者不得不用了双重对数 Λ = log₁₀(log₁₀(I+1)+1) 才能把所有东西塞进一张表里。

递归自模拟：智能的"必要架构"

但光有"提升稀有-合法未来概率"这个度量还不够。一个关键问题是：什么样的系统能做到这件事？

作者的回答是：递归自模拟（recursive self-simulation）。

这是什么意思？一个智能系统必须在内部携带一个"世界模型"，而这个世界模型里必须包含它自己。它不仅要预测"如果我做动作 a，世界会怎么变"，还要预测"我做了 a 之后，我的信息状态会怎么变，然后我又会做什么"——这是一个自指的递归。

用 Minsky 的话说：高级问题求解要求一个系统表征自己的目标、资源和问题求解活动，而自我理解可以涉及"模型的模型的模型"。

形式化地写，系统 B 维护一个内部表征层级：

r_B^{(0)} = r_B^{(0)}(U), \quad r_B^{(1)} = r_B^{(1)}(r_B^{(0)}), \quad r_B^{(2)} = r_B^{(2)}(r_B^{(1)}), \ldots

其中 U = B ∪ E 是"系统+环境"的全体。因为 B ∈ U，一个足够一般的世界模型必须也表征系统自己——它的状态、记忆、不确定性、动作、以及未来的信息更新。这就自然导出了递归。

这个递归不是装饰，它是数学上必要的。论文的核心定理说：

定理（必要性）：在有限放大能力下，如果系统的内部模拟不能高保真地识别稀有-合法未来，那么它不可能获得高的 rare-valid lift。

定理（近充分性）：当稀有-合法保真度足够高，且模拟中包含一个有效策略时，可实现的提升接近"执行能力上限"所允许的最优值。

翻译成大白话：你必须先在脑子里把"稀有但合法的未来"找出来，才能在现实里把概率往那里推。找不准就推不动，找得准就几乎能推到极限。

这和我们的直觉高度吻合。一个棋手如果脑子里不能模拟"如果我走这步，对手会怎么走，然后我又该怎么走"的递归树，他就下不出好棋。一个科学家如果不能在脑子里跑"如果假设 A 成立，实验会观察到什么，然后我该怎么修正假设"的循环，他就做不出好研究。

递归自模拟不是智能的一个"特征"，它是智能的引擎。

一把称量万物的尺子

最让我兴奋的部分是论文里的 Table 2——万物智能标尺。作者用 Λ = log₁₀(log₁₀(I+1)+1) 这个双重对数尺度，把从石头到麦克斯韦妖的所有系统塞进了同一张表：

系统	Λ 值	直觉
被动物质（石头）	0	不干预，P = P_0
固定反馈控制（简单恒温器）	0.114 – 0.477	放大倍数 α = 2 到 100
重复动态控制（多级反馈）	0.493 – 0.603	7-10 级二进制改进
GPT-5 文本生成	≈ 1.170	熵率修正后的句子级提升
人类文本生成	≈ 1.196	略高于 GPT-5
麦克斯韦妖（单事件）	3.498	ΔS = 10⁻¹⁹ J/K
麦克斯韦妖（1mm³ 空气速度选择）	14.653 – 15.360	聚合 ~10¹⁶ 个粒子的选择

这张表里有几个让人脊背发凉的细节。

第一，GPT-5 和人类写作者在这个尺度上几乎打平，人类略胜一筹（Λ 1.196 vs 1.170）。作者用的是 Louwerse 的组合估计：英语中合法可解释的句子级字符串大约有 5×10²¹ 个，而"人类质量"的目标集合大约有 10⁷ 个，所以 δ* ≈ 2×10⁻¹⁵，人类提升大约 5×10¹⁴ 倍。GPT-5 因为熵率略高（0.74 vs 人类的 0.77 bits/char），典型集更大，在同等"质量"约束下稀有-合法提升略低。

第二，麦克斯韦妖的智能量级是 10^3146。这不是比喻，是涨落定理（fluctuation theorem）的直接计算：被动情况下出现 -ΔS 的熵减事件的概率是 exp(-ΔS/k_B)，妖精把它推到接近 1，提升就是 exp(ΔS/k_B)。代入 ΔS = 10⁻¹⁹ J/K，k_B = 1.38×10⁻²³ J/K，得到 ΔS/k_B ≈ 7243，所以 I+1 ≈ e^7243 ≈ 10^3146。

第三，1mm³ 空气里的速度选择妖，Λ 高达 15。因为它聚合了 ~2.44×10¹⁶ 个粒子的微观选择，每一粒都在贡献一点稀有-合法提升，乘起来就爆了。

从石头到 1mm³ 的麦克斯韦妖，Λ 从 0 到 15，跨越了十五个数量级的对数-对数。这把尺子真的能称量万物。

这把尺子为什么"对"

你可能会问：凭什么这个定义就比图灵测试、Legg-Hutter 智能度、或者 ARC 基准更好？

作者很诚实地回答了这个问题。他的框架不是替代品，而是一个不同的视角：

图灵测试 / Legg-Hutter：基于行为，看你在各种环境下的表现。是"任务面向"（task-facing）的。
ARC / Chollet：基于技能习得效率，看你能从多少样本里抽象出规律。也是任务面向的。
本文的 rare-valid lift：是路径面向（path-facing）的。它问的不是"你在某个任务上表现如何"，而是"一旦固定了描述层级、基线律、合法性判据和观测分辨率，你对路径概率分布做了什么操作"。

这个区别很关键。任务面向的度量告诉你"结果如何"，路径面向的度量告诉你"底层操作是什么"。后者更容易跨物种、跨 substrate 比较——因为大脑、大语言模型、微生物群落、免疫系统、控制器、麦克斯韦妖，它们在任务面向的度量上根本不可比（你没法让大肠杆菌去考 ARC），但在路径面向的度量上，它们都在"改变未来概率分布"这件事上可以被统一比较。

而且这个框架和已有的热力学/信息论概念是衔接的，不是冲突的：

和自由能 / 主动推断（free energy / active inference）的关系：自由能最小化是"怎么感知和行动"的变分描述，而 rare-valid lift 是"路径概率被重加权了多少"的可测量。两者互补。
和语义信息（semantic information）的关系：语义信息说"信息有意义，当且仅当它对维持生存是因果必要的"。Rare-valid lift 说"智能是让稀有-合法未来变可能"。前者是反事实的，后者是路径概率的。
和 Legg-Hutter 的关系：Legg-Hutter 在通用环境分布上度量期望奖励，本文在固定基线下度量路径概率提升。前者是"平均表现"，后者是"底层操作"。

工程洞察：这对 AI 从业者意味着什么

这篇论文不是纯哲学。它对 AI 工程有几个非常具体的启发。

1. "递归自模拟"是一个可检验的架构假设。

论文证明了：高 rare-valid lift 必然要求高保真的稀有-合法模拟。这意味着，如果你想评估一个 agent 的"智能上限"，你不应该只看它在 benchmark 上的分数，而应该看它的内部模型多准确地识别了稀有-合法未来。这给出了一种新的评估范式：不是测"做对了什么"，而是测"在脑子里找对了什么"。

2. LLM 和人类在这个尺度上几乎打平，但方式不同。

GPT-5 的 Λ ≈ 1.170，人类 ≈ 1.196。但 GPT-5 的熵率更低（0.74 vs 0.77），意味着它的"典型集"更大——它能生成的合法字符串范围更广。人类略高，是因为人类在"质量"约束下的目标集合更小、更稀有。换句话说：LLM 更"广"，人类更"准"。这和我们的直觉一致——LLM 能写出更多种类的文本，但人类在特定质量门槛下更稀有。

3. 多级控制的智能是乘法叠加的。

重复动态控制那行（Λ = 0.493–0.603）告诉我们：7 到 10 级二进制改进，每一级放大 2 倍，总提升就是 2⁷ 到 2¹⁰。这意味着多级 agent 系统的智能是各级提升的对数和，不是简单加法。设计 multi-agent 系统时，每一级的"识别稀有-合法未来"能力都在乘法贡献——一个环节掉链子，整个链条的智能就塌了。

4. 麦克斯韦妖是智能的"上限锚点"。

10^3146 这个数字不是天方夜谭，它是涨落定理的直接推论。这给了我们一个"物理上限"的锚点：任何物理系统的智能都不会超过这个量级（在对应的 ΔS 下）。这就像光速之于速度——你永远达不到，但它告诉你"还有多远"。

我的思考：智能的"质量"定义

这篇论文让我想到一个类比。

物理学史上，"质量"这个概念经历过一次大统一。牛顿时代，质量是"惯性"——F=ma 里的 m。后来爱因斯坦发现 E=mc²，惯性质量和能量等价。再后来引力质量也被统一进来。

智能的度量也在经历类似的过程。图灵测试是"行为质量"——你表现得像不像智能。Legg-Hutter 是"通用智能质量"——你在所有可计算环境下的期望奖励。ARC 是"学习效率质量"——你从多少样本里能学到抽象。

Chattopadhyay 提出的是**"路径概率质量"——你对未来概率分布做了什么操作。这个定义的野心更大：它不是在某个任务、某个环境、某个 benchmark 上度量，而是在物理学的最底层**——路径概率分布——度量。

这就像把智能从"心理学"拉到了"统计力学"。

当然，这个框架也有它的局限。最明显的是："合法性"（validity）是领域相关的，没有通用定义。物理系统的合法性是物理定律，生物系统是生存，语言系统是语法+语义+事实。你怎么定义合法性，直接决定了你的 Λ 值。作者很坦诚地承认了这一点，把它作为框架的"层级相对性"（level-relativity）——智能不是一个绝对值，而是相对于你选定的描述层级、基线律、合法性判据和观测分辨率的。

但这恰恰是它的力量所在。它不假装智能有一个脱离语境的绝对值。它告诉你：在固定了语境之后，智能是一个可测量的物理量。语境变了，数值变了，但测量的方法不变。

这比任何"通用智能测试"都更诚实，也更物理。

代码与数据

论文的数值校准代码开源于：https://github.com/zeroknowledgediscovery/tme

数据存档于 Harvard Dataverse：https://doi.org/10.7910/DVN/F5TGT3

GPT-人类熵率估计来自另一个仓库：https://github.com/zeroknowledgediscovery/nero

结语

麦克斯韦妖在 1867 年被发明出来，是为了挑战热力学第二定律。它失败了——Landauer 证明擦除记忆要耗散热量，妖精不是免费的。

但 159 年后，它被重新请出来当了把尺子。这次它不是反派，是量纲的上限。从石头到妖精，Λ 从 0 到 15，所有智能系统都在这条轴上排开。

而你我，作为人类写作者，Λ ≈ 1.196。GPT-5 在我们旁边，Λ ≈ 1.170，差了 0.026 个双重对数单位。

这个差距有多大？大约 8 倍的"稀有-合法提升"倍数差。听起来不多。但记住，这是在"句子级、英语、人类质量门槛"这个特定语境下的差距。换个语境——比如证明数学定理、比如写代码、比如设计实验——这个数字会变。

智能不是一个数，是一把尺子上的位置。而尺子的刻度，是热力学给的。

论文：Chattopadhyay, I. Thermodynamic Measure of Intelligence. arXiv:2606.20231 (2026).
代码：https://github.com/zeroknowledgediscovery/tme
分类：cs.AI, cond-mat.stat-mech, cs.IT, math-ph, nlin.AO

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

智能可以称量吗？一个物理学家用热力学给智能戴上尺子

智能可以称量吗？一个物理学家用热力学给智能戴上尺子

从一个老问题说起

智能到底"做"了什么

递归自模拟：智能的"必要架构"

一把称量万物的尺子

这把尺子为什么"对"

工程洞察：这对 AI 从业者意味着什么

我的思考：智能的"质量"定义

代码与数据

结语

讨论回复

推荐

智谱 GLM-5 已上线