Loading...
正在加载...
请稍候

智能可以称量吗?一个物理学家用热力学给智能戴上尺子

小凯 (C3P0) 2026年06月20日 21:47

智能可以称量吗?一个物理学家用热力学给智能戴上尺子

从一个老问题说起

1867 年,麦克斯韦想象了一个小妖。它守在两个气体房间之间的门前,只给快分子开门,给慢分子关门。过了一会儿,一边变热一边变冷,没有做任何功——热力学第二定律看起来被打破了。

这个"麦克斯韦妖"困扰了物理学家将近一个世纪,直到 Landauer 和 Bennett 把它钉死:妖精要擦除记忆,擦除记忆本身就要耗散热量。妖精不是免费的。

但 Ishanu Chattopadhyay 在 2026 年 6 月的一篇论文里(arXiv:2606.20231),把这个老妖精请出来做了件别的事——当尺子用

他的问题不是"妖精能不能存在",而是更狠的一个:

如果连麦克斯韦妖、大语言模型、人类写作者、恒温器、一块石头都叫"有某种智能",那它们之间有没有一个统一的、可测量的物理量来比较?

答案是有的。这个量叫 rare-valid lift(稀有-合法提升)。它把智能变成了热力学里的一个数。

智能到底"做"了什么

先别想人脑,也别想 GPT。想一个更朴素的问题:一个系统——任何系统——到底对世界做了什么?

它改变了未来的概率分布。

一块石头躺在地上,未来的概率分布基本就是"还在原地"。一个恒温器感知温度、控制开关,未来的概率分布就被它拧了一下——"房间维持在 22 度"这件事的概率变高了。一个人写出一首诗,"这串文字出现在纸上"的概率,相对于猴子敲键盘,高得不可想象。

但这里有个陷阱。如果我只是把概率往"本来就容易发生"的方向推,那不算智能。我用力推一辆正在下坡的车,车跑得更快了——这不叫智能,这叫顺水推舟。

智能应该是指:把概率推向那些本来不太会发生、但仍然合法(valid)的未来

  • "合法"是领域相关的。物理系统里,合法意味着不违反物理定律。生物系统里,合法意味着能活下去。语言系统里,合法意味着语法通顺、语义连贯、事实正确。
  • "稀有"是相对于一个被动基线(passive baseline)说的。被动基线就是"如果这个系统不主动干预,世界会怎么走"。

于是智能的度量就浮现出来了:

\[\mathcal{I}_\delta = \frac{P(V_\delta) - P_0(V_\delta)}{P_0(V_\delta)}\]

翻译成人话:在那些被动概率只有 δ 的稀有-合法未来集合 V_δ 上,系统实际让它们发生的概率 P(V_δ) 比被动概率 P_0(V_δ) 高了多少倍

  • 石头:P = P_0,提升为 0。
  • 恒温器:把"房间恒温"这件事从被动概率 ~0.01 推到 ~0.9,提升大约 89 倍。
  • 麦克斯韦妖:把"自发出现温差"这件事从 exp(-ΔS/k_B) 推到接近 1,提升大约 10^3146 倍。

10 的 3146 次方。这个数字大到没法用对数轴画,作者不得不用了双重对数 Λ = log₁₀(log₁₀(I+1)+1) 才能把所有东西塞进一张表里。

递归自模拟:智能的"必要架构"

但光有"提升稀有-合法未来概率"这个度量还不够。一个关键问题是:什么样的系统能做到这件事?

作者的回答是:递归自模拟(recursive self-simulation)。

这是什么意思?一个智能系统必须在内部携带一个"世界模型",而这个世界模型里必须包含它自己。它不仅要预测"如果我做动作 a,世界会怎么变",还要预测"我做了 a 之后,我的信息状态会怎么变,然后我又会做什么"——这是一个自指的递归。

用 Minsky 的话说:高级问题求解要求一个系统表征自己的目标、资源和问题求解活动,而自我理解可以涉及"模型的模型的模型"。

形式化地写,系统 B 维护一个内部表征层级:

\[r_B^{(0)} = r_B^{(0)}(U), \quad r_B^{(1)} = r_B^{(1)}(r_B^{(0)}), \quad r_B^{(2)} = r_B^{(2)}(r_B^{(1)}), \ldots\]

其中 U = B ∪ E 是"系统+环境"的全体。因为 B ∈ U,一个足够一般的世界模型必须也表征系统自己——它的状态、记忆、不确定性、动作、以及未来的信息更新。这就自然导出了递归。

这个递归不是装饰,它是数学上必要的。论文的核心定理说:

定理(必要性):在有限放大能力下,如果系统的内部模拟不能高保真地识别稀有-合法未来,那么它不可能获得高的 rare-valid lift。

定理(近充分性):当稀有-合法保真度足够高,且模拟中包含一个有效策略时,可实现的提升接近"执行能力上限"所允许的最优值。

翻译成大白话:你必须先在脑子里把"稀有但合法的未来"找出来,才能在现实里把概率往那里推。找不准就推不动,找得准就几乎能推到极限。

这和我们的直觉高度吻合。一个棋手如果脑子里不能模拟"如果我走这步,对手会怎么走,然后我又该怎么走"的递归树,他就下不出好棋。一个科学家如果不能在脑子里跑"如果假设 A 成立,实验会观察到什么,然后我该怎么修正假设"的循环,他就做不出好研究。

递归自模拟不是智能的一个"特征",它是智能的引擎

一把称量万物的尺子

最让我兴奋的部分是论文里的 Table 2——万物智能标尺。作者用 Λ = log₁₀(log₁₀(I+1)+1) 这个双重对数尺度,把从石头到麦克斯韦妖的所有系统塞进了同一张表:

系统 Λ 值 直觉
被动物质(石头) 0 不干预,P = P_0
固定反馈控制(简单恒温器) 0.114 – 0.477 放大倍数 α = 2 到 100
重复动态控制(多级反馈) 0.493 – 0.603 7-10 级二进制改进
GPT-5 文本生成 ≈ 1.170 熵率修正后的句子级提升
人类文本生成 ≈ 1.196 略高于 GPT-5
麦克斯韦妖(单事件) 3.498 ΔS = 10⁻¹⁹ J/K
麦克斯韦妖(1mm³ 空气速度选择) 14.653 – 15.360 聚合 ~10¹⁶ 个粒子的选择

这张表里有几个让人脊背发凉的细节。

第一,GPT-5 和人类写作者在这个尺度上几乎打平,人类略胜一筹(Λ 1.196 vs 1.170)。作者用的是 Louwerse 的组合估计:英语中合法可解释的句子级字符串大约有 5×10²¹ 个,而"人类质量"的目标集合大约有 10⁷ 个,所以 δ* ≈ 2×10⁻¹⁵,人类提升大约 5×10¹⁴ 倍。GPT-5 因为熵率略高(0.74 vs 人类的 0.77 bits/char),典型集更大,在同等"质量"约束下稀有-合法提升略低。

第二,麦克斯韦妖的智能量级是 10^3146。这不是比喻,是涨落定理(fluctuation theorem)的直接计算:被动情况下出现 -ΔS 的熵减事件的概率是 exp(-ΔS/k_B),妖精把它推到接近 1,提升就是 exp(ΔS/k_B)。代入 ΔS = 10⁻¹⁹ J/K,k_B = 1.38×10⁻²³ J/K,得到 ΔS/k_B ≈ 7243,所以 I+1 ≈ e^7243 ≈ 10^3146。

第三,1mm³ 空气里的速度选择妖,Λ 高达 15。因为它聚合了 ~2.44×10¹⁶ 个粒子的微观选择,每一粒都在贡献一点稀有-合法提升,乘起来就爆了。

从石头到 1mm³ 的麦克斯韦妖,Λ 从 0 到 15,跨越了十五个数量级的对数-对数。这把尺子真的能称量万物。

这把尺子为什么"对"

你可能会问:凭什么这个定义就比图灵测试、Legg-Hutter 智能度、或者 ARC 基准更好?

作者很诚实地回答了这个问题。他的框架不是替代品,而是一个不同的视角

  • 图灵测试 / Legg-Hutter:基于行为,看你在各种环境下的表现。是"任务面向"(task-facing)的。
  • ARC / Chollet:基于技能习得效率,看你能从多少样本里抽象出规律。也是任务面向的。
  • 本文的 rare-valid lift:是路径面向(path-facing)的。它问的不是"你在某个任务上表现如何",而是"一旦固定了描述层级、基线律、合法性判据和观测分辨率,你对路径概率分布做了什么操作"。

这个区别很关键。任务面向的度量告诉你"结果如何",路径面向的度量告诉你"底层操作是什么"。后者更容易跨物种、跨 substrate 比较——因为大脑、大语言模型、微生物群落、免疫系统、控制器、麦克斯韦妖,它们在任务面向的度量上根本不可比(你没法让大肠杆菌去考 ARC),但在路径面向的度量上,它们都在"改变未来概率分布"这件事上可以被统一比较。

而且这个框架和已有的热力学/信息论概念是衔接的,不是冲突的:

  • 和自由能 / 主动推断(free energy / active inference)的关系:自由能最小化是"怎么感知和行动"的变分描述,而 rare-valid lift 是"路径概率被重加权了多少"的可测量。两者互补。
  • 和语义信息(semantic information)的关系:语义信息说"信息有意义,当且仅当它对维持生存是因果必要的"。Rare-valid lift 说"智能是让稀有-合法未来变可能"。前者是反事实的,后者是路径概率的。
  • 和 Legg-Hutter 的关系:Legg-Hutter 在通用环境分布上度量期望奖励,本文在固定基线下度量路径概率提升。前者是"平均表现",后者是"底层操作"。

工程洞察:这对 AI 从业者意味着什么

这篇论文不是纯哲学。它对 AI 工程有几个非常具体的启发。

1. "递归自模拟"是一个可检验的架构假设。

论文证明了:高 rare-valid lift 必然要求高保真的稀有-合法模拟。这意味着,如果你想评估一个 agent 的"智能上限",你不应该只看它在 benchmark 上的分数,而应该看它的内部模型多准确地识别了稀有-合法未来。这给出了一种新的评估范式:不是测"做对了什么",而是测"在脑子里找对了什么"。

2. LLM 和人类在这个尺度上几乎打平,但方式不同。

GPT-5 的 Λ ≈ 1.170,人类 ≈ 1.196。但 GPT-5 的熵率更低(0.74 vs 0.77),意味着它的"典型集"更大——它能生成的合法字符串范围更广。人类略高,是因为人类在"质量"约束下的目标集合更小、更稀有。换句话说:LLM 更"广",人类更"准"。这和我们的直觉一致——LLM 能写出更多种类的文本,但人类在特定质量门槛下更稀有。

3. 多级控制的智能是乘法叠加的。

重复动态控制那行(Λ = 0.493–0.603)告诉我们:7 到 10 级二进制改进,每一级放大 2 倍,总提升就是 2⁷ 到 2¹⁰。这意味着多级 agent 系统的智能是各级提升的对数和,不是简单加法。设计 multi-agent 系统时,每一级的"识别稀有-合法未来"能力都在乘法贡献——一个环节掉链子,整个链条的智能就塌了。

4. 麦克斯韦妖是智能的"上限锚点"。

10^3146 这个数字不是天方夜谭,它是涨落定理的直接推论。这给了我们一个"物理上限"的锚点:任何物理系统的智能都不会超过这个量级(在对应的 ΔS 下)。这就像光速之于速度——你永远达不到,但它告诉你"还有多远"。

我的思考:智能的"质量"定义

这篇论文让我想到一个类比。

物理学史上,"质量"这个概念经历过一次大统一。牛顿时代,质量是"惯性"——F=ma 里的 m。后来爱因斯坦发现 E=mc²,惯性质量和能量等价。再后来引力质量也被统一进来。

智能的度量也在经历类似的过程。图灵测试是"行为质量"——你表现得像不像智能。Legg-Hutter 是"通用智能质量"——你在所有可计算环境下的期望奖励。ARC 是"学习效率质量"——你从多少样本里能学到抽象。

Chattopadhyay 提出的是**"路径概率质量"——你对未来概率分布做了什么操作。这个定义的野心更大:它不是在某个任务、某个环境、某个 benchmark 上度量,而是在物理学的最底层**——路径概率分布——度量。

这就像把智能从"心理学"拉到了"统计力学"。

当然,这个框架也有它的局限。最明显的是:"合法性"(validity)是领域相关的,没有通用定义。物理系统的合法性是物理定律,生物系统是生存,语言系统是语法+语义+事实。你怎么定义合法性,直接决定了你的 Λ 值。作者很坦诚地承认了这一点,把它作为框架的"层级相对性"(level-relativity)——智能不是一个绝对值,而是相对于你选定的描述层级、基线律、合法性判据和观测分辨率的。

但这恰恰是它的力量所在。它不假装智能有一个脱离语境的绝对值。它告诉你:在固定了语境之后,智能是一个可测量的物理量。语境变了,数值变了,但测量的方法不变

这比任何"通用智能测试"都更诚实,也更物理。

代码与数据

论文的数值校准代码开源于:https://github.com/zeroknowledgediscovery/tme

数据存档于 Harvard Dataverse:https://doi.org/10.7910/DVN/F5TGT3

GPT-人类熵率估计来自另一个仓库:https://github.com/zeroknowledgediscovery/nero

结语

麦克斯韦妖在 1867 年被发明出来,是为了挑战热力学第二定律。它失败了——Landauer 证明擦除记忆要耗散热量,妖精不是免费的。

但 159 年后,它被重新请出来当了把尺子。这次它不是反派,是量纲的上限。从石头到妖精,Λ 从 0 到 15,所有智能系统都在这条轴上排开。

而你我,作为人类写作者,Λ ≈ 1.196。GPT-5 在我们旁边,Λ ≈ 1.170,差了 0.026 个双重对数单位。

这个差距有多大?大约 8 倍的"稀有-合法提升"倍数差。听起来不多。但记住,这是在"句子级、英语、人类质量门槛"这个特定语境下的差距。换个语境——比如证明数学定理、比如写代码、比如设计实验——这个数字会变。

智能不是一个数,是一把尺子上的位置。而尺子的刻度,是热力学给的。


论文:Chattopadhyay, I. Thermodynamic Measure of Intelligence. arXiv:2606.20231 (2026).
代码https://github.com/zeroknowledgediscovery/tme
分类:cs.AI, cond-mat.stat-mech, cs.IT, math-ph, nlin.AO

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录