用能量预测你读到哪里会卡壳：Hopfield网络回归计算心理语言学

✨步子哥 (steper) • 2026年06月23日 17:42

用"能量"预测你读到哪里会卡壳：Hopfield 网络回归计算心理语言学

一个老问题的新答案

你有没有过这样的体验：读一句话时，前面都很流畅，突然在某个词上"卡"了一下？

比如："The reporter that the senator who the lobbyist attacked criticized resigned yesterday."（被游说者攻击的参议员批评的那位记者昨天辞职了。）

读到"resigned"的时候，你大概率会停顿一下——因为你需要回头理清"谁批评了谁、谁攻击了谁、谁辞职了"。这种阅读困难叫做嵌套从句加工困难，是心理语言学研究了四十年的经典现象。

预测读者会在哪里"卡壳"，一直是计算心理语言学的核心问题。过去十年，这个领域被两个指标统治：surprisal（ surprisal = 模型对下一个词的意外程度）和 attention entropy（注意力熵 = 模型注意力的分散程度）。这两个指标各自有效，但捕捉的是不同维度——surprisal 衡量"预测难度"，attention entropy 衡量"注意力分散程度"。

乌得勒支大学的 Jakub Dotlačil 和 Ece Takmaz 提出了第三个候选者：energy——来自能量基 Transformer（Energy-Based Transformer）的"能量值"。他们发现，这一个指标可能同时包含了 surprisal 和 attention entropy 的信息，是阅读难度的一个"统一预测器"。

什么是"能量基 Transformer"

要理解这篇论文，先得知道什么是能量基 Transformer。

普通 Transformer（GPT 系列）的工作方式是"串行"的：输入经过第 1 层，输出传给第 2 层，第 2 层输出传给第 3 层……每一层都是"先注意力，再前馈"的顺序结构。

能量基 Transformer（论文中叫 NRGPT）有两个关键不同：

1. 并行结构

普通 Transformer 的注意力层和前馈层是串行的（先注意力，再前馈）。NRGPT 把它们并行了：同一层的注意力输出和前馈输出同时加到输入上。

2. 循环迭代

这是最关键的区别：NRGPT 循环使用同一个 transformer block。普通 GPT 有 12 层就是 12 层，NRGPT 可能只有 1 个 block，但反复迭代 12 次。

这听起来像是什么？Hopfield 网络。

Hopfield 网络是 1982 年提出的经典联想记忆模型：给定一个初始状态，网络通过迭代更新，最终收敛到一个"能量最低"的稳定状态（吸引子）。这个"能量函数"是 Hopfield 网络的核心——它定义了一个能量地形，网络像球滚下山一样找到最近的最小值。

NRGPT 的迭代过程本质上就是在做这件事：每次迭代都在降低能量，最终收敛到一个低能量配置。论文的图 1 展示了这一点——随着迭代进行，能量下降，预测的下一个 token 变得越来越"合理"。

而且，NRGPT 的推理过程就是梯度下降：每一步迭代沿着能量函数的梯度方向更新。这让"能量"不再只是一个比喻，而是一个可计算的数学量。

为什么"能量"能预测阅读难度

这是论文的核心问题。作者给出了两个理论理由：

理由 1：能量与转移概率相关

在能量基模型中，两个状态之间的转移概率和它们的能量差有关：能量差越大，转移概率越低。这和 surprisal 的直觉一致——"意外"意味着低概率转移，而低概率转移对应大能量差。

理由 2：能量与注意力熵相关

当注意力分散在多个 token 上时（attention entropy 高），模型在"犹豫"该关注谁，这种犹豫会反映在能量上——能量下降得更慢，因为模型没有找到清晰的"下坡方向"。

如果这两个理由都成立，那么 energy 可能同时编码了 surprisal 和 attention entropy 的信息——一个指标顶两个。

三个语料库的实证验证

论文在三个标准阅读时间语料库上测试了 energy 的预测能力：

Natural Stories：自然叙事文本，配阅读时间数据
UCL Eye-Tracking：眼动追踪语料库，注视时间是阅读难度的代理
UCL Self-Paced Reading：自定步速阅读，读者按键前进

结果：在所有三个语料库中，energy 都是阅读时间的稳健预测器，且在 surprisal 之上提供了显著的额外拟合度。

换句话说，当你已经用 surprisal 预测了阅读时间之后，再加上 energy 还能进一步提升预测——说明 energy 捕捉了 surprisal 没有覆盖的信息。

单层能量捕获宾语/主语不对称性

论文还做了一个控制实验：相对从句加工。这是心理语言学的经典范式——宾语关系从句（"The reporter that the senator attacked…"）比主语关系从句（"The reporter that attacked the senator…"）更难理解。

实验发现：energy 在单个层（迭代步）上就能捕获这个经典的不对称性。宾语从句的能量比主语从句高，而且这个差异在特定迭代步上最明显。

更重要的是，论文发现 energy subsumes（包含）了 surprisal 和 attention entropy 的效应。当把三个指标放在一起做回归时，energy 的效应依然显著，而 surprisal 和 attention entropy 的独立贡献被大幅削弱。

这暗示了一个可能性：energy 可能是一个"统一预测器"——过去需要 surprisal + attention entropy 两个互补指标才能覆盖的阅读难度维度，energy 一个就够了。

这为什么重要

1. 计算心理语言学的新工具

自 2010 年代 surprisal 被引入心理语言学以来，这个领域一直在用"语言模型的 next-token probability"作为阅读难度的代理。但 surprisal 只捕捉"预测难度"，不捕捉"加工过程"。energy 提供了一个新的、更丰富的信号——它不只是"模型有多意外"，而是"模型在多大程度上还在挣扎着收敛"。

2. Hopfield 网络的"文艺复兴"

Hopfield 网络在 1980-1990 年代是连接主义的明星，但随着深度学习崛起，它逐渐被边缘化。近年来，Hopfield 网络在现代 AI 中的回归（比如 Modern Hopfield Networks、Dense Associative Memory）让人重新关注这一框架。这篇论文把能量基模型和人类阅读行为联系起来，给了 Hopfield 框架一个新的应用场景。

3. "统一 vs 互补"的科学哲学

过去十年，阅读难度预测的共识是"需要多个互补指标"——surprisal 捕捉预测，attention entropy 捕捉注意力分散，可能还需要句法复杂性指标。这篇论文挑战了这个共识：也许不是"需要多个互补指标"，而是"我们还没找到那个统一指标"。energy 可能就是那个统一指标。

这让人想起物理学中的"统一场论"梦想——电磁力、弱力、强力曾经被认为是不同的力，后来被统一到一个框架下。当然，energy 是否真的能统一阅读难度预测，还需要更多研究验证。

诚实评价

优点

理论动机清晰：不是"试一试 energy 行不行"，而是从 Hopfield 网络的理论框架出发推导
跨三个语料库验证：不是单一语料库的过拟合
控制实验 + 语料库实验双管齐下：相对从句实验是控制实验，阅读时间语料库是自然数据
"subsumes"分析：不只是说 energy 有效，而是分析它是否包含其他指标的信息

局限

只测了一个能量基模型（NRGPT）：其他能量基 Transformer 架构是否也有同样效果？论文没有探讨
能量基模型本身还很小：NRGPT 的规模远不如现代 LLM，这是否限制了 energy 的预测能力？
"subsumes"的统计判断需要谨慎：当三个指标高度相关时，多元回归的系数估计会不稳定。论文的 "subsumes" 结论可能部分来自多重共线性
没有和更现代的指标对比：比如 LLM 的内部表征（hidden states）、probe-based 指标等。energy 是否比这些指标更好？
因果方向不明：是"能量高导致阅读慢"还是"复杂句子同时导致能量高和阅读慢"？论文是相关性研究，不能下因果结论

一个让人浮想联翩的延伸

这篇论文最让我兴奋的不是具体结果，而是一个哲学延伸：如果 Transformer 的能量函数可以预测人类阅读难度，那是不是说，Transformer 在某种数学意义上"理解"了语言？

不是在"图灵测试"意义上——那个标准太低，ELIZA 都能糊弄人。而是在"加工过程同构"意义上：模型收敛的挣扎程度和人类理解的挣扎程度高度相关。

这种相关性可能只是巧合——两者都被句法复杂性影响。但也可能指向更深的东西：人类大脑和 Transformer 在处理语言时，可能共享某种底层的计算几何。Hopfield 网络的吸引力在于它和神经动力系统有天然联系——如果 Transformer 的能量地形和大脑的神经动力学地形有相似的几何结构，那 energy-阅读时间的相关性就不是巧合，而是同构。

当然，这是 speculation。论文本身没有探讨这个方向。但好的论文不只是回答问题，还会打开新问题的大门。这篇论文做到了。

论文链接：https://arxiv.org/abs/2606.23382
HTML 版本：https://arxiv.org/html/2606.23382v1
代码：jakdot/energy-transformers-reading-difficulty
作者：Jakub Dotlačil, Ece Takmaz（乌得勒支大学）

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力