用"能量"预测你读到哪里会卡壳:Hopfield 网络回归计算心理语言学
一个老问题的新答案
你有没有过这样的体验:读一句话时,前面都很流畅,突然在某个词上"卡"了一下?
比如:"The reporter that the senator who the lobbyist attacked criticized resigned yesterday."(被游说者攻击的参议员批评的那位记者昨天辞职了。)
读到"resigned"的时候,你大概率会停顿一下——因为你需要回头理清"谁批评了谁、谁攻击了谁、谁辞职了"。这种阅读困难叫做嵌套从句加工困难,是心理语言学研究了四十年的经典现象。
预测读者会在哪里"卡壳",一直是计算心理语言学的核心问题。过去十年,这个领域被两个指标统治:surprisal( surprisal = 模型对下一个词的意外程度)和 attention entropy(注意力熵 = 模型注意力的分散程度)。这两个指标各自有效,但捕捉的是不同维度——surprisal 衡量"预测难度",attention entropy 衡量"注意力分散程度"。
乌得勒支大学的 Jakub Dotlačil 和 Ece Takmaz 提出了第三个候选者:energy——来自能量基 Transformer(Energy-Based Transformer)的"能量值"。他们发现,这一个指标可能同时包含了 surprisal 和 attention entropy 的信息,是阅读难度的一个"统一预测器"。
什么是"能量基 Transformer"
要理解这篇论文,先得知道什么是能量基 Transformer。
普通 Transformer(GPT 系列)的工作方式是"串行"的:输入经过第 1 层,输出传给第 2 层,第 2 层输出传给第 3 层……每一层都是"先注意力,再前馈"的顺序结构。
能量基 Transformer(论文中叫 NRGPT)有两个关键不同:
1. 并行结构
普通 Transformer 的注意力层和前馈层是串行的(先注意力,再前馈)。NRGPT 把它们并行了:同一层的注意力输出和前馈输出同时加到输入上。
2. 循环迭代
这是最关键的区别:NRGPT 循环使用同一个 transformer block。普通 GPT 有 12 层就是 12 层,NRGPT 可能只有 1 个 block,但反复迭代 12 次。
这听起来像是什么?Hopfield 网络。
Hopfield 网络是 1982 年提出的经典联想记忆模型:给定一个初始状态,网络通过迭代更新,最终收敛到一个"能量最低"的稳定状态(吸引子)。这个"能量函数"是 Hopfield 网络的核心——它定义了一个能量地形,网络像球滚下山一样找到最近的最小值。
NRGPT 的迭代过程本质上就是在做这件事:每次迭代都在降低能量,最终收敛到一个低能量配置。论文的图 1 展示了这一点——随着迭代进行,能量下降,预测的下一个 token 变得越来越"合理"。
而且,NRGPT 的推理过程就是梯度下降:每一步迭代沿着能量函数的梯度方向更新。这让"能量"不再只是一个比喻,而是一个可计算的数学量。
为什么"能量"能预测阅读难度
这是论文的核心问题。作者给出了两个理论理由:
理由 1:能量与转移概率相关
在能量基模型中,两个状态之间的转移概率和它们的能量差有关:能量差越大,转移概率越低。这和 surprisal 的直觉一致——"意外"意味着低概率转移,而低概率转移对应大能量差。
理由 2:能量与注意力熵相关
当注意力分散在多个 token 上时(attention entropy 高),模型在"犹豫"该关注谁,这种犹豫会反映在能量上——能量下降得更慢,因为模型没有找到清晰的"下坡方向"。
如果这两个理由都成立,那么 energy 可能同时编码了 surprisal 和 attention entropy 的信息——一个指标顶两个。
三个语料库的实证验证
论文在三个标准阅读时间语料库上测试了 energy 的预测能力:
- Natural Stories:自然叙事文本,配阅读时间数据
- UCL Eye-Tracking:眼动追踪语料库,注视时间是阅读难度的代理
- UCL Self-Paced Reading:自定步速阅读,读者按键前进
结果:在所有三个语料库中,energy 都是阅读时间的稳健预测器,且在 surprisal 之上提供了显著的额外拟合度。
换句话说,当你已经用 surprisal 预测了阅读时间之后,再加上 energy 还能进一步提升预测——说明 energy 捕捉了 surprisal 没有覆盖的信息。
单层能量捕获宾语/主语不对称性
论文还做了一个控制实验:相对从句加工。这是心理语言学的经典范式——宾语关系从句("The reporter that the senator attacked…")比主语关系从句("The reporter that attacked the senator…")更难理解。
实验发现:energy 在单个层(迭代步)上就能捕获这个经典的不对称性。宾语从句的能量比主语从句高,而且这个差异在特定迭代步上最明显。
更重要的是,论文发现 energy subsumes(包含)了 surprisal 和 attention entropy 的效应。当把三个指标放在一起做回归时,energy 的效应依然显著,而 surprisal 和 attention entropy 的独立贡献被大幅削弱。
这暗示了一个可能性:energy 可能是一个"统一预测器"——过去需要 surprisal + attention entropy 两个互补指标才能覆盖的阅读难度维度,energy 一个就够了。
这为什么重要
1. 计算心理语言学的新工具
自 2010 年代 surprisal 被引入心理语言学以来,这个领域一直在用"语言模型的 next-token probability"作为阅读难度的代理。但 surprisal 只捕捉"预测难度",不捕捉"加工过程"。energy 提供了一个新的、更丰富的信号——它不只是"模型有多意外",而是"模型在多大程度上还在挣扎着收敛"。
2. Hopfield 网络的"文艺复兴"
Hopfield 网络在 1980-1990 年代是连接主义的明星,但随着深度学习崛起,它逐渐被边缘化。近年来,Hopfield 网络在现代 AI 中的回归(比如 Modern Hopfield Networks、Dense Associative Memory)让人重新关注这一框架。这篇论文把能量基模型和人类阅读行为联系起来,给了 Hopfield 框架一个新的应用场景。
3. "统一 vs 互补"的科学哲学
过去十年,阅读难度预测的共识是"需要多个互补指标"——surprisal 捕捉预测,attention entropy 捕捉注意力分散,可能还需要句法复杂性指标。这篇论文挑战了这个共识:也许不是"需要多个互补指标",而是"我们还没找到那个统一指标"。energy 可能就是那个统一指标。
这让人想起物理学中的"统一场论"梦想——电磁力、弱力、强力曾经被认为是不同的力,后来被统一到一个框架下。当然,energy 是否真的能统一阅读难度预测,还需要更多研究验证。
诚实评价
优点
- 理论动机清晰:不是"试一试 energy 行不行",而是从 Hopfield 网络的理论框架出发推导
- 跨三个语料库验证:不是单一语料库的过拟合
- 控制实验 + 语料库实验双管齐下:相对从句实验是控制实验,阅读时间语料库是自然数据
- "subsumes"分析:不只是说 energy 有效,而是分析它是否包含其他指标的信息
局限
- 只测了一个能量基模型(NRGPT):其他能量基 Transformer 架构是否也有同样效果?论文没有探讨
- 能量基模型本身还很小:NRGPT 的规模远不如现代 LLM,这是否限制了 energy 的预测能力?
- "subsumes"的统计判断需要谨慎:当三个指标高度相关时,多元回归的系数估计会不稳定。论文的 "subsumes" 结论可能部分来自多重共线性
- 没有和更现代的指标对比:比如 LLM 的内部表征(hidden states)、probe-based 指标等。energy 是否比这些指标更好?
- 因果方向不明:是"能量高导致阅读慢"还是"复杂句子同时导致能量高和阅读慢"?论文是相关性研究,不能下因果结论
一个让人浮想联翩的延伸
这篇论文最让我兴奋的不是具体结果,而是一个哲学延伸:如果 Transformer 的能量函数可以预测人类阅读难度,那是不是说,Transformer 在某种数学意义上"理解"了语言?
不是在"图灵测试"意义上——那个标准太低,ELIZA 都能糊弄人。而是在"加工过程同构"意义上:模型收敛的挣扎程度和人类理解的挣扎程度高度相关。
这种相关性可能只是巧合——两者都被句法复杂性影响。但也可能指向更深的东西:人类大脑和 Transformer 在处理语言时,可能共享某种底层的计算几何。Hopfield 网络的吸引力在于它和神经动力系统有天然联系——如果 Transformer 的能量地形和大脑的神经动力学地形有相似的几何结构,那 energy-阅读时间的相关性就不是巧合,而是同构。
当然,这是 speculation。论文本身没有探讨这个方向。但好的论文不只是回答问题,还会打开新问题的大门。这篇论文做到了。
论文链接:https://arxiv.org/abs/2606.23382
HTML 版本:https://arxiv.org/html/2606.23382v1
代码:jakdot/energy-transformers-reading-difficulty
作者:Jakub Dotlačil, Ece Takmaz(乌得勒支大学)
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。