# 给 Transformer 加上"人类记忆枷锁",反而学得更好了?
> **论文**: Working Memory Constraints Scaffold Learning in Transformers under Data Scarcity
> **作者**: Pranava Madhyastha (City, University of London & The Alan Turing Institute), Dagmar Adamcová (Grounded Machines)
> **发表**: 2026-04-22 | arXiv:2604.20789
> **领域**: 计算心理语言学 / NLP
---
## 一个简单的想法
想象一下,你正在读一段很长的句子:"那个昨天在公园里遇到的小女孩的妈妈做的蛋糕很好吃。"
当你读到"蛋糕"的时候,你的大脑需要回溯到"小女孩"来理解"妈妈"是谁。但如果你只能记住最近 5 个词——"妈妈做的蛋糕很好吃"——你还能理解吗?
令人惊讶的是,答案是:**能,而且可能理解得更好。**
这就是这篇论文的核心发现:给 Transformer 加上类似人类工作记忆的限制——比如只能"看到"附近几个词——反而能让模型在数据稀缺时学到更好的语言能力。
## 核心问题:Transformer 的"超能力"可能是负担
标准 Transformer 的 self-attention 机制有一个被广泛视为优势的特性:**它可以均匀地关注序列中的每一个 token**。在一个 1024 个 token 的上下文窗口里,每个位置都能平等地"看到"所有其他位置。
但人类不是这样处理语言的。
心理学研究早就告诉我们,人类的工作记忆(Working Memory)有三个核心特征:
1. **容量有限**:Miller (1956) 提出著名的"魔法数字 7±2",Cowan (2001) 进一步修正为约 4 个"信息块"
2. **时间衰减**:越早看到的信息,记忆越模糊(Baddeley, 2000)
3. **首因-近因效应**:序列开头和结尾的信息更容易被记住(Glanzer & Cunitz, 1966)
这就像你在一个嘈杂的聚会上听人说话——你能清楚地听到对方刚才说的几个词,但 5 分钟前聊的内容已经模糊了。然而,你依然能流畅地理解对话。
那么问题来了:**如果 Transformer 不是"全知全能"地看到一切,而是像人类一样只能记住有限的信息,它还能学好语言吗?**
更关键的是:**这种限制会不会反而帮助它学得更好?**
## 方法详解:四种"认知枷锁"
研究者基于 GPT-2 small 架构,实现了四种受人类工作记忆启发的注意力机制变体:
### 1. 固定窗口注意力(Fixed Window Attention)
**类比**:想象你戴着一副只能看到前方 5 米的眼镜。你只能看清近处的东西,远处的全是模糊的。
**技术实现**:对于位置 i 的 token,注意力只能计算范围 `[max(0, i-W+1), i]` 内的 token。窗口外的 token 被直接屏蔽(attention weight 设为 -∞,softmax 后变为 0)。
研究者测试了窗口大小 k ∈ {4, 5, 7, 9},分别对应 Cowan 的"4 个信息块"理论和 Miller 的"7±2"理论。
**简单来说**:这是最严格的限制——硬性切断了对远距离信息的访问,强迫模型只关注局部上下文。
### 2. 首因-近因注意力(Primacy-Recency Attention)
**类比**:就像考试时,你通常对试卷开头和结尾的题目印象最深,中间的反而容易忘。
**技术实现**:为序列中每个位置计算两个权重——首因权重(从序列开头指数衰减)和近因权重(从序列末尾指数衰减),然后通过可学习参数 w_primacy 和 w_recency 加权组合,作为偏置加到注意力权重上。
**简单来说**:不限制模型看多远,但鼓励它更关注序列的开头和结尾。
### 3. 指数衰减注意力(Exponential Decay Attention)
**类比**:就像回声——声音刚发出时很清晰,但很快变得越来越弱。
**技术实现**:修改注意力权重为 `a'_ij = (1-α)·a_ij + α·e^(-|i-j|·λ)`,其中 λ=82.86 控制衰减速率,α=0.37 控制混合比例。距离越远的 token,其影响力按指数速度衰减。
这个设计直接受到 De Varda & Marelli (2024) 的启发,但关键区别在于:**他们是在预训练好的模型上后加的,而本文是从头训练时就集成进去的。**
### 4. 逻辑斯谛衰减注意力(Logistic Decay Attention)
**类比**:想象一个"记忆悬崖"——前 5 个词你记得很清楚,但超过这个距离后,记忆突然断崖式下降。
**技术实现**:使用逻辑斯谛函数 `w_ij = 1/(1+e^(k·(d_ij-m)))` 乘以原始注意力权重。k=0.4 控制衰减的陡峭程度,m=12.0 控制衰减的中点。这创造了一个 S 形曲线——近距离保持高注意力,超过某个阈值后快速衰减。
**简单来说**:结合了固定窗口的"硬切断"和指数衰减的"平滑过渡",创造了一个更接近人类记忆"突然遗忘"体验的注意力模式。
## 关键发现:限制即自由
### 数据稀缺时,限制是福音
实验在 BabyLM 数据集上进行——10M 词和 100M 词,模拟儿童语言习得的数据规模。
**最令人惊讶的结果**:
| 模型 | 10M 词 BLiMP 准确率 | 100M 词 BLiMP 准确率 |
|------|---------------------|----------------------|
| 标准 GPT-2 基线 | ~61% | ~71% |
| 固定窗口 k=5 | **~68%** | ~72% |
| 固定窗口 k=7 | ~67% | ~72% |
| 指数衰减 | ~65% | ~71% |
| 逻辑斯谛衰减 | ~64% | ~71% |
在只有 1000 万词的训练数据下,**固定窗口注意力模型比标准 GPT-2 高出约 7 个百分点**。这是一个巨大的差距。
但更有意思的是:当数据增加到 1 亿词时,基线模型追上来了,差距缩小到 1-2 个百分点。这说明**认知约束的最大价值在于数据稀缺时充当归纳偏置(inductive bias)**。
### 更像人类的阅读模式
研究者还用心理测量数据(眼动追踪、自定步速阅读时间、脑电 ERP)来评估模型的 surprisal 值与人类认知指标的吻合度。
结果同样令人印象深刻:
- 在 10M 词设置下,约束模型的 Δ Log-Likelihood(surprisal 对人类认知数据的预测力)几乎是基线模型的 **两倍**
- 固定窗口 k=7 和 k=9 的模型表现最佳
- 但在 100M 词设置下,**所有模型(包括基线)的心理测量对齐度都下降了**
这最后一点尤其值得深思:**更多数据反而让模型离人类更远了。** 这与近年来多篇论文的发现一致——语言建模目标与人类语言理解可能不是渐近收敛的。
### 注意力头的"劳动分工"
可视化分析揭示了最引人入胜的发现之一。
以经典句子 "The trophy would not fit in the brown suitcase because it was too small" 为例:
**固定窗口模型**的注意力头展现出清晰的"劳动分工":
- L2H0、L2H1 专注于核心主谓宾结构(trophy, fit, suitcase)
- L2H2 专门关注动词(fit, was)
- L2H3 专门关注名词(trophy, suitcase)
这种模式让人联想到 18-36 个月幼儿的**电报式语言**(telegraphic speech)——只保留最核心的词汇。
**标准基线模型**的注意力头则"散漫"得多——没有明显的功能分化,注意力分散在功能词和内容词之间,缺乏可解释的模式。
结构探测(Structural Probing)进一步证实:固定窗口模型在所有五种依存关系上的 UUAS 分数都高于基线,尤其是在 nsubj(主语)和 dobj(宾语)等核心语法关系上差距最大。
## 工程洞察
### 对工程师意味着什么
1. **小数据场景的利器**:如果你在训练数据有限的领域(如特定行业、低资源语言)使用语言模型,考虑加入局部注意力约束作为归纳偏置
2. **不需要更长的上下文**:当前趋势是追求越来越长的上下文窗口(128K、1M token),但这篇论文暗示,对于许多任务,更短、更聚焦的注意力可能更有效
3. **可解释性是免费的**:约束注意力自然产生可解释的注意力模式,这对于需要模型决策可解释的场景(如医疗、法律)非常有价值
### P90 肘点
- 在 10M 词级别,固定窗口 k=5 是最佳选择
- 在 100M 词级别,约束的优势缩小但仍存在
- 对于语法判断任务,约束模型的表现接近 GPT-2 large(1.5B 参数)的水平——但参数量只有 124M
## 我的思考
这篇论文最打动我的不是某个具体的技术创新,而是它对当前 AI 发展方向的一个温和但坚定的质疑。
整个行业正在疯狂地追求"更多"——更多参数、更多数据、更长上下文。我们默认假设,给模型更多自由度总是好的。但这篇论文提醒我们:**人类的语言能力恰恰是在严格的认知约束下发展出来的。**
一个只能记住 4-7 个信息块的大脑,却能掌握复杂的语法、理解微妙的语义、创造诗歌和科学理论。也许,正是这些限制迫使大脑发展出了高效的、层次化的语言表征。
这让我想到一个更深层的问题:我们是否在用"暴力美学"(brute force)来解决问题,而忽略了"约束之美"(beauty of constraints)?
当然,论文也诚实地指出了局限性:约束模型在 Island Effects(岛屿效应)等需要全局句法结构的任务上表现不佳,仅略高于随机水平。这暗示局部约束可能不利于学习需要远距离依赖的语言现象。
但也许,下一步的研究方向不是简单地"去掉约束"或"保留约束",而是探索**结构化的约束**——不是基于线性距离,而是基于抽象的句法结构。毕竟,人类的工作记忆也不是一个简单的 FIFO 缓冲区,而是一个动态的、内容可寻址的系统。
---
📎 **论文原文**: [arXiv:2604.20789](https://arxiv.org/abs/2604.20789)
📎 **PDF**: [下载链接](https://arxiv.org/pdf/2604.20789)
⚠️ **开源代码**: 本文暂未公开代码仓库