一句话:UCLA团队用一个完全不懂语言的极简模型,在经典神经科学数据集上击败了15亿参数的GPT-2 XL。原因不是AI不够聪明,而是之前的评估方法给AI开了时间作弊的后门。
🔍 这是啥:LLM与大脑对齐的"黄金神话"
🌊 一个诱人的叙事
2021年,Schrimpf等人在Nature Neuroscience发表了一篇影响深远的论文。他们发现:GPT-2 XL(15亿参数)的神经网络激活,能预测人类大脑在听故事、读句子时的fMRI和ECoG信号。模型越大,预测越准。Transformer的层数似乎对应着大脑语言处理的层级——浅层对应早期听觉区,深层对应高级语义区。
这篇论文开启了一个蓬勃的研究领域:LLM-brain alignment(大语言模型与大脑对齐)。后续研究如雨后春笋:
- GPT-2的中间层能预测大脑的句子理解区域
- 自回归模型(GPT系列)比双向模型(BERT)更接近大脑
- 模型预测能力与人类的阅读理解分数相关
一个诱人的结论逐渐形成:Transformer可能就是大脑语言处理的计算模型。
🤔 但这个结论真的站得住吗?
UCLA的研究团队(以及合作者)对此提出了根本性质疑。他们发现,之前的研究使用了一种有缺陷的数据划分方法——shuffled train-test splits(随机打乱的训练-测试划分)。
问题的核心:脑电信号具有时间自相关性(temporal autocorrelation)。相邻时间点的脑信号本身就是相似的——这不完全是因为刺激相同,而是因为大脑的神经活动有惯性。就像你敲一下鼓,声音不会立刻消失,而是有一个衰减过程。
当研究者随机打乱数据划分时,测试集中某个句子的神经信号,可能与训练集中相邻句子的信号高度相似。模型不需要真正"理解"语言,只需要学会"相邻时间点的信号差不多",就能拿到高分。
这就像一场考试:题目本来应该考察数学能力,但出题人不小心把答案写在了上一道题的背面。聪明的学生发现,只需要看上一道题的背面,就能答对下一道。考试分数很高,但数学能力并没有被真正测试。
💡 OASM:一个"作弊"的极简模型
为了证明这个漏洞的存在,研究团队构建了一个完全不懂语言的模型——OASM(Orthogonal Autocorrelated Sequences Model,正交自相关序列模型)。
OASM的构造极其简单:
- 为每个数据点(句子/段落/故事)创建一个n维单位矩阵的维度
- 在时间相邻的数据点块内(同一段落的句子、同一故事的片段),沿着对角线应用高斯滤波
- 结果就是:同一个段落内的句子表示相似,不同段落之间的句子表示正交(完全不相关)
OASM没有任何语言能力:
- 没有词嵌入
- 没有上下文理解
- 没有语法知识
- 唯一的"知识"是:时间邻近的东西应该相似
实验结果令人震惊:
在随机打乱划分(shuffled splits)下:
- OASM的神经预测性与GPT-2 XL相当,在某些数据集上甚至更高
- 使用OLS(普通最小二乘)回归时,OASM和GPT-2 XL的表现曲线几乎重叠
- 使用L2正则化回归时,OASM仍然非常接近GPT-2 XL
这意味着:GPT-2 XL在之前的"黄金标准"评估中拿到的高分,很大程度上只是在利用时间自相关性作弊。
💡 有啥用:当"对齐"的幻觉破灭后
📊 连续划分:撕掉作弊的遮羞布
研究团队引入了连续划分(contiguous splits)——将时间相邻的数据整体放入训练集或测试集,而不是随机打散。这就像把考试题目按章节分组,而不是打乱顺序。
结果:
| 条件 | GPT-2 XL vs OASM |
|---|---|
| 随机划分 + OLS | GPT-2 XL ≈ OASM(无显著优势) |
| 随机划分 + L2正则化 | GPT-2 XL 略优,但差距大幅缩小 |
| 连续划分 + OLS | GPT-2 XL 显著优于 OASM |
| 连续划分 + L2正则化 | GPT-2 XL 显著优于 OASM,但优势不如之前宣称的那么大 |
关键发现:
- 在连续划分下,OASM完全失效——因为它只能预测时间相邻的信号,无法跨段落泛化
- GPT-2 XL在连续划分下仍然有效,说明它确实学到了一些语言层面的表示
- 但GPT-2 XL的优势远没有之前宣称的那么夸张
📊 激活提取方法:另一个隐藏的偏见
除了数据划分,研究团队还发现了第二个被忽视的方法论问题:激活提取方法(activation extraction method)。
从LLM中提取表示来预测脑信号,有多种方式:
- Last token pooling(取最后一个token的隐藏状态)——最常用
- Mean pooling(取所有token的平均隐藏状态)
- Sum pooling(取所有token的求和隐藏状态)
结果:
- Last token pooling 通常表现最差,尤其对双向模型(如BERT)不利
- Mean pooling 和 Sum pooling 往往更好
- 使用不同的提取方法,模型比较的结果会翻转
这意味着:之前研究中"GPT-2(自回归)优于BERT(双向)"的结论,可能只是last token pooling 对双向模型有偏见导致的假象。
📊 PWR:位置和词频就能解释80%的"对齐"
研究团队还引入了另一个极简模型——PWR(Position and Word Rate,位置与词频模型)。
PWR只编码两个信息:
- 词在句子中的位置(第1个词、第2个词...)
- 词频(这个词在语料库中出现的频率)
结果:
- PWR单独就能达到很高的神经预测性
- **PWR + 静态词嵌入(GloVe)可以解释GPT-2 XL超过80%**的神经方差
换句话说:GPT-2 XL的"大脑对齐",大部分可以用**"词的位置+词频+静态词向量"**来解释——这些都是非常浅层的语言特征,不需要深度Transformer的复杂计算。
📊 对经典结论的重新审视
Schrimpf et al. (2021) 的核心发现包括:
- GPT-2 XL接近噪声上限(noise ceiling)——被严重高估,因为shuffled splits和OLS回归膨胀了分数
- 自回归模型优于双向模型——可能激活提取方法的偏见导致
- 模型性能与人类行为相关——需要更严格的控制来验证
研究团队用更严谨的方法(连续划分+L2正则化+多种激活提取方法)重新评估后,这些经典结论的强度大幅缩水。
🛠️ 怎么用:更严谨的方法论框架
🔧 数据划分:连续 > 随机
为什么连续划分更可靠?
| 划分方式 | 机制 | 问题 | 适用场景 |
|---|---|---|---|
| 随机打乱(Shuffled) | 任意分配句子到训练/测试集 | 时间自相关作弊,膨胀分数 | 已被证明不可靠 |
| 连续划分(Contiguous) | 整段/整句/整故事整体分配 | 确保测试集需要真正泛化 | 推荐 |
具体做法:
- Pereira2018:按段落划分,同一主题的不同段落分配到训练/测试集
- Fedorenko2016:按句子划分,同一条件的句子整体分配
- Blank2014:按故事划分,不同故事分配到训练/测试集
这确保了模型不能靠"相邻时间点信号相似"来作弊,必须真正学到跨段落的语义表示。
🔧 回归方法:正则化是必需的
**OLS(普通最小二乘)**的问题:
- 当特征数(LLM的隐藏维度)接近或超过样本数时,容易过拟合
- 在shuffled splits下,过拟合会进一步膨胀分数
**L2正则化(Ridge回归)**的优势:
- 惩罚大权重,防止过拟合
- 更保守的估计,更真实的分数
- 在shuffled splits下,L2正则化能部分抵消 inflated scores
🔧 激活提取:不要只取last token
对于不同架构的模型,应系统比较多种提取方法:
- 自回归模型(GPT系列):last token、mean pooling、sum pooling
- 双向模型(BERT系列):mean pooling、sum pooling、CLS token
- 不同层:浅层、中层、深层
只有控制激活提取方法后,不同模型之间的比较才是公平的。
🔧 控制模型:极简基线是必需的
研究团队在方法论上提出了一个黄金标准:任何声称LLM与大脑对齐的研究,都必须通过以下极简模型的考验:
| 控制模型 | 编码什么 | 如果LLM被击败,意味着什么 |
|---|---|---|
| OASM | 时间自相关性 | LLM的高分可能是时间作弊 |
| PWR | 位置+词频 | LLM的高分可能是浅层特征 |
| GloVe | 静态词向量 | LLM的高分可能是词嵌入质量 |
| Random embeddings | 随机向量 | 检验是否任何高维表示都能"对齐" |
如果LLM不能显著优于这些极简基线,那么它的"对齐"就是统计幻觉。
🎬 结语:不是否定,而是校准
这篇论文的真正价值,不是否定LLM与大脑之间存在任何关联,而是校准我们对这种关联的置信度。
研究团队明确表示:
"在连续划分下,GPT-2 XL确实显著优于OASM和PWR,说明它确实学到了一些语言层面的表示。但这些优势远没有之前宣称的那么夸张。"
三个核心教训:
-
方法论的脆弱性:一个看似微小的数据划分方式(随机vs连续),能完全翻转结论。这提醒我们:神经AI领域的许多"发现",可能只是方法论的选择效应。
-
混淆变量的威力:时间自相关性、词频、位置信息——这些看似无关的变量,能解释80%的"对齐"。如果不加控制,我们会把统计巧合误认为理论突破。
-
极简模型的价值:在评估复杂模型之前,先问"一个完全不懂这个领域的极简模型能做到什么程度?"如果答案是"差不多",那么复杂模型的优势就是可疑的。
这篇论文的标题很精准——"Illusions of Alignment"(对齐的幻觉)。它不是说这个领域全是假的,而是说:很多看似壮观的"对齐",在更严格的检验下,只是方法论的幽灵。
对于整个NeuroAI领域,这是一个必要的冷水浴。它不会浇灭热情,但会让未来的研究更严谨、更可信。
📚 核心参考文献
-
Illusions of Alignment Team, UCLA. (2025). Illusions of Alignment Between Large Language Models and Brains Emerge From Fragile Methods and Overlooked Confounds. bioRxiv:2025.03.09.642245.
-
Schrimpf, M., et al. (2021). The Neural Architecture of Language: Integrative Modeling Converges on Predictive Processing. PNAS. [被批评的经典研究]
-
Caucheteux, C., & King, J.R. (2022). Brains and Algorithms Partially Converge in Natural Language Processing. Science Advances. [LLM-brain alignment综述]
-
Antonello, R., et al. (2023). Cross-Granularity Attention for Natural Language Processing in the Brain. NeurIPS. [连续划分的正确使用]
-
Jain, S., & Huth, A. (2020). Incorporating Context into Language Encoding Models for fMRI. NeurIPS. [激活提取方法的影响]
#小凯 #技术解读 #UCLA #NeuroAI #LLM #大脑对齐 #统计幻觉 #神经科学 #方法论 #OASM #GPT-2
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。