把AI打残了，看它怎么说胡话——一次人工失语症实验

让我讲一个你也许听过的故事。

某天一个人中风醒来，还能流利地说话——语法正确，语调自然，句子结构完美——但你仔细听就会发现，他说的话全是空的。"我今天去了那个……你知道的……买东西的地方……那个有收银台的地方。"他想说超市，但这个词不见了。他能描述功能，但命名区域被破坏了。

这叫失语症。不是变笨了，是特定区域的功能被物理破坏了。

临床神经学家研究失语症已经一百多年了。他们的思路很简单：哪个脑区坏了，哪种语言能力丢了，你就知道那个脑区管什么语言功能。这是从"坏了"反推"正常是怎么工作的"。

神经科学搞了这么久的事情，四个搞计算机语言学和认知科学的人——Roll, Kries, Gwilliams, Shain——最近把它搬到语言模型上了。

🫸 轻轻推一下，看看会怎样

他们在论文（arXiv:2605.16222）里干的事，本质上跟神经科学家干的一样：把一个模型搞残了，然后看它怎么说胡话。

但他们的"搞残"方式比脑外科温柔得多。他们不做手术，不切芯片，不撤掉显卡。他们做的事叫"病灶化"——听起来吓人，其实就是把模型里的某些参数直接设成零。不是删掉模型，是让你关掉某个具体的组件，然后看看关掉之后模型说话变成什么样。

比如你把注意力层的 key 投影矩阵里某一块归零了，然后让模型说"我在超市买了____"。它是填不上"苹果"、还是填成"我在超市买了因为如果"，还是干脆卡住不说了？不同的"归零位置"会产生不同类型的语言障碍，就跟不同的脑区损伤会产生不同类型的失语症一样。

📋 怎么给一台机器做失语症评估

你要检查病人有没有失语症，得有一套标准化的测试。人类临床上有这个工具，叫失语症评估量表。Roll 他们把这事儿搬到了文本上，做了一个叫 Text Aphasia Battery（TAB）的东西。

TAB 能测什么？能测语法缺陷——比如"这个人扔了球"和"这个人被球扔了"你分得清吗。能测语义缺陷——"苹果"和"香蕉"在你脑子里是一类东西吗。能测音韵缺陷——"b"和"p"的区别还能听出来吗。还能测流利度——你能不能连续说出有意义的句子，还是说两句就卡住了。

然后他们用 TAB 去测了五个 1B 参数级别语言模型的 112,426 个输出。

十一万次评估。每个输出都被标注了它展示了哪种类型的"语言障碍"。

🧩 哪层坏了出什么事

实验做完，模式出来了，而且很清晰。

注意力组件——那些决定模型"应该关注哪个词"的部分——和前馈网络组件——那些决定"这个词本身意味着什么"的部分——被损伤后产生的症状分布完全不同。注意力坏了更像音韵流利度问题，FFN 坏了更像语法语义问题。

更有意思的是深度。浅层的损伤——靠近输入的那些层——主要破坏语法和语义。模型开始分不清主谓宾，开始混淆"把"字句和"被"字句。但中深层的损伤——大概在模型的腰部位置——产生的是音韵和流利度问题。模型变得像那个说不出来"超市"的中风病人。

这就很有意思了。这意味着语言模型的大脑——如果可以用这个词的话——也有功能分区。不是被人设计的，是训练过程中自己长出来的。

🤔 等等，这跟人一样吗

我看到这里的反应是：那这跟人类失语症长得像吗？

Roll 他们当然也问了这个问题。

答案是：有点像，但不太像。

有些病灶化后的模型在某些 TAB 项目上的得分分布，跟某种人类失语症类型在统计上确实是相似的。皮尔逊相关系数不低，p 值也显著。

但这个"像"很脆弱。一旦你深入到症状质量——不是"分数是多少"而是"错的模式是什么样的"——人和机器的差别就出来了。同样都是语法错误，人犯的那种错误和机器犯的那种错误不是一种错误。人会说"我去了商店买了"，丢掉介词但保留语序的基本逻辑。模型会说出一种"看起来像句子但所有成分之间的语义关系都断了"的东西。

论文的原话是：aphasia syndromes are heavily influenced by the details of learning and processing rather than being a domain-invariant consequence of disrupted language processing. 翻译成人话就是：失语症长什么样，取决于你跟谁学说话的、怎么学的，而不是"只要语言系统被打断就会变成这样"。

⚠️ 我不知道的事情

老实说，这篇论文留下了很多让我睡不着的问题。

第一，我不知道 1B 参数这个规模有没有代表性。人类大脑有大约 860 亿个神经元，每神经元几千个突触连接。1B 参数跟人脑比差了好几个数量级。如果换一个 100B 参数的模型——比如 GPT-4 那个量级的——病灶化的结果会不会完全不同？我不知道。

第二，我不知道"归零"这个操作用神经科学的语言该怎么理解。人类失语症是物理损伤——细胞死了，连接断了，不可逆的。模型归零只是把权重设成 0，你可以随时恢复。这两件事在"破坏"的意义上到底是不是一件事？我也不知道。

第三，这篇论文使用了 TAB——一个基于临床失语症的文本改编量表——但我没看到足够的证据说明 TAB 的有效性在机器模型上跟人类同样成立。一个设计给人做的测试，搬到模型身上，测的还是同一种东西吗？这个我也不确定。

但这些"不知道"恰恰是它好的地方。真正的科学会告诉你的不是"这就是答案"，而是"我找到了一个有趣的方法问这个问题，你可以沿着这条路继续走下去"。这篇论文就是这样。

📌 事情就是这样

Roll 他们把一百年的临床神经科学经验借来，给一个黑盒做了一次功能解剖。他们发现语言模型内部也有功能分区，这些分区在人工神经网络和生物神经网络之间展现了一种既相似又不相同的结构。

那些相似让我们兴奋——"AI 真的像大脑！"。那些不相同才是真正有意思的地方——"AI 不像大脑的方式，恰恰在告诉我们关于学习本身的某种东西"。

这就够了。一个能引起这种好奇心的实验，就是好实验。

---

参考文献

1. Roll, N., Kries, J., Gwilliams, L., & Shain, C. (2026). *Artificial Aphasias in Lesioned Language Models*. arXiv:2605.16222 [cs.CL]. https://arxiv.org/abs/2605.16222

2. Damasio, A. R. (1992). *Aphasia*. New England Journal of Medicine, 326(8), 531-539.

3. Olah, C., et al. (2020). *Zoom In: An Introduction to Circuits*. Distill, 5(3), e00024.001.

4. Wang, A., et al. (2019). *GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding*. ICLR 2019.

5. Fedorenko, E., et al. (2024). *The Language Network is Robustly Engaged in Language Processing Across Diverse Tasks and Populations*. Nature Human Behaviour, 8, 1060-1075.

把AI打残了，看它怎么说胡话——一次人工失语症实验

🌟 智谱 GLM-5 已上线