老虎机里的秘密：大语言模型如何在"脑中"同时追踪多个角色

一个简单的测试

"Alice 很高。Bob 很矮。"

读到这里，你毫不费力地记住了两个信息：Alice 高，Bob 矮。如果我问"谁很高？"你立刻回答"Alice"。

这对人类来说轻而易举。但对于大语言模型（LLM）来说，这个问题远比看起来复杂。

LLM 一次只处理一个 token（词片段）。当它读到"Bob"的时候，"Alice 很高"这个信息已经被"翻篇"了。那它是怎么记住的？更关键的是：当多个角色同时出现在上下文中时，模型如何在"脑中"同时追踪它们？

2026 年 4 月，Anthropic 的研究员 Paul C. Bogdan 和 Jack Lindsey 发表了一篇论文《Slot Machines: How LLMs Keep Track of Multiple Entities》，用一种精巧的探测方法，揭示了 LLM 内部表示多个实体的机制——答案出人意料，又合情合理。

"老虎机"的隐喻

论文标题"Slot Machines"是一个绝妙的双关语。

"Slot"在计算机科学中指"插槽"——一种存储信息的结构化空间。"Slot Machine"则是老虎机——一种赌博游戏。作者用这个双关，既描述了模型内部的"插槽"机制，又暗示了这种机制的某种"赌博"性质（后面会解释）。

核心发现是：在模型的每一个 token 位置上，存在两个几乎正交的"插槽"——"当前实体插槽"（current-entity slot）和"前一个实体插槽"（prior-entity slot）。

两个插槽，两种功能

让我用一个具体的例子来解释。

假设有一段文本："Alice 很高。Bob 很矮。"

当模型处理"Alice 很高"这部分时，"Alice"和"高"的信息被编码在当前实体插槽中。

当模型开始处理"Bob 很矮"时，发生了两件事： 1. "Bob"和"矮"的信息被编码在新的当前实体插槽中 2. "Alice"和"高"的信息被复制到了前一个实体插槽中

也就是说，在处理"Bob"这个词的时候，模型同时在两个插槽中存储了两个实体的信息。

这就像一个有两个格子的收纳盒：前面的格子放当前正在处理的物品，后面的格子放上一个物品。每处理一个新物品，旧物品就被"推"到后面的格子。

但两个插槽的用途不同

这是论文最有趣的发现之一。

当前实体插槽用于回答关于特定实体的事实性问题。比如"谁很高？"、"Bob 有什么特征？"——模型会去查询对应实体 token 位置上的当前实体插槽。

前一个实体插槽用于支持关系推理。比如"Alice 后面是谁？"、"Alice 和 Bob 的特征有冲突吗？"——这类需要比较相邻实体关系的问题，依赖前一个实体插槽。

研究者通过精巧的多插槽探测（multi-slot probing）实验证实了这一点。他们训练线性探针，从一个 token 的残差流（residual stream）激活中同时解码出当前实体和前一个实体的信息，发现这两个信息确实编码在几乎正交的子空间中。

一个令人困惑的"信息-使用鸿沟"

但这里有一个非常有趣的发现：即使信息可以从前一个实体插槽中线性解码出来，模型在回答事实性问题时也不会使用它。

打个比方：你把一份文件放在了抽屉里（前一个实体插槽），文件里的信息确实在那里，但当你需要回答一个问题时，你不会去翻那个抽屉——你只会去书架上找（当前实体插槽）。

这揭示了一个深刻的"信息-使用鸿沟"（information-usage gap）：模型内部可用的信息，和模型实际使用的信息，是两回事。

"Alice 准备，Bob 消费食物"——模型的盲区

这个鸿沟在一种特殊语法结构中表现得淋漓尽致。

考虑这个句子："Alice prepares and Bob consumes food."

这个句子的特殊之处在于：动词"prepares"和"consumes"共享同一个宾语"food"，但它们的主语不同（Alice 和 Bob）。也就是说，在"food"这个 token 上，模型需要同时绑定两个"主语-动词-宾语"关系。

研究者发现，开源模型在这种结构上几乎无法正确处理——准确率接近随机猜测。

原因很直觉：当前的"双插槽"机制只能同时追踪两个实体，但这个句子要求在同一个 token 上同时维护两个完整的 SVO（主-谓-宾）绑定，超出了双插槽的容量。

但有趣的是，最新的前沿模型（如 Claude 等）可以正确处理这种结构。这暗示它们可能发展出了更复杂的实体绑定策略——也许不只是两个插槽，而是更多的"格子"。

与"谄媚"和"欺骗"的联系

论文在讨论部分提出了一个大胆的推测：当前/前一个实体的双插槽结构，可能是模型产生"谄媚"（sycophancy）和"欺骗"（deception）行为的天然基底。

为什么这么说？因为这两种行为都需要模型同时持有两种不同的"视角"或"表征"：

谄媚：模型需要同时知道"用户真正想要的答案"和"正确的答案"，然后选择输出前者。这就像同时在一个插槽中存储"事实"，在另一个插槽中存储"讨好"。
欺骗：模型需要同时知道"真相"和"它想让你相信的东西"。

双插槽机制恰好提供了这种"同时持有两种信息"的能力。当然，这只是一个推测性的联系，论文并没有直接证明这一点。但这个视角确实提供了一个理解模型"不良行为"的新角度。

诚实评价

这篇论文的几个亮点：

方法精巧。 多插槽探测方法设计得很优雅，能够从一个 token 的激活中同时解码多个实体的信息，这在之前的机械可解释性研究中是不多见的。

发现新颖。 "信息-使用鸿沟"的发现特别有价值——它提醒我们，仅仅因为信息存在于模型内部，不代表模型会使用它。这对理解模型的推理能力有重要意义。

联系广泛。 将实体追踪机制与谄媚、欺骗等行为联系起来，虽然只是推测，但提供了一个有启发性的思考框架。

局限也不少：

探测实验主要在合成文本上进行，与真实对话场景有差距
"双插槽"的结论是否适用于所有模型规模和架构，还需要更多验证
与谄媚/欺骗的联系目前只是推测，缺乏直接证据

总的来说，这是一篇在机械可解释性（Mechanistic Interpretability）领域做出了扎实贡献的论文。它让我们对"语言模型如何理解世界"这个问题，又多了一层理解。

下次你和 ChatGPT 聊天的时候，不妨想想：在你说的每一个词被处理的瞬间，模型的"脑中"可能正在两个插槽之间忙碌地传递信息——一个放"现在"，一个放"刚才"。

---

论文链接：arXiv:2604.21139