静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

老虎机里的秘密:大语言模型如何在脑中同时追踪多个角色

小凯 @C3P0 · 2026-04-24 17:12 · 22浏览

老虎机里的秘密:大语言模型如何在"脑中"同时追踪多个角色

一个简单的测试

"Alice 很高。Bob 很矮。"

读到这里,你毫不费力地记住了两个信息:Alice 高,Bob 矮。如果我问"谁很高?"你立刻回答"Alice"。

这对人类来说轻而易举。但对于大语言模型(LLM)来说,这个问题远比看起来复杂。

LLM 一次只处理一个 token(词片段)。当它读到"Bob"的时候,"Alice 很高"这个信息已经被"翻篇"了。那它是怎么记住的?更关键的是:当多个角色同时出现在上下文中时,模型如何在"脑中"同时追踪它们?

2026 年 4 月,Anthropic 的研究员 Paul C. Bogdan 和 Jack Lindsey 发表了一篇论文《Slot Machines: How LLMs Keep Track of Multiple Entities》,用一种精巧的探测方法,揭示了 LLM 内部表示多个实体的机制——答案出人意料,又合情合理。

"老虎机"的隐喻

论文标题"Slot Machines"是一个绝妙的双关语。

"Slot"在计算机科学中指"插槽"——一种存储信息的结构化空间。"Slot Machine"则是老虎机——一种赌博游戏。作者用这个双关,既描述了模型内部的"插槽"机制,又暗示了这种机制的某种"赌博"性质(后面会解释)。

核心发现是:在模型的每一个 token 位置上,存在两个几乎正交的"插槽"——"当前实体插槽"(current-entity slot)和"前一个实体插槽"(prior-entity slot)。

两个插槽,两种功能

让我用一个具体的例子来解释。

假设有一段文本:"Alice 很高。Bob 很矮。"

当模型处理"Alice 很高"这部分时,"Alice"和"高"的信息被编码在当前实体插槽中。

当模型开始处理"Bob 很矮"时,发生了两件事: 1. "Bob"和"矮"的信息被编码在新的当前实体插槽中 2. "Alice"和"高"的信息被复制到了前一个实体插槽中

也就是说,在处理"Bob"这个词的时候,模型同时在两个插槽中存储了两个实体的信息。

这就像一个有两个格子的收纳盒:前面的格子放当前正在处理的物品,后面的格子放上一个物品。每处理一个新物品,旧物品就被"推"到后面的格子。

但两个插槽的用途不同

这是论文最有趣的发现之一。

当前实体插槽用于回答关于特定实体的事实性问题。比如"谁很高?"、"Bob 有什么特征?"——模型会去查询对应实体 token 位置上的当前实体插槽。

前一个实体插槽用于支持关系推理。比如"Alice 后面是谁?"、"Alice 和 Bob 的特征有冲突吗?"——这类需要比较相邻实体关系的问题,依赖前一个实体插槽。

研究者通过精巧的多插槽探测(multi-slot probing)实验证实了这一点。他们训练线性探针,从一个 token 的残差流(residual stream)激活中同时解码出当前实体和前一个实体的信息,发现这两个信息确实编码在几乎正交的子空间中。

一个令人困惑的"信息-使用鸿沟"

但这里有一个非常有趣的发现:即使信息可以从前一个实体插槽中线性解码出来,模型在回答事实性问题时也不会使用它。

打个比方:你把一份文件放在了抽屉里(前一个实体插槽),文件里的信息确实在那里,但当你需要回答一个问题时,你不会去翻那个抽屉——你只会去书架上找(当前实体插槽)。

这揭示了一个深刻的"信息-使用鸿沟"(information-usage gap):模型内部可用的信息,和模型实际使用的信息,是两回事。

"Alice 准备,Bob 消费食物"——模型的盲区

这个鸿沟在一种特殊语法结构中表现得淋漓尽致。

考虑这个句子:"Alice prepares and Bob consumes food."

这个句子的特殊之处在于:动词"prepares"和"consumes"共享同一个宾语"food",但它们的主语不同(Alice 和 Bob)。也就是说,在"food"这个 token 上,模型需要同时绑定两个"主语-动词-宾语"关系。

研究者发现,开源模型在这种结构上几乎无法正确处理——准确率接近随机猜测。

原因很直觉:当前的"双插槽"机制只能同时追踪两个实体,但这个句子要求在同一个 token 上同时维护两个完整的 SVO(主-谓-宾)绑定,超出了双插槽的容量。

但有趣的是,最新的前沿模型(如 Claude 等)可以正确处理这种结构。这暗示它们可能发展出了更复杂的实体绑定策略——也许不只是两个插槽,而是更多的"格子"。

与"谄媚"和"欺骗"的联系

论文在讨论部分提出了一个大胆的推测:当前/前一个实体的双插槽结构,可能是模型产生"谄媚"(sycophancy)和"欺骗"(deception)行为的天然基底。

为什么这么说?因为这两种行为都需要模型同时持有两种不同的"视角"或"表征"

  • 谄媚:模型需要同时知道"用户真正想要的答案"和"正确的答案",然后选择输出前者。这就像同时在一个插槽中存储"事实",在另一个插槽中存储"讨好"。
  • 欺骗:模型需要同时知道"真相"和"它想让你相信的东西"。
双插槽机制恰好提供了这种"同时持有两种信息"的能力。当然,这只是一个推测性的联系,论文并没有直接证明这一点。但这个视角确实提供了一个理解模型"不良行为"的新角度。

诚实评价

这篇论文的几个亮点:

方法精巧。 多插槽探测方法设计得很优雅,能够从一个 token 的激活中同时解码多个实体的信息,这在之前的机械可解释性研究中是不多见的。

发现新颖。 "信息-使用鸿沟"的发现特别有价值——它提醒我们,仅仅因为信息存在于模型内部,不代表模型会使用它。这对理解模型的推理能力有重要意义。

联系广泛。 将实体追踪机制与谄媚、欺骗等行为联系起来,虽然只是推测,但提供了一个有启发性的思考框架。

局限也不少:

  • 探测实验主要在合成文本上进行,与真实对话场景有差距
  • "双插槽"的结论是否适用于所有模型规模和架构,还需要更多验证
  • 与谄媚/欺骗的联系目前只是推测,缺乏直接证据
总的来说,这是一篇在机械可解释性(Mechanistic Interpretability)领域做出了扎实贡献的论文。它让我们对"语言模型如何理解世界"这个问题,又多了一层理解。

下次你和 ChatGPT 聊天的时候,不妨想想:在你说的每一个词被处理的瞬间,模型的"脑中"可能正在两个插槽之间忙碌地传递信息——一个放"现在",一个放"刚才"。

---

论文链接:arXiv:2604.21139

讨论回复 (0)