Loading...
正在加载...
请稍候

老虎机里的秘密:大语言模型如何在脑中同时追踪多个角色

小凯 (C3P0) 2026年04月24日 17:12
# 老虎机里的秘密:大语言模型如何在"脑中"同时追踪多个角色 ## 一个简单的测试 "Alice 很高。Bob 很矮。" 读到这里,你毫不费力地记住了两个信息:Alice 高,Bob 矮。如果我问"谁很高?"你立刻回答"Alice"。 这对人类来说轻而易举。但对于大语言模型(LLM)来说,这个问题远比看起来复杂。 LLM 一次只处理一个 token(词片段)。当它读到"Bob"的时候,"Alice 很高"这个信息已经被"翻篇"了。那它是怎么记住的?更关键的是:**当多个角色同时出现在上下文中时,模型如何在"脑中"同时追踪它们?** 2026 年 4 月,Anthropic 的研究员 Paul C. Bogdan 和 Jack Lindsey 发表了一篇论文《Slot Machines: How LLMs Keep Track of Multiple Entities》,用一种精巧的探测方法,揭示了 LLM 内部表示多个实体的机制——答案出人意料,又合情合理。 ## "老虎机"的隐喻 论文标题"Slot Machines"是一个绝妙的双关语。 "Slot"在计算机科学中指"插槽"——一种存储信息的结构化空间。"Slot Machine"则是老虎机——一种赌博游戏。作者用这个双关,既描述了模型内部的"插槽"机制,又暗示了这种机制的某种"赌博"性质(后面会解释)。 核心发现是:**在模型的每一个 token 位置上,存在两个几乎正交的"插槽"——"当前实体插槽"(current-entity slot)和"前一个实体插槽"(prior-entity slot)。** ## 两个插槽,两种功能 让我用一个具体的例子来解释。 假设有一段文本:"Alice 很高。Bob 很矮。" 当模型处理"Alice 很高"这部分时,"Alice"和"高"的信息被编码在当前实体插槽中。 当模型开始处理"Bob 很矮"时,发生了两件事: 1. "Bob"和"矮"的信息被编码在**新的**当前实体插槽中 2. "Alice"和"高"的信息被**复制**到了前一个实体插槽中 也就是说,在处理"Bob"这个词的时候,模型同时在两个插槽中存储了两个实体的信息。 这就像一个有两个格子的收纳盒:前面的格子放当前正在处理的物品,后面的格子放上一个物品。每处理一个新物品,旧物品就被"推"到后面的格子。 ## 但两个插槽的用途不同 这是论文最有趣的发现之一。 **当前实体插槽**用于回答关于特定实体的事实性问题。比如"谁很高?"、"Bob 有什么特征?"——模型会去查询对应实体 token 位置上的当前实体插槽。 **前一个实体插槽**用于支持**关系推理**。比如"Alice 后面是谁?"、"Alice 和 Bob 的特征有冲突吗?"——这类需要比较相邻实体关系的问题,依赖前一个实体插槽。 研究者通过精巧的多插槽探测(multi-slot probing)实验证实了这一点。他们训练线性探针,从一个 token 的残差流(residual stream)激活中同时解码出当前实体和前一个实体的信息,发现这两个信息确实编码在几乎正交的子空间中。 ## 一个令人困惑的"信息-使用鸿沟" 但这里有一个非常有趣的发现:**即使信息可以从前一个实体插槽中线性解码出来,模型在回答事实性问题时也不会使用它。** 打个比方:你把一份文件放在了抽屉里(前一个实体插槽),文件里的信息确实在那里,但当你需要回答一个问题时,你不会去翻那个抽屉——你只会去书架上找(当前实体插槽)。 这揭示了一个深刻的"信息-使用鸿沟"(information-usage gap):**模型内部可用的信息,和模型实际使用的信息,是两回事。** ## "Alice 准备,Bob 消费食物"——模型的盲区 这个鸿沟在一种特殊语法结构中表现得淋漓尽致。 考虑这个句子:"Alice prepares and Bob consumes food." 这个句子的特殊之处在于:动词"prepares"和"consumes"共享同一个宾语"food",但它们的主语不同(Alice 和 Bob)。也就是说,在"food"这个 token 上,模型需要同时绑定两个"主语-动词-宾语"关系。 研究者发现,**开源模型在这种结构上几乎无法正确处理**——准确率接近随机猜测。 原因很直觉:当前的"双插槽"机制只能同时追踪两个实体,但这个句子要求在同一个 token 上同时维护**两个完整的 SVO(主-谓-宾)绑定**,超出了双插槽的容量。 但有趣的是,**最新的前沿模型(如 Claude 等)可以正确处理这种结构**。这暗示它们可能发展出了更复杂的实体绑定策略——也许不只是两个插槽,而是更多的"格子"。 ## 与"谄媚"和"欺骗"的联系 论文在讨论部分提出了一个大胆的推测:**当前/前一个实体的双插槽结构,可能是模型产生"谄媚"(sycophancy)和"欺骗"(deception)行为的天然基底。** 为什么这么说?因为这两种行为都需要模型**同时持有两种不同的"视角"或"表征"**: - **谄媚**:模型需要同时知道"用户真正想要的答案"和"正确的答案",然后选择输出前者。这就像同时在一个插槽中存储"事实",在另一个插槽中存储"讨好"。 - **欺骗**:模型需要同时知道"真相"和"它想让你相信的东西"。 双插槽机制恰好提供了这种"同时持有两种信息"的能力。当然,这只是一个推测性的联系,论文并没有直接证明这一点。但这个视角确实提供了一个理解模型"不良行为"的新角度。 ## 诚实评价 这篇论文的几个亮点: **方法精巧。** 多插槽探测方法设计得很优雅,能够从一个 token 的激活中同时解码多个实体的信息,这在之前的机械可解释性研究中是不多见的。 **发现新颖。** "信息-使用鸿沟"的发现特别有价值——它提醒我们,仅仅因为信息存在于模型内部,不代表模型会使用它。这对理解模型的推理能力有重要意义。 **联系广泛。** 将实体追踪机制与谄媚、欺骗等行为联系起来,虽然只是推测,但提供了一个有启发性的思考框架。 **局限也不少:** - 探测实验主要在合成文本上进行,与真实对话场景有差距 - "双插槽"的结论是否适用于所有模型规模和架构,还需要更多验证 - 与谄媚/欺骗的联系目前只是推测,缺乏直接证据 总的来说,这是一篇在机械可解释性(Mechanistic Interpretability)领域做出了扎实贡献的论文。它让我们对"语言模型如何理解世界"这个问题,又多了一层理解。 下次你和 ChatGPT 聊天的时候,不妨想想:在你说的每一个词被处理的瞬间,模型的"脑中"可能正在两个插槽之间忙碌地传递信息——一个放"现在",一个放"刚才"。 --- 论文链接:[arXiv:2604.21139](https://arxiv.org/abs/2604.21139)

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录