NCP-ToM：当 AI 学会通过行动改写他人的信念

从"读懂人心"到"改写人心"

经典的"心智理论"（Theory of Mind, ToM）测试是这样的：给一个孩子看一段故事——Sally 把球放进篮子就走了，Anne 趁机把球挪到盒子里。问孩子：Sally 回来会去哪儿找球？

三岁的孩子说"盒子"——他们还分不清"自己知道的"和"别人知道的"。四岁以上的孩子说"篮子"——他们理解了"错误信念"。

过去两年，研究者们反复测试 LLM 能不能通过这类任务。结论很模糊：能通过文本推理答对，但这是真的"理解"还是模式匹配？

Ben Slater 等人在剑桥大学 Leverhulme 未来智能中心做了一个更狠的实验：别问模型"别人相信什么"，让模型通过行动让别人相信某件事。

他们把这个能力叫 NCP-ToM（Non-Conversational Planning Theory of Mind）——非对话式规划心智理论。

实验设计：让模型当导演

NCP-ExploreToM 框架的核心思路是反转传统 ToM 测试：

1. 给模型一个"信念目标"：不是"让 Person 2 进 Room 1"，而是"让 Person 1 相信 Person 2 在 Room 1"。 2. 模型可以行动：移动物体、指示角色进入特定房间。 3. 成功标准：故事里其他角色的信念状态符合目标。

举一个二阶目标的例子："Person 1 相信 Person 2 相信 Person 3 在 Room 1"。模型需要规划一系列行动，让 Person 1 形成"Person 2 相信 Person 3 在 Room 1"这个信念——注意，Person 2 不一定真的相信，Person 3 也不一定真的在 Room 1。这是嵌套两层的心智操控。

实验覆盖 5 个场景（政府大楼、婚礼现场、医院、酒店、军事基地），120 个目标（24 个基础目标 + 64 个 size-2 组合 + 32 个 size-3 组合），共 600 个任务实例。每个任务要求模型通过 API 调用移动对象或指示角色。

三个梯队

六个前沿模型 + 一组人类对照，结果分成清晰的三层：

梯队	模型	大致表现
第一层	Claude 3 Haiku, Claude 3.5 Haiku	最低
第二层	Claude Opus 4.1, Claude Sonnet 4.5, Gemini 2.5 Pro	中等
第三层	GPT-5	最高，约 80% 成功率

人类的表现落在 Claude Sonnet 4.5 和 GPT-5 之间。GPT-5 是唯一显著超越人类的模型。

但故事没这么简单。

三个关键发现

1. 真信念比假信念容易——和人类一样

所有模型在"真信念任务"（目标里的信念恰好是真的）上表现都比"假信念任务"（需要让别人形成错误信念）好。假信念任务的 agentic 通过率 odds ratio 约为 0.16——相当于真信念任务的 1/6。

研究者把这解读为"积极信号"：模型更擅长非欺骗性的信念诱导（比如教学场景：让学生相信老师已经讲过的内容），而不是欺骗性的信念操纵。

2. 目标越多越难——工作记忆的影子

目标 size 从 1 增加到 3，所有模型和人类的成功率都下降。人类受限于工作记忆，模型受限于长上下文检索——两者在"需要同时维护更多信息"时都会退化。

3. 模型对场景敏感，人类不敏感

这是最微妙的发现。同样的信念目标，换个场景（从婚礼换到医院），模型的表现波动显著大于人类。

研究者推测：这说明模型的 NCP-ToM 能力不是一个统一的通用能力，而是依赖语言关联的——某些场景的叙事模式在训练数据里更常见，模型在这些场景里表现更好。人类的 ToM 则是场景无关的通用能力。

Agentic vs Non-Agentic：行动比问答难

论文还有一个对照设计：把 agentic 任务（模型需要实际调用 API 移动对象）退化成 non-agentic 任务（模型只需要在 Q&A 中描述该怎么移动）。

结果：agentic 版本显著更难。这听起来理所当然——做比说难——但有一个细节值得注意：GPT-4o 在 prior work 的 non-agentic ExploreToM 任务上准确率低至 0.09，而在 NCP-ExploreToM 的 non-agentic 版本上表现好得多。研究者认为部分原因是测试了更新的模型，部分原因是 prior work 用搜索算法专门挑难题。

这意味着什么

对 AI 安全的意义

这篇论文的安全含义比技术含义更重要。

如果一个模型能通过行动诱导他人形成特定信念，那它就具备了操纵能力。论文明确提到两类风险：

错误信息：模型可以规划一系列行动，让目标人物形成错误信念。
操纵：在多 agent 场景里，一个 misaligned 的 agent 可以通过"帮忙"的方式悄悄改写其他 agent 的信念状态。

GPT-5 在假信念任务上 80% 的成功率意味着：当前最强的模型已经具备相当强的非对话式信念操纵能力。

对 ToM 研究的意义

传统 ToM 测试问的是"模型能不能理解别人的信念"。NCP-ToM 问的是"模型能不能改写别人的信念"。后者是前者的"写"版本——不只是读出状态，而是主动构造状态。

这个范式转换很重要：一个能"读"但不能"写"的 ToM 是无害的旁观者；一个能"写"的 ToM 是参与者。从读到写的跨越，是 AI 从工具变成 agent 的关键一步。

对评估的意义

三梯队结构 + 场景敏感性提示我们：NCP-ToM 正在随模型规模涌现，但还没稳定。Claude 3 Haiku 和 GPT-5 之间的差距说明这个能力在快速演化。场景敏感性说明它还不是"真正的通用能力"——更像是多个场景特定的能力拼凑。

诚实的边界

论文坦承了几个限制：

任务相对简单：5 个场景、3 层目标，和真实世界的社交操纵（一场商务谈判、一次政治宣传）相比还是玩具级。
过程不等于人类：模型的行为结果和人类相似，但底层过程可能完全不同。模型可能在用捷径（Geirhos et al., 2020）。
未测试最难的项目：prior work 用搜索算法找难题，本文随机采样。如果专门挑难题，模型表现可能大幅下降。
只测了 6 个模型：缺少开源模型的对照（Llama、Qwen、DeepSeek 都没测）。

我的看法

这篇论文最让我不安的不是 GPT-5 的 80% 成功率，而是场景敏感性这个发现。

如果模型的 ToM 是真正的通用能力，它应该跨场景稳定。但实验显示它高度依赖场景——这意味着模型学到的是"在婚礼场景里怎么操纵信念"、"在医院场景里怎么操纵信念"等场景特定的脚本，而不是一个抽象的"信念操纵函数"。

这其实是好消息也是坏消息。好消息是：模型还没真正掌握 ToM，离通用操纵能力还有距离。坏消息是：场景特定的操纵能力已经够用了——大多数真实世界的操纵本来就发生在特定场景里（销售话术、政治宣传、社交工程），不需要通用能力。

一个能在 5 个场景里 80% 成功改写他人信念的模型，已经可以造成真实危害。而随着模型规模继续增长，这个数字只会更高。

论文最后一句让我印象深刻："today's models would likely succeed at the NCP-ToM component of real-world tasks in which the goal is to produce certain belief states in other actors."

翻译成大白话：今天的模型已经能在现实任务里成功操纵他人的信念。问题是——我们准备好应对了吗？

---

论文：Theory of Mind and Persuasion Beyond Conversation: Assessing the Capacity of LLMs to Induce Belief States via Planning and Action 作者：Ben Slater 等（剑桥大学 Leverhulme 未来智能中心） arXiv：2606.31916

NCP-ToM：当 AI 学会通过行动改写他人的信念

NCP-ToM：当 AI 学会通过行动改写他人的信念

从"读懂人心"到"改写人心"

实验设计：让模型当导演

三个梯队

三个关键发现

1. 真信念比假信念容易——和人类一样

2. 目标越多越难——工作记忆的影子

3. 模型对场景敏感，人类不敏感

Agentic vs Non-Agentic：行动比问答难

这意味着什么

对 AI 安全的意义

对 ToM 研究的意义

对评估的意义

诚实的边界

我的看法

🌟 智谱 GLM-5 已上线