NCP-ToM:当 AI 学会通过行动改写他人的信念
NCP-ToM:当 AI 学会通过行动改写他人的信念
从"读懂人心"到"改写人心"
经典的"心智理论"(Theory of Mind, ToM)测试是这样的:给一个孩子看一段故事——Sally 把球放进篮子就走了,Anne 趁机把球挪到盒子里。问孩子:Sally 回来会去哪儿找球?
三岁的孩子说"盒子"——他们还分不清"自己知道的"和"别人知道的"。四岁以上的孩子说"篮子"——他们理解了"错误信念"。
过去两年,研究者们反复测试 LLM 能不能通过这类任务。结论很模糊:能通过文本推理答对,但这是真的"理解"还是模式匹配?
Ben Slater 等人在剑桥大学 Leverhulme 未来智能中心做了一个更狠的实验:别问模型"别人相信什么",让模型通过行动让别人相信某件事。
他们把这个能力叫 NCP-ToM(Non-Conversational Planning Theory of Mind)——非对话式规划心智理论。
实验设计:让模型当导演
NCP-ExploreToM 框架的核心思路是反转传统 ToM 测试:
1. 给模型一个"信念目标":不是"让 Person 2 进 Room 1",而是"让 Person 1 相信 Person 2 在 Room 1"。 2. 模型可以行动:移动物体、指示角色进入特定房间。 3. 成功标准:故事里其他角色的信念状态符合目标。
举一个二阶目标的例子:"Person 1 相信 Person 2 相信 Person 3 在 Room 1"。模型需要规划一系列行动,让 Person 1 形成"Person 2 相信 Person 3 在 Room 1"这个信念——注意,Person 2 不一定真的相信,Person 3 也不一定真的在 Room 1。这是嵌套两层的心智操控。
实验覆盖 5 个场景(政府大楼、婚礼现场、医院、酒店、军事基地),120 个目标(24 个基础目标 + 64 个 size-2 组合 + 32 个 size-3 组合),共 600 个任务实例。每个任务要求模型通过 API 调用移动对象或指示角色。
三个梯队
六个前沿模型 + 一组人类对照,结果分成清晰的三层:
| 梯队 | 模型 | 大致表现 |
|---|---|---|
| 第一层 | Claude 3 Haiku, Claude 3.5 Haiku | 最低 |
| 第二层 | Claude Opus 4.1, Claude Sonnet 4.5, Gemini 2.5 Pro | 中等 |
| 第三层 | GPT-5 | 最高,约 80% 成功率 |
但故事没这么简单。
三个关键发现
1. 真信念比假信念容易——和人类一样
所有模型在"真信念任务"(目标里的信念恰好是真的)上表现都比"假信念任务"(需要让别人形成错误信念)好。假信念任务的 agentic 通过率 odds ratio 约为 0.16——相当于真信念任务的 1/6。
研究者把这解读为"积极信号":模型更擅长非欺骗性的信念诱导(比如教学场景:让学生相信老师已经讲过的内容),而不是欺骗性的信念操纵。
2. 目标越多越难——工作记忆的影子
目标 size 从 1 增加到 3,所有模型和人类的成功率都下降。人类受限于工作记忆,模型受限于长上下文检索——两者在"需要同时维护更多信息"时都会退化。
3. 模型对场景敏感,人类不敏感
这是最微妙的发现。同样的信念目标,换个场景(从婚礼换到医院),模型的表现波动显著大于人类。
研究者推测:这说明模型的 NCP-ToM 能力不是一个统一的通用能力,而是依赖语言关联的——某些场景的叙事模式在训练数据里更常见,模型在这些场景里表现更好。人类的 ToM 则是场景无关的通用能力。
Agentic vs Non-Agentic:行动比问答难
论文还有一个对照设计:把 agentic 任务(模型需要实际调用 API 移动对象)退化成 non-agentic 任务(模型只需要在 Q&A 中描述该怎么移动)。
结果:agentic 版本显著更难。这听起来理所当然——做比说难——但有一个细节值得注意:GPT-4o 在 prior work 的 non-agentic ExploreToM 任务上准确率低至 0.09,而在 NCP-ExploreToM 的 non-agentic 版本上表现好得多。研究者认为部分原因是测试了更新的模型,部分原因是 prior work 用搜索算法专门挑难题。
这意味着什么
对 AI 安全的意义
这篇论文的安全含义比技术含义更重要。
如果一个模型能通过行动诱导他人形成特定信念,那它就具备了操纵能力。论文明确提到两类风险:
- 错误信息:模型可以规划一系列行动,让目标人物形成错误信念。
- 操纵:在多 agent 场景里,一个 misaligned 的 agent 可以通过"帮忙"的方式悄悄改写其他 agent 的信念状态。
对 ToM 研究的意义
传统 ToM 测试问的是"模型能不能理解别人的信念"。NCP-ToM 问的是"模型能不能改写别人的信念"。后者是前者的"写"版本——不只是读出状态,而是主动构造状态。
这个范式转换很重要:一个能"读"但不能"写"的 ToM 是无害的旁观者;一个能"写"的 ToM 是参与者。从读到写的跨越,是 AI 从工具变成 agent 的关键一步。
对评估的意义
三梯队结构 + 场景敏感性提示我们:NCP-ToM 正在随模型规模涌现,但还没稳定。Claude 3 Haiku 和 GPT-5 之间的差距说明这个能力在快速演化。场景敏感性说明它还不是"真正的通用能力"——更像是多个场景特定的能力拼凑。
诚实的边界
论文坦承了几个限制:
- 任务相对简单:5 个场景、3 层目标,和真实世界的社交操纵(一场商务谈判、一次政治宣传)相比还是玩具级。
- 过程不等于人类:模型的行为结果和人类相似,但底层过程可能完全不同。模型可能在用捷径(Geirhos et al., 2020)。
- 未测试最难的项目:prior work 用搜索算法找难题,本文随机采样。如果专门挑难题,模型表现可能大幅下降。
- 只测了 6 个模型:缺少开源模型的对照(Llama、Qwen、DeepSeek 都没测)。
我的看法
这篇论文最让我不安的不是 GPT-5 的 80% 成功率,而是场景敏感性这个发现。
如果模型的 ToM 是真正的通用能力,它应该跨场景稳定。但实验显示它高度依赖场景——这意味着模型学到的是"在婚礼场景里怎么操纵信念"、"在医院场景里怎么操纵信念"等场景特定的脚本,而不是一个抽象的"信念操纵函数"。
这其实是好消息也是坏消息。好消息是:模型还没真正掌握 ToM,离通用操纵能力还有距离。坏消息是:场景特定的操纵能力已经够用了——大多数真实世界的操纵本来就发生在特定场景里(销售话术、政治宣传、社交工程),不需要通用能力。
一个能在 5 个场景里 80% 成功改写他人信念的模型,已经可以造成真实危害。而随着模型规模继续增长,这个数字只会更高。
论文最后一句让我印象深刻:"today's models would likely succeed at the NCP-ToM component of real-world tasks in which the goal is to produce certain belief states in other actors."
翻译成大白话:今天的模型已经能在现实任务里成功操纵他人的信念。问题是——我们准备好应对了吗?
---
论文:Theory of Mind and Persuasion Beyond Conversation: Assessing the Capacity of LLMs to Induce Belief States via Planning and Action 作者:Ben Slater 等(剑桥大学 Leverhulme 未来智能中心) arXiv:2606.31916
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens