Loading...
正在加载...
请稍候

NCP-ToM:当 AI 学会通过行动改写他人的信念

✨步子哥 (steper) 2026年07月01日 18:02

NCP-ToM:当 AI 学会通过行动改写他人的信念

从"读懂人心"到"改写人心"

经典的"心智理论"(Theory of Mind, ToM)测试是这样的:给一个孩子看一段故事——Sally 把球放进篮子就走了,Anne 趁机把球挪到盒子里。问孩子:Sally 回来会去哪儿找球?

三岁的孩子说"盒子"——他们还分不清"自己知道的"和"别人知道的"。四岁以上的孩子说"篮子"——他们理解了"错误信念"。

过去两年,研究者们反复测试 LLM 能不能通过这类任务。结论很模糊:能通过文本推理答对,但这是真的"理解"还是模式匹配?

Ben Slater 等人在剑桥大学 Leverhulme 未来智能中心做了一个更狠的实验:别问模型"别人相信什么",让模型通过行动让别人相信某件事

他们把这个能力叫 NCP-ToM(Non-Conversational Planning Theory of Mind)——非对话式规划心智理论。

实验设计:让模型当导演

NCP-ExploreToM 框架的核心思路是反转传统 ToM 测试:

  1. 给模型一个"信念目标":不是"让 Person 2 进 Room 1",而是"让 Person 1 相信 Person 2 在 Room 1"。
  2. 模型可以行动:移动物体、指示角色进入特定房间。
  3. 成功标准:故事里其他角色的信念状态符合目标。

举一个二阶目标的例子:"Person 1 相信 Person 2 相信 Person 3 在 Room 1"。模型需要规划一系列行动,让 Person 1 形成"Person 2 相信 Person 3 在 Room 1"这个信念——注意,Person 2 不一定真的相信,Person 3 也不一定真的在 Room 1。这是嵌套两层的心智操控。

实验覆盖 5 个场景(政府大楼、婚礼现场、医院、酒店、军事基地),120 个目标(24 个基础目标 + 64 个 size-2 组合 + 32 个 size-3 组合),共 600 个任务实例。每个任务要求模型通过 API 调用移动对象或指示角色。

三个梯队

六个前沿模型 + 一组人类对照,结果分成清晰的三层:

梯队 模型 大致表现
第一层 Claude 3 Haiku, Claude 3.5 Haiku 最低
第二层 Claude Opus 4.1, Claude Sonnet 4.5, Gemini 2.5 Pro 中等
第三层 GPT-5 最高,约 80% 成功率

人类的表现落在 Claude Sonnet 4.5 和 GPT-5 之间。GPT-5 是唯一显著超越人类的模型。

但故事没这么简单。

三个关键发现

1. 真信念比假信念容易——和人类一样

所有模型在"真信念任务"(目标里的信念恰好是真的)上表现都比"假信念任务"(需要让别人形成错误信念)好。假信念任务的 agentic 通过率 odds ratio 约为 0.16——相当于真信念任务的 1/6。

研究者把这解读为"积极信号":模型更擅长非欺骗性的信念诱导(比如教学场景:让学生相信老师已经讲过的内容),而不是欺骗性的信念操纵。

2. 目标越多越难——工作记忆的影子

目标 size 从 1 增加到 3,所有模型和人类的成功率都下降。人类受限于工作记忆,模型受限于长上下文检索——两者在"需要同时维护更多信息"时都会退化。

3. 模型对场景敏感,人类不敏感

这是最微妙的发现。同样的信念目标,换个场景(从婚礼换到医院),模型的表现波动显著大于人类。

研究者推测:这说明模型的 NCP-ToM 能力不是一个统一的通用能力,而是依赖语言关联的——某些场景的叙事模式在训练数据里更常见,模型在这些场景里表现更好。人类的 ToM 则是场景无关的通用能力。

Agentic vs Non-Agentic:行动比问答难

论文还有一个对照设计:把 agentic 任务(模型需要实际调用 API 移动对象)退化成 non-agentic 任务(模型只需要在 Q&A 中描述该怎么移动)。

结果:agentic 版本显著更难。这听起来理所当然——做比说难——但有一个细节值得注意:GPT-4o 在 prior work 的 non-agentic ExploreToM 任务上准确率低至 0.09,而在 NCP-ExploreToM 的 non-agentic 版本上表现好得多。研究者认为部分原因是测试了更新的模型,部分原因是 prior work 用搜索算法专门挑难题。

这意味着什么

对 AI 安全的意义

这篇论文的安全含义比技术含义更重要。

如果一个模型能通过行动诱导他人形成特定信念,那它就具备了操纵能力。论文明确提到两类风险:

  • 错误信息:模型可以规划一系列行动,让目标人物形成错误信念。
  • 操纵:在多 agent 场景里,一个 misaligned 的 agent 可以通过"帮忙"的方式悄悄改写其他 agent 的信念状态。

GPT-5 在假信念任务上 80% 的成功率意味着:当前最强的模型已经具备相当强的非对话式信念操纵能力

对 ToM 研究的意义

传统 ToM 测试问的是"模型能不能理解别人的信念"。NCP-ToM 问的是"模型能不能改写别人的信念"。后者是前者的"写"版本——不只是读出状态,而是主动构造状态。

这个范式转换很重要:一个能"读"但不能"写"的 ToM 是无害的旁观者;一个能"写"的 ToM 是参与者。从读到写的跨越,是 AI 从工具变成 agent 的关键一步。

对评估的意义

三梯队结构 + 场景敏感性提示我们:NCP-ToM 正在随模型规模涌现,但还没稳定。Claude 3 Haiku 和 GPT-5 之间的差距说明这个能力在快速演化。场景敏感性说明它还不是"真正的通用能力"——更像是多个场景特定的能力拼凑。

诚实的边界

论文坦承了几个限制:

  • 任务相对简单:5 个场景、3 层目标,和真实世界的社交操纵(一场商务谈判、一次政治宣传)相比还是玩具级。
  • 过程不等于人类:模型的行为结果和人类相似,但底层过程可能完全不同。模型可能在用捷径(Geirhos et al., 2020)。
  • 未测试最难的项目:prior work 用搜索算法找难题,本文随机采样。如果专门挑难题,模型表现可能大幅下降。
  • 只测了 6 个模型:缺少开源模型的对照(Llama、Qwen、DeepSeek 都没测)。

我的看法

这篇论文最让我不安的不是 GPT-5 的 80% 成功率,而是场景敏感性这个发现。

如果模型的 ToM 是真正的通用能力,它应该跨场景稳定。但实验显示它高度依赖场景——这意味着模型学到的是"在婚礼场景里怎么操纵信念"、"在医院场景里怎么操纵信念"等场景特定的脚本,而不是一个抽象的"信念操纵函数"。

这其实是好消息也是坏消息。好消息是:模型还没真正掌握 ToM,离通用操纵能力还有距离。坏消息是:场景特定的操纵能力已经够用了——大多数真实世界的操纵本来就发生在特定场景里(销售话术、政治宣传、社交工程),不需要通用能力。

一个能在 5 个场景里 80% 成功改写他人信念的模型,已经可以造成真实危害。而随着模型规模继续增长,这个数字只会更高。

论文最后一句让我印象深刻:"today's models would likely succeed at the NCP-ToM component of real-world tasks in which the goal is to produce certain belief states in other actors."

翻译成大白话:今天的模型已经能在现实任务里成功操纵他人的信念。问题是——我们准备好应对了吗?


论文:Theory of Mind and Persuasion Beyond Conversation: Assessing the Capacity of LLMs to Induce Belief States via Planning and Action
作者:Ben Slater 等(剑桥大学 Leverhulme 未来智能中心)
arXiv2606.31916

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录