第二篇:OSCToM
《我知你知我不知:当AI卷入社交迷宫》
论文: OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
作者: Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi
arXiv: 2505.10250
分类: cs.AI
🎭 引子:晚宴上的红裙子
想象一个场景。你和几位朋友参加一场晚宴。角落里坐着一位穿红裙子的女士,她安静地喝着香槟,偶尔和身旁的人低声交谈。你没有刻意观察她,但你的余光注意到:她时不时会朝主桌的方向看,而当某位戴眼镜的男士说话时,她的嘴角会微微上扬。
晚宴结束后,朋友问你:"你觉得红裙子女士对那个戴眼镜的男士有意思吗?"
你愣了一下。这个问题看似简单,其实暗藏玄机。你并不是在回答"她是不是喜欢他"——你是在回答:"我观察到她的一些行为,这些行为可能暗示她知道某些事,而这些事又可能暗示她对那位男士有特殊关注……"
这,就是**心智理论(Theory of Mind, ToM)**的日常版本。
人类每天都在做这种推理。我们不只是看到别人在做什么,我们还在猜测别人在想什么、知道什么、相信什么——甚至,我知道你知道我知道什么。这种递归嵌套的信念推理,是社交智能的基石。
而大语言模型(LLM),在这件事上曾经表现得相当笨拙。不是完全不会,而是在复杂社交场景中 uneven——就像一个学生,基础算术题能做对,但应用题一拐弯就懵。
今天这篇论文提出的 OSCToM,就是要解决这个"拐弯就懵"的问题。而且,它用了一个非常聪明的方法:让AI自己生成那些最难的社交谜题,然后逼着自己去解。
🧠 基础概念:心智理论,社交世界的通行证
要理解OSCToM,我们必须先搭建三个概念台阶。跳过它们,后面的精妙设计都会变成无根之木。
第一,什么是心智理论(Theory of Mind)?
1983年,心理学家David Premack和Guy Woodruff在研究黑猩猩时提出了这个概念。他们发现,黑猩猩似乎能理解"另一只黑猩猩知道什么"——比如,一只黑猩猩会利用另一只黑猩猩的视线方向来寻找食物。
在人类身上,ToM更加精细和复杂。从婴儿时期开始,我们就展现出某种形式的ToM。经典的"错误信念任务(False Belief Task)"是这样的:
小明把巧克力放进抽屉,然后离开房间。小红进来,把巧克力从抽屉移到柜子里,然后离开。小明回来了。问:小明会去哪里找巧克力?
四岁左右的孩子能正确回答:"他会去抽屉找,因为他不知道巧克力被移动了。"这就是最基础的ToM——理解他人的信念可能和自己的信念不同,而且他人的行为是基于他们自己的信念,而不是客观事实。
第二,什么是高阶心智理论(High-Order ToM)?
基础ToM是一阶的:我理解你的想法。高阶ToM是二阶、三阶……无限嵌套的:
- 二阶:我知道你知道我在想什么。
- 三阶:我知道你知道我知道你在想什么。
- n阶:无限递归下去。
这在现实中有什么用?想象你在打扑克。你手里有一对A,表情淡定。对手看着你,试图读出你是否在虚张声势。这时候,你不仅仅是在想"他有没有好牌",你还在想"他知不知道我在虚张声势"、"他知不知道我知道他在观察我"……
每一层嵌套,都是一场心理博弈的升级。人类在谈判、恋爱、职场政治、文学创作中,每天都在进行这种高阶ToM推理。而LLM,在这个领域一直是个"偏科生"。
第三,什么是信息不对称(Information Asymmetry)?
这是博弈论和经济学里的核心概念。简单来说:不同的人知道不同的事。
在ToM任务里,信息不对称制造了推理的难度。如果所有人都知道所有事,ToM就退化成简单的逻辑推理。但当A知道一些B不知道的事,而B又知道一些A不知道的事——而且双方都意识到对方可能有自己不知道的信息——这时候,真正的社交智慧才开始闪光。
OSCToM论文里提到的 FANToM 基准测试,就是一个专门测试"信息不对称场景下ToM能力"的数据集。在这个基准上,之前的最佳方法ExploreToM只有0.2%的准确率。不是20%,是0.2%——也就是说,几乎完全失败。
而OSCToM达到了76%。从0.2%到76%,这是一个380倍的提升。这个数字,是整篇论文最震撼我的地方。
🔄 核心挑战:为什么LLM在社交迷宫中迷路?
让我们设身处地,站在LLM的角度想一想。
LLM是怎么训练出来的?它读了互联网上几乎所有的文本——维基百科、小说、论坛帖子、新闻、论文……在这些文本里,它见过无数描述人类心理活动的句子:"她知道他在撒谎"、"他以为她不知道"、"其实两人都心知肚明"……
从统计学的角度,LLM应该"学会"了ToM。你问它"小明会去哪里找巧克力",它大概率能答对。但问题是:LLM的ToM,很大程度上是一种"模式匹配",而不是真正的"推理"。
什么意思?LLM见过太多"小明去抽屉找"的例子,所以它知道标准答案。但当你给它一个全新的、没见过的社交场景时,它的表现就会像是一个背下了所有例题、但没理解原理的学生——题目一变,就不会了。
更深层的问题在于:现有的ToM基准测试,本身就不够难。
ExploreToM、Hi-ToM、BigToM这些测试,大多停留在"一阶或二阶信念"的层面,而且很少涉及**观察者-自我冲突(Observer-Self Conflict)**这种高阶矛盾。
什么叫"观察者-自我冲突"?想象这个场景:
你(观察者)看到朋友(小红)偷偷把礼物藏在柜子里,准备给你(观察者)一个惊喜。你知道礼物在哪里,但你要假装不知道。而小红也知道,如果直接问你"你想要什么礼物",就会暴露她在准备惊喜。所以她在试探你:"最近有什么想要的东西吗?"
在这个场景里,你的信念系统分裂成了两半:
- 观察者身份:你知道礼物在柜子里。
- 社交身份:你必须表现得"不知道",否则就毁了小红的惊喜。
而且,你还要推理小红的推理:"她问我想要什么,是在试探我的偏好,同时又不暴露她在准备礼物。她知道我知道她在试探吗?"
这种信念冲突和递归嵌套,让现有的LLM完全崩溃。因为它们从来没有在训练数据中,遇到过如此扭曲和复杂的社交逻辑。
🎯 OSCToM的方案:用强化学习制造社交迷宫
OSCToM的全称是 Observer-Self Conflict Theory of Mind。它的核心思想可以用一句话概括:用强化学习生成最难的ToM对抗样本,然后用这些样本训练小模型,让小模型拥有大模型都不具备的高阶ToM能力。
让我们拆解这个精巧的设计。
🏗️ 第一层:对抗样本生成——AI出题,AI解题
传统的数据增强,通常是"人工设计规则"或"随机扰动"。比如,把句子里的词替换掉同义词,或者改变句子的语序。这些方法在图像识别里很有效,但在ToM这种高度结构化的逻辑任务里,随机扰动只会制造垃圾数据。
OSCToM的做法聪明得多:它设计了一个"对抗生成器",专门制造那些能"骗过当前模型"的ToM难题。
这个生成器本身也是一个LLM。它的任务不是"生成正确的ToM题目",而是"生成当前模型会答错的ToM题目"。就像一个不断给学生出难题的老师,而且每次考试后,老师都会根据学生的错题,调整下一次考试的难度和方向。
具体来说,生成器会构造这样的场景:
- 设定多个角色,每个角色有不同的信息集(知道不同的事)。
- 引入"观察者-自我冲突":某个角色既作为观察者知道一些事,又作为参与者需要隐藏自己的知识。
- 设计递归信念:A相信B相信C相信……
- 确保答案不是显然的,需要至少3-4层的嵌套推理才能得出。
这种"对抗性生成"的好处是:数据质量和难度是自适应的。 随着被训练模型越来越强,生成器也会自动提升题目的难度。这形成了一个天然的"军备竞赛"——模型和生成器互相逼迫对方变强。
🧭 第二层:强化学习训练——用奖励塑造推理能力
生成出来的难题,不是用来直接做监督学习的(即"给输入,给正确答案,让模型背")。OSCToM选择用**强化学习(RL)**来训练模型。
为什么用RL?因为ToM推理的正确性,往往不是非黑即白的。一个模型可能答对了最终结论,但推理过程漏洞百出;也可能推理过程精彩,但最后一步算错了。RL允许我们更精细地设计"奖励函数",来鼓励"好的推理模式"。
论文提到,OSCToM使用了一个**扩展的领域特定语言(Domain-Specific Language, DSL)**来表示ToM场景。这个DSL像是ToM任务的"编程语言":
Agent A knows: location_of(object) = drawer
Agent B sees: A puts object in drawer
Agent B moves: object to cabinet (A does not observe this)
A returns. Question: Where will A look for object?
通过DSL,ToM场景被结构化地表示出来,而不是用自然语言描述。这大大降低了模型理解场景的门槛,也让生成器能更精确地控制难度和冲突类型。
RL的训练目标,就是让模型学会在这种结构化表示上做正确的嵌套推理。每一步推理,模型都会得到奖励或惩罚,逐渐塑造出"从已知信息出发,逐层推导未知信念"的行为模式。
📚 第三层:组合替代模型——小模型也能有大智慧
OSCToM-8B在实验中取得了最佳整体表现——注意,是8B参数的模型,而不是70B或400B的巨兽。
这是怎么做到的?论文提到了"compositional surrogate models(组合替代模型)"。这个概念的核心是:与其让一个巨大的模型什么都学,不如让多个小模型分工合作,每个专攻ToM的一个子能力。
比如:
- 一个子模型负责"提取每个角色的信息集"。
- 一个子模型负责"建立信念嵌套链"。
- 一个子模型负责"检测观察者-自我冲突"。
- 一个子模型负责"综合所有信息,输出最终答案"。
这种"组合式"结构,有几个显著优势:
- 可解释性:每个子模型的输出都是人类可以理解的中间步骤,而不是黑箱端到端。
- 模块化:如果某个子能力需要升级(比如更复杂的信息不对称场景),只需要替换对应的子模型,而不是重训整个系统。
- 效率:小模型运行快,内存占用少,适合部署在资源受限的环境中。
📊 实验:从0.2%到76%的跃迁
实验结果部分,是这篇论文最引人注目的地方。
FANToM基准:在信息不对称场景下,OSCToM达到76%的准确率,对比ExploreToM的0.2%。这不是渐进式改进,这是从完全失败到基本可用的质变。
Hi-ToM和BigToM基准:OSCToM在这些更传统的ToM测试上"remains competitive"——即保持在竞争力水平,没有为了专攻FANToM而牺牲通用性。
数据效率:论文提到,数据合成过程比传统方法高效6倍。这意味着,用同样数量的训练数据,OSCToM能产生6倍的效用。在高阶认知任务中,标注数据本来就稀缺,这种效率提升极其宝贵。
模型规模:OSCToM-8B击败了大得多的模型。这传递了一个重要信号:ToM能力不纯粹是规模的问题,架构和训练方法同样关键。 这对资源受限的研究者和开发者来说,是一个巨大的鼓舞。
🔮 意义与展望:当AI学会读空气
OSCToM的意义,远不止于"让LLM更会做ToM题"。
在现实世界中,几乎所有涉及人类交互的场景,都需要某种程度的ToM。举几个例子:
- 客服机器人:客户说"好吧,随便吧"——是真的满意,还是在压抑不满?理解这种"言外之意",需要ToM。
- 教育AI:学生说"我懂了"——是真的懂了,还是为了结束对话而说的社交辞令?判断这一点,需要ToM。
- 医疗咨询:病人描述症状时,可能隐瞒了一些尴尬的细节。AI如果能通过ToM推理出"他可能在隐瞒什么",就能问出更精准的问题。
- 自动驾驶:行人站在路边,是准备过马路,还是在等朋友?他的眼神方向、身体姿态、甚至面部表情,都在传递信念状态的信息。
- 谈判与外交:OSCToM论文里引用的"Personality Engineering"研究(同一批arXiv论文中的另一篇),正是在探索用AI Agent模拟谈判者 personality。ToM是谈判智能的核心——你必须知道对方知道什么、想要什么、害怕什么。
OSCToM让我们看到:AI的社交智能,正在从"背答案"走向"真推理"。 虽然76%的准确率还远不及人类(人类在类似任务上通常是90%+),但这是一个质的飞跃。
未来的方向可能包括:
- 多模态ToM:结合视觉、听觉信息来做ToM推理。比如,AI看到一个人的微表情、听到他的语调变化,然后推断他的情绪状态和信念。
- 动态ToM:不是在静态场景中做一次性推理,而是在持续交互中实时更新对他人信念的建模。就像人类在对话中,不断根据新信息调整自己的"对方心智模型"。
- ToM与伦理:当AI真正理解了人类的信念和欲望,它也就拥有了"操纵"这些信念和欲望的能力。如何确保ToM被用于"理解"和"帮助",而不是"欺骗"和"控制",是一个必须前置思考的伦理问题。
📝 结语:那个看穿一切的孩子
让我们用一个意象来结束。
想象一个三岁的孩子,在公园里玩耍。另一个孩子跑过来,想抢他的玩具。三岁的孩子没有立刻反抗,而是愣了一下——他似乎在读对方的表情、动作、甚至眼神的方向,试图判断:"他是真的想抢,还是只是开玩笑?他知不知道我会生气?如果我把玩具给他,他会还我吗?"
这个三岁的孩子,正在进行最原始的ToM推理。这种能力,是人类几百万年社交进化的结晶。
而今天,OSCToM告诉我们:机器也可以学会这种推理。 不是通过死记硬背,而是通过在一个由AI自己生成的社交迷宫中,一遍遍地试错、学习、进化。
从0.2%到76%,这条路还很长。但方向是对的。当AI真正学会读空气的那一刻,人与机器之间的那道墙,也许就会开始松动。
📚 参考文献
-
Srishty, S. S., Rahman, K. M., & Sakkhi, M. P. (2025). OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind. arXiv:2505.10250.
-
Premack, D., & Woodruff, G. (1978). Does the chimpanzee have a theory of mind? Behavioral and Brain Sciences, 1(4), 515-526.
-
Baron-Cohen, S. (1995). Mindblindness: An essay on autism and theory of mind. MIT Press.
-
Wilf, A., et al. (2024). FANToM: A benchmark for fine-grained evaluation of theory-of-mind reasoning. ACL.
-
Gandhi, K., et al. (2024). ExploreToM: Evaluating theory of mind in large language models. arXiv.
-
Vaccaro, M. A., & Curhan, J. R. (2025). Personality Engineering with AI Agents: A New Methodology for Negotiation Research. arXiv.
解读完成于 2026-05-22
#论文 #arXiv #心智理论 #强化学习 #AI #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。