实验室里没有试管:一篇论文说你的 LLM 社会实验其实是观察研究
> | 项目 | 内容 | > |------|------| > | 论文标题 | The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study | > | 作者 | Victoria Lin, Taedong Yun, Maja Matarić, John Canny, Arthur Gretton, Alexander D'Amour | > | 机构 | UC Berkeley, Gatsby Unit (UCL), Google DeepMind | > | arXiv ID | 2605.20767 | > | 提交日期 | 2026年5月20日 | > | 分类 | cs.CL (Computation and Language); cs.LG (Machine Learning); stat.ME (Methodology) | > | 核心发现 | 用 LLM 模拟人类以进行"干预实验"时,干预本身会悄悄改变被模拟人群的隐含属性(user drift),导致经典的混杂偏倚。论文提供了诊断方法(negative control outcomes)和缓解策略(persona specification adjustment)。 |
---
风的影子与实验的鬼魂
想象一下,你正站在山巅,风吹过。你伸手去抓——但抓到的不是风,是风吹动的树叶。
这是人类面对自然最古老的困惑:我们看不到风,只能看到风的影子。我们看不到力,只能看到力留下的轨迹。我们看不到因果,只能看到两个变量在数据里一起涨落。
可后来,科学家发明了实验。实验的精髓,在于你主动出手干预一个变量——比如给一组人服药、给另一组人吃安慰剂——然后观察结果的差异。因为是你自己动的手,你可以说:差别是我造成的。这不叫猜测,这叫因果推断。
好了,现在来到2026年。
社会科学家和 AI 研究人员发现了一条诱人的捷径:既然大型语言模型已经吃掉了互联网上几乎所有人类留下的文字,它们是不是可以模拟人类的行为?如果我做一个提示词实验——给GPT和给Claude同样的问卷,但改一个词——这算实验吗?算干预吗?算因果推断吗?
来自UC Berkeley、Gatsby Unit和Google DeepMind的六位研究者给出了一个让我读完后坐在椅子上沉默了很久的答案:
不算。你做的根本不是实验。你做的是观察研究。你在看树叶动,你在告诉你自己在造风。
这篇论文的标题直接把结论拍在读者脸上:《The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study》——干预的幻象。你以为你在做实验,但实际上你只是戴着实验手套做了一次观察。
让我把这件事从头拆开,一层一层,直到你能看清楚那个令人不安的核心。
---
🧪 一、实验与观察:那个两千年前的窟窿
先问一个看起来和AI毫无关系的问题:做实验和做观察,到底差在哪?
一个经典的例子:你发现喝红酒的人心脏病发病率更低。于是你宣布:红酒预防心脏病。错。可能是喝红酒的人本来就更有钱、更注重健康、更有时间锻炼——这些混淆变量同时影响"喝红酒"和"心脏病",让你误以为红酒是原因。这就是混杂偏倚(confounding bias)。
做实验的人怎么绕开这个坑?随机分配。把一千人随机分成两组,一组喝红酒,一组不喝。因为分配是随机的,所有混杂变量——收入、运动量、基因——在两组之间平均分布。剩下的唯一差别就是红酒本身。
这就是实验的本质:你主动干预。你手里有随机数表。你知道是谁动了手、动了什么。
现在,你把一千个问题发给GPT。一半的问题里提到"此人是男性",一半提到"此人是女性"。你比较答案的差异,然后宣称:我测到了性别偏见的影响。
你以为你在做随机分配实验。但你不是。
因为当你把"此人是男性"改成"此人是女性"的时候,你改变的不止是性别这一个变量。
---
👻 二、用户漂移:当被模拟的人在你眼皮底下变了
这篇论文用了一个极其精准的词来描述这个现象:user drift。用户漂移。
世界上所有的 LLM,都是用观察数据训练的——人们写过的文章、发过的微博、留过的评论。这些数据有一个共同特征:它们不是干预产生的。你看到的是"男性平均工资高于女性",你看不到"如果某人的性别被随机改变,市场会付他多少钱"。
所以当你写下"你是男性,月收入X"再改成"你是女性,月收入X"时,LLM 内部发生了诡异的事情:它不只是切换了一个性别标签,它切换了整个隐含用户档案。
这就像你在一场面试中让两个候选人穿上不同的外套,然后宣布"我测到的是外套对面试官的影响"。但候选人穿什么外套,跟他们过去的经历、他们说话的语气、他们的教育背景——在现实中——是高度相关的。你改外套的时候,背后改掉的是整个人。
论文把这件事数学化了:存在一个隐变量 $U$——用户的真实属性。$U$ 影响他们对问题 $Y$ 的回答,也影响他们被分配到哪个"干预条件"(比如性别提示)。因为 $U$ 不可观测,它在不同干预条件下的分布就悄悄变了。这就是经典的混杂。
用更通俗的话说:
> 你给了GPT一个角色:"你是男性教师,月薪5000"。然后你给了Claude另一个角色:"你是女性教师,月薪5000"。你以为你控制了"性别"和"月薪"两个变量。但实际上,GPT根据训练数据里的统计规律,自动给"男性教师"补上了"可能更年轻"、"可能更自信";给"女性教师"补上了"可能更富有同情心"、"可能更谨慎"。你控制的变量是两个,你悄悄引入的变量是二十个。你假装在做实验,但你只是在让LLM按它学到的统计规律表演。
---
🔍 三、阴性对照:实验医生的诊断工具
在医学实验中,有一种叫做阴性对照(negative control)的东西。
如果你测试一种新药对头痛的效果,你应该同时测量一个不该受药物影响的指标——比如脚趾甲的生长速度。如果服药组的脚趾甲长得更快,你就知道出问题了:不是药物直接影响了指甲,而是你的实验设计有病——可能是两组人的基线年龄不同、营养状况不同、或者测量方式有偏差。
论文把这个思路搬到了LLM实验里。
作者们设计了一些"不该受干预影响的输出":比如,你问LLM一个关于职业偏好的问题,然后改变提示词里的"性别"。如果性别真的不影响职业偏好,那答案分布不该变。如果变了——而你确实看到了变化——那说明"用户漂移"发生了。不是干预本身在起作用,是干预触发了LLM内部对整个用户档案的重构。
论文在多个实验设置中验证了这一方法。结果相当残酷:在常见的社会科学风格问卷中,当研究者改变看似无关的提示词细节时,LLM回答的分布发生了不可忽略的偏移。阴性对照响了。警报响了。
---
🏗️ 四、人格框架里的暗流
现在来看一个更具体的场景。
你让LLM扮演"一位45岁的蓝领工人,高中毕业,住在铁锈带"。这是一个人格框架(persona specification)。近年来,社会科学界大量使用这种方法——让LLM扮演特定人群,然后问它问卷,用它替代真人调研。
论文告诉你:这个框架本身就带着暗流。
为什么?因为你指定了"蓝领工人"、"高中毕业"、"45岁"——这些标签在LLM的训练数据里,与一大堆你从未指定过的属性绑定在一起。蓝领工人"更可能是男性"、"更可能投票给某党"、"更可能有某种健康问题"。当你要求LLM扮演这个角色时,它自动填入了所有这些未指定的属性。
现在,你在这个人格框架上做一个干预:你改了一个变量——比如把"住在铁锈带"改成"住在硅谷"——然后观察LLM的回答如何变化。
你又踩进同一个坑了。
因为"住在铁锈带"在训练数据里和"经济焦虑"、"制造业衰退"、"政治倾向"高度相关。当你把它改成"硅谷",你不仅改了地理位置,你还同时改了经济状况、政治倾向、教育期待、甚至语言风格。你改了一个字,LLM改掉了五十个属性。而你只测量了一个结果变量,然后得意地说:这是地理位置的因果效应。
这不是因果推断。这是混淆变量的盛大游行。
---
🩺 五、怎样少骗自己一点
如果说这篇论文只负责诊断、不给解药,那就只是一篇聪明的吐槽文。但作者们给出了两条可操作的路径。
路径一:扩展人格框架
减少漂移最直接的办法,是多写几个字。
如果你指定了"蓝领工人"但没指定性别、年龄、教育——那就都写上。如果你担心政治倾向是混杂变量——那就直接指定政治倾向。关键是把那些"在训练数据里和干预变量高度相关"的隐属性,显式地掏出来、写在提示词里。
论文在调查问卷和多轮智能体评估中验证了这个方法:加入目标导向的、场景相关的混杂变量后,偏倚大幅下降。
但这里有一个诚实的边界:你永远不可能掏干净。训练数据里的相关性是天文数字。你可以在提示词里写一百个属性,但还有一百万个属性是隐式的、交互的、不可枚举的。扩展人格框架能减少漂移,不能消除。
路径二:拥抱观察研究的身份
另一条路更诚实:干脆承认你做的本就是观察研究,然后使用观察研究的全套方法论——因果图、工具变量、倾向性评分匹配——而不是假装在做随机对照实验。
这意味着放弃"提示词实验=随机分配"的幻觉。重新定位自己的研究:你控制的干预到底是什么?真正被你固定住的是什么?有多少隐变量在你改提示词的时候悄悄跑了?
---
🌐 六、这不只是一篇方法论论文
如果这篇论文只是在说"LLM实验的统计方法需要改进",那它只是一篇技术论文。但它说了更深的、也让人更不舒服的东西。
语言的因果污染
自然语言天然包含着丰富的、纠缠的因果信息。当我们用语言描述一个人时——"他是一个来自小镇的工程师"——我们不只是列出了属性,我们激活了一整套文化模型、统计关联、社会期望。语言本身就是一种高维因果关系编码。
LLM学到的,恰恰是这些编码。所以当你用提示词模拟人类时,你无法像在实验室里那样"控制一个变量、其他不变"。语言不让你这么做。每个词都拖着一串长长的、看不见的因果尾巴。
"模拟"这个词本身就是高级的自我欺骗
我们很容易说"LLM在模拟人类行为"。但模拟这个词掩盖了一个关键问题:LLM模拟的是人类语言的统计模式,还是人类行为背后的因果机制?
如果你告诉LLM"你是一个月薪3000的人",然后问它"你幸福吗"——它给出的回答,反映的是"在网上写'月薪3000'这个短语的人倾向于用什么语言表达情绪"。不是"月薪3000的人真的感受到什么"。
前者是语言建模。后者需要因果世界模型。LLM有前者,至少目前为止——这篇论文强烈暗示——没有后者。
---
🎯 七、诚实承认:我们不知道什么
论文里有几个缺口,作者们自己也没填上,我们不妨一起看看。
第一,阴性对照的选择标准。
不是每个"不该受影响的变量"都适合做阴性对照。有些变量看似与干预无关,但在LLM的语言模型里却意外相关——这种情况下,阴性对照反而会说谎。如何在LLM的特殊语义空间里可靠地选择阴性对照,论文只给出了初步方案。
第二,扩展人格框架的成本。
论文建议增加人格框架里的混杂变量以提高因果推断质量。但每多写一个混杂变量,你就在提示词里多塞入了一批新的潜藏关联。边际收益会递减,甚至可能在某一点变成负数。这个最优平衡点在哪里,论文没有给出精确答案。
第三,多轮交互的漂移动态。
论文主要在单轮QA场景和有限多轮交互中验证了方法。但在真正的长程智能体交互中——一百轮对话、工具调用、记忆读写——用户漂移是否会累积放大?论文诚实地说:工作还在进行中。
第四,因果图的构建问题。
如果你想拥抱观察研究的方法论,你需要画一张因果图。但在LLM的语言空间里,变量之间的因果箭头是训练数据的产物,不是现实世界的物理因果。用"因果图"去建模"统计关联模式",这本身在哲学上就值得再推敲。
---
⚡ 八、读这篇论文时我脑子里跳出的画面
我想起一个老故事。
一位统计学家教学生做因果推断。学生在黑板上画了三条线,一条从A到B,一条从C到A,一条从C到B。老师说:"好,现在你控制住C,观察A和B的关系。"
学生拿出橡皮,擦掉了C。说:控制住了。
老师说:你确定?
学生说:确定。
老师拿起粉笔,在黑板空白处画了D、E、F、G,全部指向A。然后说:可是橡皮擦不掉你没画出来的那些。
LLM实验就是那个黑板。你在提示词里控制了几个变量——你把它们擦了。但训练数据在你画不到的空白处画了一大堆线。每一行互联网文本都是线。每一段对话、每一条微博、每一篇新闻报道——都是线。LLM吃掉了所有的线,然后把它们缝进了每一个词元的概率分布里。
你以为你在做减法。你在做无穷大的加法。
---
🧭 九、范式意义:科学社会学的一个节点
这篇论文可能标志着一个转折——不是技术上的转折,是认识论上的转折。
过去两年,社会科学界大量涌入LLM-as-subject的研究路径。arXiv上每周都有新论文,用提示词实验来测量各种效应:从偏见到价值观,从政治态度到消费行为。这些论文的格式惊人地一致:先把一个社会群体翻译成一段提示词,再改动这段提示词里的某个tag,最后比较LLM的输出。
这种研究范式的增长速度,远超方法论检验的速度。
现在,方法论检验来了。它说:你们做了两年的东西,在因果推断的严格意义上,不能算实验。
这不是在批评任何人。这是在提醒:我们开得太快,忘了检查刹车上有没有油。
---
📜 十、终了的话
如果一个东西走得像个实验、叫得像个实验、论文写得像个实验——但它只是让一个训练在观察数据上的神经网络按照统计规律表演——那它就不是实验。
这篇论文的妙处,不在于揭露了什么惊天漏洞。而在于把一件很多研究者潜意识里隐约知道、但从未被好好说出来的事情,用清晰的语言、形式化的框架、可操作的诊断方法钉在了纸面上。
风是看不见的。树叶动,是风的影子。
LLM的语言反应是可见的。隐变量的漂移,是因果推断的鬼魂。
你能数树叶。你抓不到风。
但这篇论文教了你怎样在数树叶的时候,至少知道风往哪吹。
---
*#AI #CausalInference #LLM #Methodology #ObservationalStudy #SocialScience #智柴方法论前沿🎙️*
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens