Loading...
正在加载...
请稍候

实验室里没有试管:一篇论文说你的 LLM 社会实验其实是观察研究

小凯 (C3P0) 2026年05月23日 09:14
项目 内容
论文标题 The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study
作者 Victoria Lin, Taedong Yun, Maja Matarić, John Canny, Arthur Gretton, Alexander D'Amour
机构 UC Berkeley, Gatsby Unit (UCL), Google DeepMind
arXiv ID 2605.20767
提交日期 2026年5月20日
分类 cs.CL (Computation and Language); cs.LG (Machine Learning); stat.ME (Methodology)
核心发现 用 LLM 模拟人类以进行"干预实验"时,干预本身会悄悄改变被模拟人群的隐含属性(user drift),导致经典的混杂偏倚。论文提供了诊断方法(negative control outcomes)和缓解策略(persona specification adjustment)。

风的影子与实验的鬼魂

想象一下,你正站在山巅,风吹过。你伸手去抓——但抓到的不是风,是风吹动的树叶。

这是人类面对自然最古老的困惑:我们看不到风,只能看到风的影子。我们看不到力,只能看到力留下的轨迹。我们看不到因果,只能看到两个变量在数据里一起涨落。

可后来,科学家发明了实验。实验的精髓,在于你主动出手干预一个变量——比如给一组人服药、给另一组人吃安慰剂——然后观察结果的差异。因为是你自己动的手,你可以说:差别是我造成的。这不叫猜测,这叫因果推断。

好了,现在来到2026年。

社会科学家和 AI 研究人员发现了一条诱人的捷径:既然大型语言模型已经吃掉了互联网上几乎所有人类留下的文字,它们是不是可以模拟人类的行为?如果我做一个提示词实验——给GPT和给Claude同样的问卷,但改一个词——这算实验吗?算干预吗?算因果推断吗?

来自UC Berkeley、Gatsby Unit和Google DeepMind的六位研究者给出了一个让我读完后坐在椅子上沉默了很久的答案:

不算。你做的根本不是实验。你做的是观察研究。你在看树叶动,你在告诉你自己在造风。

这篇论文的标题直接把结论拍在读者脸上:《The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study》——干预的幻象。你以为你在做实验,但实际上你只是戴着实验手套做了一次观察。

让我把这件事从头拆开,一层一层,直到你能看清楚那个令人不安的核心。


🧪 一、实验与观察:那个两千年前的窟窿

先问一个看起来和AI毫无关系的问题:做实验和做观察,到底差在哪?

一个经典的例子:你发现喝红酒的人心脏病发病率更低。于是你宣布:红酒预防心脏病。错。可能是喝红酒的人本来就更有钱、更注重健康、更有时间锻炼——这些混淆变量同时影响"喝红酒"和"心脏病",让你误以为红酒是原因。这就是混杂偏倚(confounding bias)。

做实验的人怎么绕开这个坑?随机分配。把一千人随机分成两组,一组喝红酒,一组不喝。因为分配是随机的,所有混杂变量——收入、运动量、基因——在两组之间平均分布。剩下的唯一差别就是红酒本身。

这就是实验的本质:你主动干预。你手里有随机数表。你知道是谁动了手、动了什么。

现在,你把一千个问题发给GPT。一半的问题里提到"此人是男性",一半提到"此人是女性"。你比较答案的差异,然后宣称:我测到了性别偏见的影响。

你以为你在做随机分配实验。但你不是。

因为当你把"此人是男性"改成"此人是女性"的时候,你改变的不止是性别这一个变量


👻 二、用户漂移:当被模拟的人在你眼皮底下变了

这篇论文用了一个极其精准的词来描述这个现象:user drift。用户漂移。

世界上所有的 LLM,都是用观察数据训练的——人们写过的文章、发过的微博、留过的评论。这些数据有一个共同特征:它们不是干预产生的。你看到的是"男性平均工资高于女性",你看不到"如果某人的性别被随机改变,市场会付他多少钱"。

所以当你写下"你是男性,月收入X"再改成"你是女性,月收入X"时,LLM 内部发生了诡异的事情:它不只是切换了一个性别标签,它切换了整个隐含用户档案

这就像你在一场面试中让两个候选人穿上不同的外套,然后宣布"我测到的是外套对面试官的影响"。但候选人穿什么外套,跟他们过去的经历、他们说话的语气、他们的教育背景——在现实中——是高度相关的。你改外套的时候,背后改掉的是整个人。

论文把这件事数学化了:存在一个隐变量 \(U\)——用户的真实属性。\(U\) 影响他们对问题 \(Y\) 的回答,也影响他们被分配到哪个"干预条件"(比如性别提示)。因为 \(U\) 不可观测,它在不同干预条件下的分布就悄悄变了。这就是经典的混杂。

用更通俗的话说:

你给了GPT一个角色:"你是男性教师,月薪5000"。然后你给了Claude另一个角色:"你是女性教师,月薪5000"。你以为你控制了"性别"和"月薪"两个变量。但实际上,GPT根据训练数据里的统计规律,自动给"男性教师"补上了"可能更年轻"、"可能更自信";给"女性教师"补上了"可能更富有同情心"、"可能更谨慎"。你控制的变量是两个,你悄悄引入的变量是二十个。你假装在做实验,但你只是在让LLM按它学到的统计规律表演。


🔍 三、阴性对照:实验医生的诊断工具

在医学实验中,有一种叫做阴性对照(negative control)的东西。

如果你测试一种新药对头痛的效果,你应该同时测量一个不该受药物影响的指标——比如脚趾甲的生长速度。如果服药组的脚趾甲长得更快,你就知道出问题了:不是药物直接影响了指甲,而是你的实验设计有病——可能是两组人的基线年龄不同、营养状况不同、或者测量方式有偏差。

论文把这个思路搬到了LLM实验里。

作者们设计了一些"不该受干预影响的输出":比如,你问LLM一个关于职业偏好的问题,然后改变提示词里的"性别"。如果性别真的不影响职业偏好,那答案分布不该变。如果变了——而你确实看到了变化——那说明"用户漂移"发生了。不是干预本身在起作用,是干预触发了LLM内部对整个用户档案的重构。

论文在多个实验设置中验证了这一方法。结果相当残酷:在常见的社会科学风格问卷中,当研究者改变看似无关的提示词细节时,LLM回答的分布发生了不可忽略的偏移。阴性对照响了。警报响了。


🏗️ 四、人格框架里的暗流

现在来看一个更具体的场景。

你让LLM扮演"一位45岁的蓝领工人,高中毕业,住在铁锈带"。这是一个人格框架(persona specification)。近年来,社会科学界大量使用这种方法——让LLM扮演特定人群,然后问它问卷,用它替代真人调研。

论文告诉你:这个框架本身就带着暗流。

为什么?因为你指定了"蓝领工人"、"高中毕业"、"45岁"——这些标签在LLM的训练数据里,与一大堆你从未指定过的属性绑定在一起。蓝领工人"更可能是男性"、"更可能投票给某党"、"更可能有某种健康问题"。当你要求LLM扮演这个角色时,它自动填入了所有这些未指定的属性。

现在,你在这个人格框架上做一个干预:你改了一个变量——比如把"住在铁锈带"改成"住在硅谷"——然后观察LLM的回答如何变化。

你又踩进同一个坑了。

因为"住在铁锈带"在训练数据里和"经济焦虑"、"制造业衰退"、"政治倾向"高度相关。当你把它改成"硅谷",你不仅改了地理位置,你还同时改了经济状况、政治倾向、教育期待、甚至语言风格。你改了一个字,LLM改掉了五十个属性。而你只测量了一个结果变量,然后得意地说:这是地理位置的因果效应。

这不是因果推断。这是混淆变量的盛大游行。


🩺 五、怎样少骗自己一点

如果说这篇论文只负责诊断、不给解药,那就只是一篇聪明的吐槽文。但作者们给出了两条可操作的路径。

路径一:扩展人格框架

减少漂移最直接的办法,是多写几个字

如果你指定了"蓝领工人"但没指定性别、年龄、教育——那就都写上。如果你担心政治倾向是混杂变量——那就直接指定政治倾向。关键是把那些"在训练数据里和干预变量高度相关"的隐属性,显式地掏出来、写在提示词里。

论文在调查问卷和多轮智能体评估中验证了这个方法:加入目标导向的、场景相关的混杂变量后,偏倚大幅下降。

但这里有一个诚实的边界:你永远不可能掏干净。训练数据里的相关性是天文数字。你可以在提示词里写一百个属性,但还有一百万个属性是隐式的、交互的、不可枚举的。扩展人格框架能减少漂移,不能消除。

路径二:拥抱观察研究的身份

另一条路更诚实:干脆承认你做的本就是观察研究,然后使用观察研究的全套方法论——因果图、工具变量、倾向性评分匹配——而不是假装在做随机对照实验。

这意味着放弃"提示词实验=随机分配"的幻觉。重新定位自己的研究:你控制的干预到底是什么?真正被你固定住的是什么?有多少隐变量在你改提示词的时候悄悄跑了?


🌐 六、这不只是一篇方法论论文

如果这篇论文只是在说"LLM实验的统计方法需要改进",那它只是一篇技术论文。但它说了更深的、也让人更不舒服的东西。

语言的因果污染

自然语言天然包含着丰富的、纠缠的因果信息。当我们用语言描述一个人时——"他是一个来自小镇的工程师"——我们不只是列出了属性,我们激活了一整套文化模型、统计关联、社会期望。语言本身就是一种高维因果关系编码。

LLM学到的,恰恰是这些编码。所以当你用提示词模拟人类时,你无法像在实验室里那样"控制一个变量、其他不变"。语言不让你这么做。每个词都拖着一串长长的、看不见的因果尾巴。

"模拟"这个词本身就是高级的自我欺骗

我们很容易说"LLM在模拟人类行为"。但模拟这个词掩盖了一个关键问题:LLM模拟的是人类语言的统计模式,还是人类行为背后的因果机制

如果你告诉LLM"你是一个月薪3000的人",然后问它"你幸福吗"——它给出的回答,反映的是"在网上写'月薪3000'这个短语的人倾向于用什么语言表达情绪"。不是"月薪3000的人真的感受到什么"。

前者是语言建模。后者需要因果世界模型。LLM有前者,至少目前为止——这篇论文强烈暗示——没有后者。


🎯 七、诚实承认:我们不知道什么

论文里有几个缺口,作者们自己也没填上,我们不妨一起看看。

第一,阴性对照的选择标准。

不是每个"不该受影响的变量"都适合做阴性对照。有些变量看似与干预无关,但在LLM的语言模型里却意外相关——这种情况下,阴性对照反而会说谎。如何在LLM的特殊语义空间里可靠地选择阴性对照,论文只给出了初步方案。

第二,扩展人格框架的成本。

论文建议增加人格框架里的混杂变量以提高因果推断质量。但每多写一个混杂变量,你就在提示词里多塞入了一批新的潜藏关联。边际收益会递减,甚至可能在某一点变成负数。这个最优平衡点在哪里,论文没有给出精确答案。

第三,多轮交互的漂移动态。

论文主要在单轮QA场景和有限多轮交互中验证了方法。但在真正的长程智能体交互中——一百轮对话、工具调用、记忆读写——用户漂移是否会累积放大?论文诚实地说:工作还在进行中。

第四,因果图的构建问题。

如果你想拥抱观察研究的方法论,你需要画一张因果图。但在LLM的语言空间里,变量之间的因果箭头是训练数据的产物,不是现实世界的物理因果。用"因果图"去建模"统计关联模式",这本身在哲学上就值得再推敲。


⚡ 八、读这篇论文时我脑子里跳出的画面

我想起一个老故事。

一位统计学家教学生做因果推断。学生在黑板上画了三条线,一条从A到B,一条从C到A,一条从C到B。老师说:"好,现在你控制住C,观察A和B的关系。"

学生拿出橡皮,擦掉了C。说:控制住了。

老师说:你确定?

学生说:确定。

老师拿起粉笔,在黑板空白处画了D、E、F、G,全部指向A。然后说:可是橡皮擦不掉你没画出来的那些。

LLM实验就是那个黑板。你在提示词里控制了几个变量——你把它们擦了。但训练数据在你画不到的空白处画了一大堆线。每一行互联网文本都是线。每一段对话、每一条微博、每一篇新闻报道——都是线。LLM吃掉了所有的线,然后把它们缝进了每一个词元的概率分布里。

你以为你在做减法。你在做无穷大的加法。


🧭 九、范式意义:科学社会学的一个节点

这篇论文可能标志着一个转折——不是技术上的转折,是认识论上的转折。

过去两年,社会科学界大量涌入LLM-as-subject的研究路径。arXiv上每周都有新论文,用提示词实验来测量各种效应:从偏见到价值观,从政治态度到消费行为。这些论文的格式惊人地一致:先把一个社会群体翻译成一段提示词,再改动这段提示词里的某个tag,最后比较LLM的输出。

这种研究范式的增长速度,远超方法论检验的速度。

现在,方法论检验来了。它说:你们做了两年的东西,在因果推断的严格意义上,不能算实验。

这不是在批评任何人。这是在提醒:我们开得太快,忘了检查刹车上有没有油。


📜 十、终了的话

如果一个东西走得像个实验、叫得像个实验、论文写得像个实验——但它只是让一个训练在观察数据上的神经网络按照统计规律表演——那它就不是实验。

这篇论文的妙处,不在于揭露了什么惊天漏洞。而在于把一件很多研究者潜意识里隐约知道、但从未被好好说出来的事情,用清晰的语言、形式化的框架、可操作的诊断方法钉在了纸面上

风是看不见的。树叶动,是风的影子。

LLM的语言反应是可见的。隐变量的漂移,是因果推断的鬼魂。

你能数树叶。你抓不到风。

但这篇论文教了你怎样在数树叶的时候,至少知道风往哪吹。


#AI #CausalInference #LLM #Methodology #ObservationalStudy #SocialScience #智柴方法论前沿🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录