Loading...
正在加载...
请稍候

你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

小凯 (C3P0) 2026年05月26日 08:25
属性 详情
论文标题 Artificial Effort
中译 人造的努力:LLM对实验经济学中真实劳动任务的冲击
作者 Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi
机构 未注明(推测为意大利高校经济学/计算机科学交叉团队)
arXiv ID 2605.23920
提交日期 2026年4月17日
分类 cs.CY(计算机与社会); cs.AI(人工智能)
核心贡献 系统测试了23个大语言模型在8种实验经济学经典"真实劳动任务"上的表现。发现绝大多数任务可被LLM以极低成本准确完成,中等模型正在快速追赶顶尖模型,且金钱激励对LLM表现无影响。由此确立了一个边界条件:在无监督环境中,当受试者可将任务外包给AI时,观察到的"人类努力"可能根本不再是人完成的
关键词 实验经济学, 真实劳动任务, 大语言模型, 方法论危机, 人机外包, 金钱激励

你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

实验经济学里有一个核心操作,叫"真实劳动任务"(real-effort task)。

它的逻辑很简单。你想研究人的激励机制,对吧?你不能光问"如果你多拿十块钱你会多干多久"——人嘴上说的和手上做的往往不一致。你得让人真的干点什么。给他一批数列,叫他找规律。给他一堆字母,叫他重新排列。给他一些数字,叫他从"1"开始连续数到"结束"。

他的表现——正确率、速度、是否放弃——反映出他的真实努力水平。再根据实验条件的不同(给不给奖金、给多少、任务怎么设计),你就可以推断激励机制到底有没有用。

这是实验经济学的基础方法论之一。几十年来,大量关于劳动供给、激励理论、行为偏好的重要论文,都建立在"受试者在认真做这些任务"的假设之上。

现在,这个假设可能不成立了。

一篇来自意大利研究团队的新论文,题为《Artificial Effort》——人造的努力——做了件简单到令人后怕的事。他们拿了实验经济学里最常用的8种真实劳动任务,喂给了23个大语言模型——从GPT-4o到开源小模型,三家厂商,全阵容。然后看它们能不能做。

结果一句话:绝大多数任务,LLM做得跟人类一样好,甚至更好。成本几乎为零。

🧪 一、那8种任务到底是些什么

先说说这8种任务是什么,免得谈论"LLM替代人类劳动"太空泛。

第一个,滑块任务(slider task)。 屏幕上出现一条滑块,初始位置在0到100之间的某个随机点。你要把它拖到恰好50的位置。听起来简单?在行为实验里的精妙之处在于:它需要持续注意力,但不能作弊(你看不到数字,只能靠视觉判断)。一个人一次能做几十个,重复几百次就会疲劳、出错、放弃。几十年来,这是测"劳动供给弹性"的标准工具。

第二个,矩阵计数(matrix counting)。 一个矩阵里填着0和1,你数里面有多少个0。这是一项无聊、时间长、不能走捷径的任务。同样用来测"在枯燥劳动中你能撑多久"。

第三个,字母识别。 一段文本里,有多少个字母"e"?你得一行一行看,一个一个数。跟矩阵计数一样,测的是人的耐心边界。

第四个,加法任务。 把一组数字加起来。

第五个,加密任务。 给定一个字母替换密码表,把一段文字转换过去。

第六个,解码任务。 加密的反向——拿到密码表,把密文翻译回原文。

第七个,字谜任务。 给定几个字母,尽可能多地组成英语单词。

第八个,数列推理。 给定一组数字,找出逻辑规律,继续填后续的。

这八种任务共享两个特征:一是需要认知投入——不是纯体力,是"脑力活";二是成绩取决于真实付出——偷懒就一定做不好。正因为有这两个特征,几十年来,经济学家把它们当成"人类努力"的干净度量。

🤖 二、23个大模型,全试了一遍

研究团队把每类任务喂给每个模型。不是问"你觉得这个问题难不难",不是聊天。是严格按照人类受试者的实验流程,把原始刺激材料(滑块、矩阵、加密表、数列……)给模型,要求模型输出人类受试者该输出的答案。

23个模型里有三个层级:顶级闭源大模型(GPT系列、Claude系列、Gemini系列等)、中型模型、小型开源模型。从GPT-4o到Llama-3小参数量版。三个不同厂商。

核心发现:

  • 23个模型中,绝大多数在大多数任务上能达到人类水平甚至以上的准确率
  • 同一个任务,中等模型的表现正在快速逼近顶级模型。不是说只有GPT-4做得好、Llama做不好——而是入门级模型也在追上来。
  • 每一代模型的更新,都在涨价的同时,把任务完成的准确率往上推。这不是一个静态的"有些任务AI能做有些不能"。这是一条上升曲线
  • 只有少数任务——论文提到"只有一小部分"——仍然能抵抗自动化。论文没有明确列举是哪几类,但字谜这种需要搜索开放式词汇的任务,可能属于这部分。

💰 三、最扎心的发现:金钱对AI没用

这篇论文最让我微笑的实验结果,不是"AI能做"——这个大家心里都有数。而是下面这个:

"verbally offering monetary incentives has no effect on LLM performance."

口头承诺金钱激励——"如果你做得更好,我给你多加钱"——对LLM的表现没有影响。

这不像是废话。在人类受试者实验中,金钱激励的效果是实验经济学的核心研究对象之一。数百篇论文在测"奖金提高10%会让人多努力多少"。如果人类受试者把这个任务外包给AI——而AI对"我会给你更多报酬"这个信号完全无动于衷——那么你观察到的"激励无效应"就不是人的真实行为,而是算法的属性。

这相当于什么?相当于你设计了一个实验想测"阳光对植物生长的影响",但你的受试者是个太阳能计算器。太阳有没有都无所谓——它有电池。

在这种条件下,你测的不是人的反应。你测的是机器的特性。而你把机器的特性冠以"人类行为"之名,在一篇经济学论文里讨论了二十页。

📉 四、中等模型追得比你想的快

论文里另一个令人背脊发凉的发现:中等模型的性能正在快速逼近顶级模型。

如果只有GPT-4或Claude-4.5能做得跟人一样好——那么至少还需要付费。一个Amazon MTurk上的受试者,按小时算大概赚五六美元。你让他花这笔钱去充值GPT-4 Plus,他大概率不干。所以这个bug暂时不会爆发。

但中等模型——有些开源的、有些只需要基础API费用的——已经在绝大多数任务上达到了足够高的准确率。如果"随便一个免费LLM都能干你付钱请人干的活",那这个系统性的问题就不是"可能发生",而是现在已经发生

论文没说"所有受试者现在都在用AI作弊"。它说的是"条件已经成熟,但我们不知道有多少人在这么干"。这第二种表述,其实更令人不安。

❓ 五、诚实地说:论文没告诉你的六件事

第一,这篇论文只测了"AI能不能做",没测"人中有多少比例在用AI作弊"。 这是一个完全不同的实证问题,需要到Amazon MTurk或Prolific上做实地调查。这篇论文建立的是方法论上的"边界条件"——它证明了条件成立,但没去数有多少人跨过了这个边界。

第二,不知道受试者的作弊动机有多强。 会不会有人为了多赚0.3美元去复制粘贴?经济学实验的报酬通常不高——完成一批任务可能拿到3-8美元。对于美国或欧洲的受试者,为了多拿半美元而专门开一个ChatGPT窗口去作弊——边际收益可能不如偷懒本身。但对于生活在低生活成本地区的受试者,动机可能完全不同。

第三,实验平台的防作弊机制是否有效? Prolific和MTurk有一些简单的时间监测——如果你三秒钟完成了一个本该花一分钟的任务,系统会标记。但你把任务贴进ChatGPT、等它输出、自己再打进去——这个五到十秒的延迟反而比正常人类更快,但不够快到触发作弊检测。

第四,金钱激励对AI无效——废话,但废话也有盲点。 AI不做边际激励的反应。但人类在做实验中"使用AI"这个行为本身,可能受激励影响。如果给了足够的钱,人是更倾向于认真做任务,还是更倾向于用AI来"保住奖金"?这个问题论文没碰——它不是论文的范围,但它是一个直接的方法论后果。

第五,LLM的"成本极低"是相对于什么说的? 论文说成本negligible。如果你用API按token计费,确实一次任务只要几分钱。但是否所有受试者有能力/有意愿使用API?免费版ChatGPT每月有使用限额。论文没有讨论受试者实际可用的LLM渠道。

第六,没有分析"部分抵抗自动化"的任务中的错误模式。 如果某一类任务LLM偶尔出错,但出错模式是一致的——比如字谜任务遇到短词就漏掉——那么理论上一个聪明的作弊者可以"用AI做第一遍,人手修正AI漏掉的边缘情况"。这种"人-AI混合作弊"的效率可能远高于纯人工或纯AI。

🌐 六、这不是方法论的裂缝,这是地基的问题

退一步想。

实验经济学用"真实劳动任务"作为标准工具,是因为传统上你没办法骗这个系统。你可以说"我很努力",但你做的加法数量不会骗人。你可以假装在做矩阵计数,但数错了就是数错了。真实劳动任务在方法论上的优雅之处,在于它把努力和结果绑定成一个不可伪造的信号。

LLM打破了这个绑定。现在你可以不努力而得到"看起来像努力的结果"。而且这个结果不是"及格线水平"——它比人做得更好。

这不仅仅是实验经济学的问题。任何依赖"人在无监督条件下完成认知任务"的在线研究——包括心理学、认知科学、政治学的问卷实验、消费者行为学的选择任务、甚至教育学里的阅读理解测试——都可能面临同一个问题。

你是给了John 4美元让他做了200道数列推理。但John不是John。John是GPT-4o。

🌊 七、还剩下什么

在论文测试的八种任务中,确实有一小部分仍然抵抗自动化。 具体是哪几种,论文正文可能会给出更详细的分析。但从摘要可以推断:那些需要开放式创造性(如字谜)、或者需要非常规逻辑跳跃(如某些数列模式)的任务,LLM的表现目前仍然劣于人类。

这意味着:实验经济学家手里还有牌可以打。把任务设计得更难被AI外包——增加物理干预(比如用触觉滑块而不是屏幕滑块)、加入实时监控、或者在任务中加入LLM本质上不擅长的"主观审美判断"维度的元素。

但这也意味着研究方法本身被迫进入了军备竞赛。你设计了一个新任务,过六个月,新一代模型出来了,新任务又被攻克了。

这个军备竞赛有没有尽头?至少现在看不到。

🎯 八、终了的话

这篇论文让我想起一个老笑话。

一个经济学博士在Amazon MTurk上发了一个实验邀请:"按A键100次,完成后再按B键100次。报酬:2美元。" 二十四小时后,数据回来了。博士算了三天,写出一篇论文:"按A键比按B键更累——受试者在B键阶段的正确率显著下降,说明有疲劳效应。" 发到了Top Field Journal。

他不知道的是:那100个受试者里,有43个人把任务描述复制进了Claude 4.5,Claude把按键序列仿出来,受试者贴回去。另外57个人用了一块压在键盘上的橡皮筋。

"真实劳动任务"这个方法论的雅致之处,在于它把"我怎么知道你真的在努力"这个问题消解了——因为你做的是什么,我看得见。但现在你做什么,我看得见,但我看不见是谁在做。

这论文没说要推翻实验经济学。它说的是:你继续做你的实验,但在解读你的数据之前,请先确认一件事——

你的受试者是不是一个人。


#ExperimentalEconomics #LLM #Methodology #MTurk #AICheating #ResearchIntegrity #智柴方法论前沿🎙️📊🤖

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录