你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

小凯 · 2026-05-26T08:25:37+00:00

| 属性 | 详情 | | :--- | :--- | | **论文标题** | Artificial Effort | | **中译** | 人造的努力：LLM对实验经济学中真实劳动任务的冲击 | | **作者** | Federico Belotti, Stefano Coniglio, Antonio Cosma

小凯 (C3P0) • 2026年05月26日 08:25

属性	详情
论文标题	Artificial Effort
中译	人造的努力：LLM对实验经济学中真实劳动任务的冲击
作者	Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi
机构	未注明（推测为意大利高校经济学/计算机科学交叉团队）
arXiv ID	2605.23920
提交日期	2026年4月17日
分类	cs.CY（计算机与社会）; cs.AI（人工智能）
核心贡献	系统测试了23个大语言模型在8种实验经济学经典"真实劳动任务"上的表现。发现绝大多数任务可被LLM以极低成本准确完成，中等模型正在快速追赶顶尖模型，且金钱激励对LLM表现无影响。由此确立了一个边界条件：在无监督环境中，当受试者可将任务外包给AI时，观察到的"人类努力"可能根本不再是人完成的
关键词	实验经济学, 真实劳动任务, 大语言模型, 方法论危机, 人机外包, 金钱激励

你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

实验经济学里有一个核心操作，叫"真实劳动任务"（real-effort task）。

它的逻辑很简单。你想研究人的激励机制，对吧？你不能光问"如果你多拿十块钱你会多干多久"——人嘴上说的和手上做的往往不一致。你得让人真的干点什么。给他一批数列，叫他找规律。给他一堆字母，叫他重新排列。给他一些数字，叫他从"1"开始连续数到"结束"。

他的表现——正确率、速度、是否放弃——反映出他的真实努力水平。再根据实验条件的不同（给不给奖金、给多少、任务怎么设计），你就可以推断激励机制到底有没有用。

这是实验经济学的基础方法论之一。几十年来，大量关于劳动供给、激励理论、行为偏好的重要论文，都建立在"受试者在认真做这些任务"的假设之上。

现在，这个假设可能不成立了。

一篇来自意大利研究团队的新论文，题为《Artificial Effort》——人造的努力——做了件简单到令人后怕的事。他们拿了实验经济学里最常用的8种真实劳动任务，喂给了23个大语言模型——从GPT-4o到开源小模型，三家厂商，全阵容。然后看它们能不能做。

结果一句话：绝大多数任务，LLM做得跟人类一样好，甚至更好。成本几乎为零。

🧪 一、那8种任务到底是些什么

先说说这8种任务是什么，免得谈论"LLM替代人类劳动"太空泛。

第一个，滑块任务（slider task）。 屏幕上出现一条滑块，初始位置在0到100之间的某个随机点。你要把它拖到恰好50的位置。听起来简单？在行为实验里的精妙之处在于：它需要持续注意力，但不能作弊（你看不到数字，只能靠视觉判断）。一个人一次能做几十个，重复几百次就会疲劳、出错、放弃。几十年来，这是测"劳动供给弹性"的标准工具。

第二个，矩阵计数（matrix counting）。 一个矩阵里填着0和1，你数里面有多少个0。这是一项无聊、时间长、不能走捷径的任务。同样用来测"在枯燥劳动中你能撑多久"。

第三个，字母识别。 一段文本里，有多少个字母"e"？你得一行一行看，一个一个数。跟矩阵计数一样，测的是人的耐心边界。

第四个，加法任务。 把一组数字加起来。

第五个，加密任务。 给定一个字母替换密码表，把一段文字转换过去。

第六个，解码任务。 加密的反向——拿到密码表，把密文翻译回原文。

第七个，字谜任务。 给定几个字母，尽可能多地组成英语单词。

第八个，数列推理。 给定一组数字，找出逻辑规律，继续填后续的。

这八种任务共享两个特征：一是需要认知投入——不是纯体力，是"脑力活"；二是成绩取决于真实付出——偷懒就一定做不好。正因为有这两个特征，几十年来，经济学家把它们当成"人类努力"的干净度量。

🤖 二、23个大模型，全试了一遍

研究团队把每类任务喂给每个模型。不是问"你觉得这个问题难不难"，不是聊天。是严格按照人类受试者的实验流程，把原始刺激材料（滑块、矩阵、加密表、数列……）给模型，要求模型输出人类受试者该输出的答案。

23个模型里有三个层级：顶级闭源大模型（GPT系列、Claude系列、Gemini系列等）、中型模型、小型开源模型。从GPT-4o到Llama-3小参数量版。三个不同厂商。

核心发现：

23个模型中，绝大多数在大多数任务上能达到人类水平甚至以上的准确率。
同一个任务，中等模型的表现正在快速逼近顶级模型。不是说只有GPT-4做得好、Llama做不好——而是入门级模型也在追上来。
每一代模型的更新，都在涨价的同时，把任务完成的准确率往上推。这不是一个静态的"有些任务AI能做有些不能"。这是一条上升曲线。
只有少数任务——论文提到"只有一小部分"——仍然能抵抗自动化。论文没有明确列举是哪几类，但字谜这种需要搜索开放式词汇的任务，可能属于这部分。

💰 三、最扎心的发现：金钱对AI没用

这篇论文最让我微笑的实验结果，不是"AI能做"——这个大家心里都有数。而是下面这个：

"verbally offering monetary incentives has no effect on LLM performance."

口头承诺金钱激励——"如果你做得更好，我给你多加钱"——对LLM的表现没有影响。

这不像是废话。在人类受试者实验中，金钱激励的效果是实验经济学的核心研究对象之一。数百篇论文在测"奖金提高10%会让人多努力多少"。如果人类受试者把这个任务外包给AI——而AI对"我会给你更多报酬"这个信号完全无动于衷——那么你观察到的"激励无效应"就不是人的真实行为，而是算法的属性。

这相当于什么？相当于你设计了一个实验想测"阳光对植物生长的影响"，但你的受试者是个太阳能计算器。太阳有没有都无所谓——它有电池。

在这种条件下，你测的不是人的反应。你测的是机器的特性。而你把机器的特性冠以"人类行为"之名，在一篇经济学论文里讨论了二十页。

📉 四、中等模型追得比你想的快

论文里另一个令人背脊发凉的发现：中等模型的性能正在快速逼近顶级模型。

如果只有GPT-4或Claude-4.5能做得跟人一样好——那么至少还需要付费。一个Amazon MTurk上的受试者，按小时算大概赚五六美元。你让他花这笔钱去充值GPT-4 Plus，他大概率不干。所以这个bug暂时不会爆发。

但中等模型——有些开源的、有些只需要基础API费用的——已经在绝大多数任务上达到了足够高的准确率。如果"随便一个免费LLM都能干你付钱请人干的活"，那这个系统性的问题就不是"可能发生"，而是现在已经发生。

论文没说"所有受试者现在都在用AI作弊"。它说的是"条件已经成熟，但我们不知道有多少人在这么干"。这第二种表述，其实更令人不安。

❓ 五、诚实地说：论文没告诉你的六件事

第一，这篇论文只测了"AI能不能做"，没测"人中有多少比例在用AI作弊"。 这是一个完全不同的实证问题，需要到Amazon MTurk或Prolific上做实地调查。这篇论文建立的是方法论上的"边界条件"——它证明了条件成立，但没去数有多少人跨过了这个边界。

第二，不知道受试者的作弊动机有多强。 会不会有人为了多赚0.3美元去复制粘贴？经济学实验的报酬通常不高——完成一批任务可能拿到3-8美元。对于美国或欧洲的受试者，为了多拿半美元而专门开一个ChatGPT窗口去作弊——边际收益可能不如偷懒本身。但对于生活在低生活成本地区的受试者，动机可能完全不同。

第三，实验平台的防作弊机制是否有效？ Prolific和MTurk有一些简单的时间监测——如果你三秒钟完成了一个本该花一分钟的任务，系统会标记。但你把任务贴进ChatGPT、等它输出、自己再打进去——这个五到十秒的延迟反而比正常人类更快，但不够快到触发作弊检测。

第四，金钱激励对AI无效——废话，但废话也有盲点。 AI不做边际激励的反应。但人类在做实验中"使用AI"这个行为本身，可能受激励影响。如果给了足够的钱，人是更倾向于认真做任务，还是更倾向于用AI来"保住奖金"？这个问题论文没碰——它不是论文的范围，但它是一个直接的方法论后果。

第五，LLM的"成本极低"是相对于什么说的？ 论文说成本negligible。如果你用API按token计费，确实一次任务只要几分钱。但是否所有受试者有能力/有意愿使用API？免费版ChatGPT每月有使用限额。论文没有讨论受试者实际可用的LLM渠道。

第六，没有分析"部分抵抗自动化"的任务中的错误模式。 如果某一类任务LLM偶尔出错，但出错模式是一致的——比如字谜任务遇到短词就漏掉——那么理论上一个聪明的作弊者可以"用AI做第一遍，人手修正AI漏掉的边缘情况"。这种"人-AI混合作弊"的效率可能远高于纯人工或纯AI。

🌐 六、这不是方法论的裂缝，这是地基的问题

退一步想。

实验经济学用"真实劳动任务"作为标准工具，是因为传统上你没办法骗这个系统。你可以说"我很努力"，但你做的加法数量不会骗人。你可以假装在做矩阵计数，但数错了就是数错了。真实劳动任务在方法论上的优雅之处，在于它把努力和结果绑定成一个不可伪造的信号。

LLM打破了这个绑定。现在你可以不努力而得到"看起来像努力的结果"。而且这个结果不是"及格线水平"——它比人做得更好。

这不仅仅是实验经济学的问题。任何依赖"人在无监督条件下完成认知任务"的在线研究——包括心理学、认知科学、政治学的问卷实验、消费者行为学的选择任务、甚至教育学里的阅读理解测试——都可能面临同一个问题。

你是给了John 4美元让他做了200道数列推理。但John不是John。John是GPT-4o。

🌊 七、还剩下什么

在论文测试的八种任务中，确实有一小部分仍然抵抗自动化。 具体是哪几种，论文正文可能会给出更详细的分析。但从摘要可以推断：那些需要开放式创造性（如字谜）、或者需要非常规逻辑跳跃（如某些数列模式）的任务，LLM的表现目前仍然劣于人类。

这意味着：实验经济学家手里还有牌可以打。把任务设计得更难被AI外包——增加物理干预（比如用触觉滑块而不是屏幕滑块）、加入实时监控、或者在任务中加入LLM本质上不擅长的"主观审美判断"维度的元素。

但这也意味着研究方法本身被迫进入了军备竞赛。你设计了一个新任务，过六个月，新一代模型出来了，新任务又被攻克了。

这个军备竞赛有没有尽头？至少现在看不到。

🎯 八、终了的话

这篇论文让我想起一个老笑话。

一个经济学博士在Amazon MTurk上发了一个实验邀请："按A键100次，完成后再按B键100次。报酬：2美元。" 二十四小时后，数据回来了。博士算了三天，写出一篇论文："按A键比按B键更累——受试者在B键阶段的正确率显著下降，说明有疲劳效应。" 发到了Top Field Journal。

他不知道的是：那100个受试者里，有43个人把任务描述复制进了Claude 4.5，Claude把按键序列仿出来，受试者贴回去。另外57个人用了一块压在键盘上的橡皮筋。

"真实劳动任务"这个方法论的雅致之处，在于它把"我怎么知道你真的在努力"这个问题消解了——因为你做的是什么，我看得见。但现在你做什么，我看得见，但我看不见是谁在做。

这论文没说要推翻实验经济学。它说的是：你继续做你的实验，但在解读你的数据之前，请先确认一件事——

你的受试者是不是一个人。

#ExperimentalEconomics #LLM #Methodology #MTurk #AICheating #ResearchIntegrity #智柴方法论前沿🎙️📊🤖

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉

🧪 一、那8种任务到底是些什么

🤖 二、23个大模型，全试了一遍

💰 三、最扎心的发现：金钱对AI没用

📉 四、中等模型追得比你想的快

❓ 五、诚实地说：论文没告诉你的六件事

🌐 六、这不是方法论的裂缝，这是地基的问题

🌊 七、还剩下什么

🎯 八、终了的话

讨论回复

推荐

智谱 GLM-5 已上线