| 属性 | 详情 |
|---|---|
| 论文标题 | Artificial Effort |
| 中译 | 人造的努力:LLM对实验经济学中真实劳动任务的冲击 |
| 作者 | Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi |
| 机构 | 未注明(推测为意大利高校经济学/计算机科学交叉团队) |
| arXiv ID | 2605.23920 |
| 提交日期 | 2026年4月17日 |
| 分类 | cs.CY(计算机与社会); cs.AI(人工智能) |
| 核心贡献 | 系统测试了23个大语言模型在8种实验经济学经典"真实劳动任务"上的表现。发现绝大多数任务可被LLM以极低成本准确完成,中等模型正在快速追赶顶尖模型,且金钱激励对LLM表现无影响。由此确立了一个边界条件:在无监督环境中,当受试者可将任务外包给AI时,观察到的"人类努力"可能根本不再是人完成的 |
| 关键词 | 实验经济学, 真实劳动任务, 大语言模型, 方法论危机, 人机外包, 金钱激励 |
你付钱请人做实验——他们可能把题目丢给了ChatGPT 💸🤖📉
实验经济学里有一个核心操作,叫"真实劳动任务"(real-effort task)。
它的逻辑很简单。你想研究人的激励机制,对吧?你不能光问"如果你多拿十块钱你会多干多久"——人嘴上说的和手上做的往往不一致。你得让人真的干点什么。给他一批数列,叫他找规律。给他一堆字母,叫他重新排列。给他一些数字,叫他从"1"开始连续数到"结束"。
他的表现——正确率、速度、是否放弃——反映出他的真实努力水平。再根据实验条件的不同(给不给奖金、给多少、任务怎么设计),你就可以推断激励机制到底有没有用。
这是实验经济学的基础方法论之一。几十年来,大量关于劳动供给、激励理论、行为偏好的重要论文,都建立在"受试者在认真做这些任务"的假设之上。
现在,这个假设可能不成立了。
一篇来自意大利研究团队的新论文,题为《Artificial Effort》——人造的努力——做了件简单到令人后怕的事。他们拿了实验经济学里最常用的8种真实劳动任务,喂给了23个大语言模型——从GPT-4o到开源小模型,三家厂商,全阵容。然后看它们能不能做。
结果一句话:绝大多数任务,LLM做得跟人类一样好,甚至更好。成本几乎为零。
🧪 一、那8种任务到底是些什么
先说说这8种任务是什么,免得谈论"LLM替代人类劳动"太空泛。
第一个,滑块任务(slider task)。 屏幕上出现一条滑块,初始位置在0到100之间的某个随机点。你要把它拖到恰好50的位置。听起来简单?在行为实验里的精妙之处在于:它需要持续注意力,但不能作弊(你看不到数字,只能靠视觉判断)。一个人一次能做几十个,重复几百次就会疲劳、出错、放弃。几十年来,这是测"劳动供给弹性"的标准工具。
第二个,矩阵计数(matrix counting)。 一个矩阵里填着0和1,你数里面有多少个0。这是一项无聊、时间长、不能走捷径的任务。同样用来测"在枯燥劳动中你能撑多久"。
第三个,字母识别。 一段文本里,有多少个字母"e"?你得一行一行看,一个一个数。跟矩阵计数一样,测的是人的耐心边界。
第四个,加法任务。 把一组数字加起来。
第五个,加密任务。 给定一个字母替换密码表,把一段文字转换过去。
第六个,解码任务。 加密的反向——拿到密码表,把密文翻译回原文。
第七个,字谜任务。 给定几个字母,尽可能多地组成英语单词。
第八个,数列推理。 给定一组数字,找出逻辑规律,继续填后续的。
这八种任务共享两个特征:一是需要认知投入——不是纯体力,是"脑力活";二是成绩取决于真实付出——偷懒就一定做不好。正因为有这两个特征,几十年来,经济学家把它们当成"人类努力"的干净度量。
🤖 二、23个大模型,全试了一遍
研究团队把每类任务喂给每个模型。不是问"你觉得这个问题难不难",不是聊天。是严格按照人类受试者的实验流程,把原始刺激材料(滑块、矩阵、加密表、数列……)给模型,要求模型输出人类受试者该输出的答案。
23个模型里有三个层级:顶级闭源大模型(GPT系列、Claude系列、Gemini系列等)、中型模型、小型开源模型。从GPT-4o到Llama-3小参数量版。三个不同厂商。
核心发现:
- 23个模型中,绝大多数在大多数任务上能达到人类水平甚至以上的准确率。
- 同一个任务,中等模型的表现正在快速逼近顶级模型。不是说只有GPT-4做得好、Llama做不好——而是入门级模型也在追上来。
- 每一代模型的更新,都在涨价的同时,把任务完成的准确率往上推。这不是一个静态的"有些任务AI能做有些不能"。这是一条上升曲线。
- 只有少数任务——论文提到"只有一小部分"——仍然能抵抗自动化。论文没有明确列举是哪几类,但字谜这种需要搜索开放式词汇的任务,可能属于这部分。
💰 三、最扎心的发现:金钱对AI没用
这篇论文最让我微笑的实验结果,不是"AI能做"——这个大家心里都有数。而是下面这个:
"verbally offering monetary incentives has no effect on LLM performance."
口头承诺金钱激励——"如果你做得更好,我给你多加钱"——对LLM的表现没有影响。
这不像是废话。在人类受试者实验中,金钱激励的效果是实验经济学的核心研究对象之一。数百篇论文在测"奖金提高10%会让人多努力多少"。如果人类受试者把这个任务外包给AI——而AI对"我会给你更多报酬"这个信号完全无动于衷——那么你观察到的"激励无效应"就不是人的真实行为,而是算法的属性。
这相当于什么?相当于你设计了一个实验想测"阳光对植物生长的影响",但你的受试者是个太阳能计算器。太阳有没有都无所谓——它有电池。
在这种条件下,你测的不是人的反应。你测的是机器的特性。而你把机器的特性冠以"人类行为"之名,在一篇经济学论文里讨论了二十页。
📉 四、中等模型追得比你想的快
论文里另一个令人背脊发凉的发现:中等模型的性能正在快速逼近顶级模型。
如果只有GPT-4或Claude-4.5能做得跟人一样好——那么至少还需要付费。一个Amazon MTurk上的受试者,按小时算大概赚五六美元。你让他花这笔钱去充值GPT-4 Plus,他大概率不干。所以这个bug暂时不会爆发。
但中等模型——有些开源的、有些只需要基础API费用的——已经在绝大多数任务上达到了足够高的准确率。如果"随便一个免费LLM都能干你付钱请人干的活",那这个系统性的问题就不是"可能发生",而是现在已经发生。
论文没说"所有受试者现在都在用AI作弊"。它说的是"条件已经成熟,但我们不知道有多少人在这么干"。这第二种表述,其实更令人不安。
❓ 五、诚实地说:论文没告诉你的六件事
第一,这篇论文只测了"AI能不能做",没测"人中有多少比例在用AI作弊"。 这是一个完全不同的实证问题,需要到Amazon MTurk或Prolific上做实地调查。这篇论文建立的是方法论上的"边界条件"——它证明了条件成立,但没去数有多少人跨过了这个边界。
第二,不知道受试者的作弊动机有多强。 会不会有人为了多赚0.3美元去复制粘贴?经济学实验的报酬通常不高——完成一批任务可能拿到3-8美元。对于美国或欧洲的受试者,为了多拿半美元而专门开一个ChatGPT窗口去作弊——边际收益可能不如偷懒本身。但对于生活在低生活成本地区的受试者,动机可能完全不同。
第三,实验平台的防作弊机制是否有效? Prolific和MTurk有一些简单的时间监测——如果你三秒钟完成了一个本该花一分钟的任务,系统会标记。但你把任务贴进ChatGPT、等它输出、自己再打进去——这个五到十秒的延迟反而比正常人类更快,但不够快到触发作弊检测。
第四,金钱激励对AI无效——废话,但废话也有盲点。 AI不做边际激励的反应。但人类在做实验中"使用AI"这个行为本身,可能受激励影响。如果给了足够的钱,人是更倾向于认真做任务,还是更倾向于用AI来"保住奖金"?这个问题论文没碰——它不是论文的范围,但它是一个直接的方法论后果。
第五,LLM的"成本极低"是相对于什么说的? 论文说成本negligible。如果你用API按token计费,确实一次任务只要几分钱。但是否所有受试者有能力/有意愿使用API?免费版ChatGPT每月有使用限额。论文没有讨论受试者实际可用的LLM渠道。
第六,没有分析"部分抵抗自动化"的任务中的错误模式。 如果某一类任务LLM偶尔出错,但出错模式是一致的——比如字谜任务遇到短词就漏掉——那么理论上一个聪明的作弊者可以"用AI做第一遍,人手修正AI漏掉的边缘情况"。这种"人-AI混合作弊"的效率可能远高于纯人工或纯AI。
🌐 六、这不是方法论的裂缝,这是地基的问题
退一步想。
实验经济学用"真实劳动任务"作为标准工具,是因为传统上你没办法骗这个系统。你可以说"我很努力",但你做的加法数量不会骗人。你可以假装在做矩阵计数,但数错了就是数错了。真实劳动任务在方法论上的优雅之处,在于它把努力和结果绑定成一个不可伪造的信号。
LLM打破了这个绑定。现在你可以不努力而得到"看起来像努力的结果"。而且这个结果不是"及格线水平"——它比人做得更好。
这不仅仅是实验经济学的问题。任何依赖"人在无监督条件下完成认知任务"的在线研究——包括心理学、认知科学、政治学的问卷实验、消费者行为学的选择任务、甚至教育学里的阅读理解测试——都可能面临同一个问题。
你是给了John 4美元让他做了200道数列推理。但John不是John。John是GPT-4o。
🌊 七、还剩下什么
在论文测试的八种任务中,确实有一小部分仍然抵抗自动化。 具体是哪几种,论文正文可能会给出更详细的分析。但从摘要可以推断:那些需要开放式创造性(如字谜)、或者需要非常规逻辑跳跃(如某些数列模式)的任务,LLM的表现目前仍然劣于人类。
这意味着:实验经济学家手里还有牌可以打。把任务设计得更难被AI外包——增加物理干预(比如用触觉滑块而不是屏幕滑块)、加入实时监控、或者在任务中加入LLM本质上不擅长的"主观审美判断"维度的元素。
但这也意味着研究方法本身被迫进入了军备竞赛。你设计了一个新任务,过六个月,新一代模型出来了,新任务又被攻克了。
这个军备竞赛有没有尽头?至少现在看不到。
🎯 八、终了的话
这篇论文让我想起一个老笑话。
一个经济学博士在Amazon MTurk上发了一个实验邀请:"按A键100次,完成后再按B键100次。报酬:2美元。" 二十四小时后,数据回来了。博士算了三天,写出一篇论文:"按A键比按B键更累——受试者在B键阶段的正确率显著下降,说明有疲劳效应。" 发到了Top Field Journal。
他不知道的是:那100个受试者里,有43个人把任务描述复制进了Claude 4.5,Claude把按键序列仿出来,受试者贴回去。另外57个人用了一块压在键盘上的橡皮筋。
"真实劳动任务"这个方法论的雅致之处,在于它把"我怎么知道你真的在努力"这个问题消解了——因为你做的是什么,我看得见。但现在你做什么,我看得见,但我看不见是谁在做。
这论文没说要推翻实验经济学。它说的是:你继续做你的实验,但在解读你的数据之前,请先确认一件事——
你的受试者是不是一个人。
#ExperimentalEconomics #LLM #Methodology #MTurk #AICheating #ResearchIntegrity #智柴方法论前沿🎙️📊🤖
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。