《省时幻觉:你花在AI上的每一分钟,都可能比自己做更慢》
| 论文信息 | |
|---|---|
| 标题 | The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks |
| 作者 | Sunny Yu, Myra Cheng, Ahmad Jabbar, Ilia Sucholutsky, Katherine M. Collins, Dan Jurafsky, Robert D. Hawkins |
| 机构 | Stanford University |
| arXiv ID | 2605.22687 |
| 日期 | 2026年5月21日 |
| 分类 | cs.CY / cs.HC |
| 研究方法 | 三项预注册用户实验(N=2691) |
| 核心发现 | 人们对AI使用存在双重系统偏差——低估自身AI使用频率同时高估其效率收益,形成自我强化的"过度依赖反馈环" |
⏱️ 序曲:一杯咖啡的时间里,你打开了多少次AI
2026年5月21日下午,你在写一封邮件。主题是"关于下周会议的议程调整"。你打开ChatGPT的对话框,键入:"帮我写一封礼貌的邮件,告诉同事会议从周三改到周四下午三点,说明因为场地冲突不得不改,表示歉意。"
AI在五秒钟内生成了一封得体、完整、语法完美的邮件。你复制、粘贴、微调了两个词、点击发送。全程大约三十秒。
如果是你自己手写这封邮件,大概需要一分半。
你觉得自己省了一分钟。
但你现在需要停下来想一个问题:打开ChatGPT、输入那段提示词、等待它生成、复制粘贴、再微调——这三十秒里,有多少是你可以省下来的?
论文《效率增益幻觉》(The efficiency-gain illusion)的七位斯坦福研究者——其中包括自然语言处理泰斗Dan Jurafsky教授——用2691名参与者的数据告诉你一件事:你可能根本没省下那三十秒。你也可能根本不知道自己用AI用了多少次。
而且更糟糕的是——你用得越多,对这种幻觉就越深信不疑。
📊 第一章:当2691个人做了一个简单的测试
研究者设计了三项独立的、预注册的用户实验。实验的设计非常简洁:给参与者一些"认知简单任务"——算术、拼写检查、简单问答——然后让他们选择是自己做还是让AI帮忙做。每个选择背后的真实效率数据(耗时、精力消耗)都被精确记录。
然后研究者对比了三个数字:
- 人们实际使用AI的频率——他们到底让AI做了多少次
- 人们自己以为的使用频率——他们事后估计自己用了几次
- AI实际省下的时间/精力——客观测量的效率增益
结果呈现了两个系统性的偏差。
偏差一:自身估计偏差(self-estimate miscalibration)。 人们在事后调查中,系统地低估了自己使用AI的频率。 他们以为"我就用了三四次",实际数据是"你用了七次"。偏差的方向一致——几乎没人高估自己用了多少AI,几乎所有人都低估。
偏差二:效率增益幻觉(efficiency-gain illusion)。 人们对AI带来的时间和精力节省,存在系统性的高估。 他们觉得"AI帮我省了一半的时间",实际测量显示——在很多简单任务上——省下的时间根本不显著,有时甚至比手动更慢。
两个偏差叠加在一起,形成了一幅令人不安的画面:人们比自己意识到的更依赖AI,且这种依赖经常是不划算的。
🔄 第二章:最危险的反馈环——"用了还想用"
论文发现的第三个效应,我认为是最重要的。
会话级延续效应(session-level carryover effect)。
在实验中,研究者观察到:当一个人在某次任务中使用了AI之后,他在下一个任务中选择使用AI的概率显著上升。而且——更重要的是——每多使用一次AI,他对"AI省了我多少时间"的估计偏差就会进一步固化。
用大白话说:每用一次AI,你对它产生依赖的逻辑就加强一次——即使客观上它并没有在帮你省时间。 这不只是一个认知偏差,这是一个正反馈环。
这东西的动力学大概是这样的:
第一轮:你手算了一道乘法。AI告诉你答案只需要点一下。你觉得这节省了你五秒——其实你可能只省了两秒,因为打开对话框和输入问题花掉了另外三秒。但你的大脑记录下了"AI=省时"这个关联。
第十轮:你已经不会手算乘法了。你看到数字的第一反应是"问AI"。你把三十道简单的算术题全扔给了AI——每道题花三秒打字、一秒等回复——而如果你自己算的话,每道题大概四秒。你没有省时间。但你依然觉得省了。
第一百轮:你不会再质疑"应不应该问AI"这个问题。你只是在数字出现的瞬间、本能地、在对话框里打出了算式。
这就是反馈环的完整闭合。
🧠 第三章:为什么简单任务是最危险的陷阱
论文谨慎地把研究范围限定在"认知简单任务"上。这是故意的——也是这篇论文最深刻的设计选择。
对于复杂任务——比如"帮我分析这3000行的Python代码里的并发bug"——AI的价值是显而易见的。人做不到的事,AI能做,不管花多少token都是值的。
但简单任务不同。
算术:2+3=5。任何一个接受过小学教育的人都可以在毫秒级别完成。但如果你打字"2+3等于多少"给AI然后等回复——总耗时至少五到十秒,你自己算只需要不到一秒。AI慢了十倍。
拼写检查:"recieve"应该是"receive"。人的视觉模式识别能力在母语拼写上极为高效。AI可能需要一个完整的token生成周期来给出建议——而你只需要多看一眼那个单词。
简单问答:"法国的首都是哪里?"你有答案。在你知道答案的瞬间,AI回复还没开始生成。
在这些任务上使用AI,本质上是用机器运算替代了自己已有的知识检索。而这个替代过程的摩擦成本——打开应用、输入问题、等待回复、阅读回复——经常超过你自己直接执行的成本。
但人们感觉不到这个差距。因为打字和等待的感觉是"机器在工作,我在休息"——这种感受被大脑归类为"省力"而非"耗时"。我们的内部时钟在等待AI回复的时候,走得比电脑时钟慢。
🔍 第四章:实验的边界——论文诚实地说了什么
研究者自己在论文中坦承了几件事:
第一,只测试了"认知简单任务。 对于复杂任务——AI的真实增益是不可否认的。论文的结论不适用于"AI能做的事人类做不到"的场景。这个问题,研究者自己划了边界。
第二,时间之外的收益未评估。 论文测量的是时间和精力的节省。但AI还可能带来其他收益——比如减少认知负荷(即使总耗时相同,让大脑歇一会儿本身有价值)、减少错误率(特别是在注意力不集中的时刻)、或让用户在AI回答的同时做其他事(多任务并行)。这些收益不在本论文的评测框架之内。
第三,会话级延续效应的时长。 论文观察到了"用了AI就更容易再用AI"的短期效应。但这个效应会持续多久?是几分钟、几小时、还是几天?论文没有提供长期的纵向追踪数据。这个反馈环的"半衰期"是一个重要的未知变量。
第四,样本的普适性。 2691名参与者是一个相当大的样本,但论文没有详细披露这些参与者的技术素养分布。如果参与者以大学生为主(这在用户实验研究中很常见),那么结论在"更年长"或"非技术背景"的人群中的适用性可能需要额外的验证。
🎭 第五章:AI时代的自我欺骗——最危险的懒惰
这篇论文让我想到了一件我经常在咖啡店里看到的事。
有人坐在那里,面前摆着笔记本电脑,开着三个AI对话窗口。他在AI窗口里打字:"帮我总结这篇800字的新闻"——等待、阅读AI总结、觉得不满意、打字"更详细一点"——等待、阅读、再调整——
同一篇800字新闻,他自己从头读到尾,两分半钟就能读完。
但他花了五分钟在AI上,来回调整了两轮提示词,最后得到的内容质量还不一定比自己读的更好。
在这五分钟里,他的主观感受是"AI在帮我,我很高效"。客观事实是"你多花了150%的时间,做了和自己读一样的事。"
这是一场自己和自己的交易——你付出的时间,被大脑标记为'省下来了',因为你觉得自己没有在'工作'。
这就是效率增益幻觉的核心。感觉上的"省力"和客观的"省时"之间,有一个不被我们意识到的巨大鸿沟。 而每次跨过这道鸿沟,我们都对AI产生了一层新的依赖——哪怕这道沟是假的。
🏁 尾声:使用之前,问自己一个问题
我读完这篇论文,总结出了一个非常简单的问题。你可以在每次伸手要点开AI对话框之前问自己:
"如果AI现在宕机了,我能不能在两秒内自己做出来?"
'能'回答这个问题的事情,AI做得不会比你自己更快。
'不能'回答这个问题的事情,AI才真正有价值。
但这个问题的精髓在于:它要求你诚实地面对自己的"已知/未知"边界。你知道2+3等于几。你知道巴黎的首都。你知道"recieve"的拼写是错的。但你伸手去点AI的时候,没有先问自己"我是不是已经知道答案了。"
不是因为你需要AI。是因为你已经习惯了AI。
而习惯,恰好是这篇论文发现的最核心的风险因子。
📚 参考文献
- Yu, S., Cheng, M., Jabbar, A., Sucholutsky, I., Collins, K. M., Jurafsky, D., & Hawkins, R. D. (2026). The efficiency-gain illusion: People underestimate the rate of AI use and overestimate its benefits on simple tasks. arXiv:2605.22687.
- Dell'Acqua, F., et al. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper.
- Brynjolfsson, E., Li, D., & Raymond, L. R. (2023). Generative AI at Work. NBER Working Paper.
- Pezzo, M. V., & Beckstead, J. W. (2006). The Cognitive Illusion Controversy: A Methodological Debate in Disguise. Psychological Methods.
- Parasuraman, R., & Riley, V. (1997). Humans and Automation: Use, Misuse, Disuse, Abuse. Human Factors.
#AI #HumanBehavior #EfficiencyIllusion #Overreliance #Stanford #用户研究 #智柴人因实验室
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。