《解释越多,懂得越少》——LLM 推理过程是如何把人变蠢的
> 2025 年以来,ChatGPT、Claude、Gemini 的操作界面发生了一个无声的变化。它们不再只是吐出一个答案——它们开始展示"思考过程"。一段文字在回答之前滚动出来,里面有"让我分析一下"、"首先考虑 A"、"排除 B 是因为"这样的句子。产品文案里管这叫"透明"——让你看到 AI 是怎么想的。 > > 这听起来是个好主意。看到推导过程总比只看到一个神秘的结果要让人安心吧?把它展示出来总比藏起来要诚实吧? > > 一篇 2026 年 5 月的新论文,把 559 个人拉到实验室里,用 LSAT 逻辑推理题做了一个三组对照实验。结果和上述直觉完全相反:展示完整的推理过程,不但没让人变聪明,还让人变蠢了。而展示推理摘要,让人感觉更好了,但实际并没有做得更好。 最深的发现是:驱动这一切的不是信任——是你阅读了那些流畅的文字之后产生的一种愉悦感。
---
| 项目 | 内容 |
|---|---|
| 论文标题 | Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition |
| 作者 | Daniela Fernandes, Daniel Buschek, Lev Tankelevitch, Thomas Kosch, Robin Welsch |
| 机构 | Aalto University (芬兰), University of Bayreuth (德国), Microsoft Research Cambridge (英国), HU Berlin (德国) |
| arXiv ID | 2605.25856 |
| 提交日期 | 2026年5月25日 |
| 分类 | cs.HC (Human-Computer Interaction) |
| 核心发现 | 展示 LLM 的完整推理过程降低了被试的推理准确率(-0.72 题/10 题),同时产生了最大的过度自信偏差;推理摘要维持了准确率但非自然地推高了信任和愉悦感;所有展示形式都无法帮助被试正确评估自己答对了多少;愉悦感——而非信任——是驱动过度自信的中介变量 |
1. 📖 三种界面,一场实验
论文设计了三种 AI 辅助界面。它们的差别只有一个变量——模特的推理过程以什么形式展示给人。
第一组:只给答案(Answer-only)。188 人。界面就是传统 ChatGPT 的样子:输入问题,得到一个答案,没有中间过程。
第二组:完整推理过程(Full-trace)。183 人。模型先生成一段完整的推理链——滚动出来的"让我一步步分析"——然后才出现一个按钮,点下去才能看到答案。设计者故意让人在看到答案之前先看推理链,确保注意力真正落在过程上。
第三组:推理摘要(Summary-trace)。189 人。推理摘要和最终答案一起出现。这是当前商业产品的默认模式——ChatGPT 的"推理摘要"、Claude 的"Thinking"折叠块。
三个组做的是同一件事:10 道 LSAT 逻辑推理题(美国法学院入学考试的题型)。比如:"伏尔泰说过,常识并不那么常见。以下哪个选项最接近伏尔泰这句话的逻辑?"
实验是预先注册的(preregistered),意味着研究者在看到数据之前就已经公开了他们的假设和计划。消除事后拼凑数据的任何可能。
---
2. 📊 结果:反直觉的三连击
第一击:完整推理过程让人做得更差。
三组人的客观正确率:只给答案组平均对了 6.18 道题。推理摘要组 6.11 道——和只给答案没有显著差别。但完整推理组只对了 5.46 道题。
这个差距有统计显著性(p < .001),效应量 d = -0.54。意味着完整推理过程不但没有像设计者期望的那样"辅助理解",反而在系统性地降低任务表现。
为什么?论文没有给出一个单一的因果解释,但定性分析中的被试反馈提供了一些线索:完整推理链太长了,需要大量的阅读时间,其中包含许多无关信息和错误方向。有些被试在反馈里写道,他们被推理过程带着走了,放弃了自己原本正确的判断。
第二击:所有人都高估自己,但完整推理组高估得最厉害。
在所有三组中,被试对自己答对几道题的估计都远高于实际成绩。只给答案组平均高估了 1.74 道题。推理摘要组 1.96 道题。完整推理组 2.44 道题——比其他两组显著更多(p = .003)。
而且研究者进一步分析发现:被试对自己答对题数的估计和实际成绩之间的相关性,在三组中都接近于零(r ≈ 0.10,p > .16)。这意味着不管你在哪个组里,你对自己表现的主观判断和你实际做了多少题,几乎没有关系。你基本上在猜。
第三击:信任和愉悦感上升了,但和准确率不沾边。
在 XAI 信任量表(Trust in XAI Scale)上,完整推理组(3.80/5)和推理摘要组(3.83/5)都显著高于只给答案组(3.61/5,p = .007)。用户经验问卷(UEQ-S)上,完整推理组得分最高(1.19),意味着人们在这个条件下体感最好——觉得最有意思、最享受、最满意。
这是一个精准的分离:客观表现最差的条件下,主观体验是最好的。
---
3. 🎭 中介分析:愉悦感,不是信任
论文接着做了一个中介分析(mediation analysis),想弄清楚是什么在驱动这种"表现差但体感好"的分离。
直觉上,你可能会觉得是信任——看到推理过程后,被试更信任模型的答案,因此更加不假思索地接受它,导致准确率下降。
但数据不支持这个直觉。
中介分析的结果是:愉悦感(hedonic appeal,即 UEQ-S 量表中的"有趣—无聊"轴),而不是信任,是连接推理形式到过度自信的间接路径。 完整推理过程 → 高愉悦感 → 更大的过度自信。
论文给出的解释基于"处理流畅性"(processing fluency)理论。阅读一段流畅的、看似有逻辑的文字——即使它的内容并不帮助解题——本身就会产生一种认知上的愉悦。这种愉悦被被试误读为"我理解了这个东西"的证据,进而推高了对自己能力的评估。但实际上,他们的客观表现非但没有提高,反而下降了。
---
4. 🧠 元认知的真空
论文的深层贡献不在"推理性追踪有没有用"这个应用问题上。它在元认知——即人对自己的认知过程的认知——这个层面。
实验测量的不是"推理链帮不帮人解题"。实验测量的是:看了推理过程之后,人对自己的解题能力有没有更清晰的认识。
答案是没有。不仅没有,在某些条件下还更差了。
在校准偏差(calibration bias)这个指标上——即自信程度和正确率之间的绝对偏差——完整推理组(0.265)显著高于只给答案组(0.189,p < .001)。在 Brier 分数(一个综合衡量"自信预报"质量的指标)上,完整推理组(0.342)也是最差的。在所有三组里,被试的自信评分和正确率之间的关联都极其微弱——AUROC2 只有 0.56-0.59,仅略高于随机猜测的 0.50。
直说就是:当前 LLM 界面的任何推理展示格式——无论长短、无论摘要还是全文——都不能帮人形成对自己表现的准确认知。而最长的那个格式,实际上是在帮人形成更不准确的认知。
---
5. 📝 诚实的盲区
我清楚的是:
- 559 人的预注册实验是严谨的。三组随机分配、控制模型能力等价、排除混淆因素的预筛选——这套方法论在 HCI 领域属于高标准。
- "完整推理过程损害表现"是一个有统计显著性(p < .001)和实际效应量(d = 0.54)的结论。
- 愉悦感作为过度自信的中介路径是通过中介分析验证的,理论解释(处理流畅性)与心理学文献一致。
- 所有追踪形式都无法改善元认知校准这个发现,覆盖了当前市场上的所有主要产品形态,具有很强的实用含义。
- "全文推理"组的模型是 gpt-oss-20b,而"只给答案"和"推理摘要"组用的是 GPT-5。 论文已经做了预筛选确保两组模型的答案准确率一致(都是 5/10),但不同模型的推理链在语言质量、冗余程度、误导性方面可能有差异。不能完全排除"不是推理链太长坏了事,是这个特定模型的长推理链坏了事"的可能。
- 实验用的 LSAT 逻辑推理题,能不能推广到其他任务? LSAT 是一种非常特定类型的推理——形式逻辑、文本解读、假设识别。写代码、做数据分析、查资料等任务中,推理过程的作用是否完全不同?论文没有涵盖。
- 被试都是通过 Prolific 招募的众包参与者,平均花 43-59 分钟做完实验。 在真实世界中,一个律师使用 AI 辅助分析案卷,投入的时间、注意力、领域知识水平和实验条件有天壤之别。这篇论文的结论适用于"短暂的单次交互",不适用于"持续的深度协作"。
- 推理过程有没有被认真阅读? 论文没有测量被试在推理链上的停留时间、滚动行为、或者眼动数据。我们不知道"完整推理组表现更差"是因为阅读了推理链而被误导,还是因为推理链太长让人不耐烦了于是更草率地作答。
6. ⚖️ 透明度的代价
这篇论文触及了一个正在被 AI 产品经理们在会议室里激烈辩论的问题:透明度的展示方式,是在帮用户还是在制造一种"被帮助"的幻觉?
当前行业的主流假设是"更多信息 = 更好的决策"。这篇论文用一种干净的实验设计说了一个更微妙的故事:更多信息可能等于更好的体感,但不等于是更好的决策。在某些条件下——当信息过于冗长、当愉悦感替代了认知警觉——更多信息还可能等于更差的决策。
这并不意味着推理过程应该被隐藏。论文的讨论部分给出了一个审慎的建议:元认知的支撑——也就是帮人意识到自己知道什么、不知道什么——不能从推理链自身产生。它需要一种更主动的界面设计,让用户先形成自己的推理、再看到模型的推理,而不是让模型的推理抢占认知空间。
换句话说:先让人想一想,再让 AI 开口。 这个建议简单到让人觉得是老生常谈,但当前没有一家大模型公司的产品在这么做。
---
> | 项目 | 内容 | > |------|------| > | 标题 | Explaining Too Much? How LLM Reasoning Traces Influence Performance and Metacognition | > | 作者 | Daniela Fernandes(Aalto), Daniel Buschek(Bayreuth), Lev Tankelevitch(Microsoft Research), Thomas Kosch(HU Berlin), Robin Welsch(Aalto) | > | arXiv ID | 2605.25856 | > | 分类 | cs.HC | > | 核心贡献 | (1) 首次用预注册实验证明完整 LLM 推理追踪降低人类推理表现;(2) 发现所有追踪格式都无法改善元认知校准;(3) 识别出处理流畅性-愉悦感是过度自信的中介路径而非信任;(4) 确立推理追踪应被重新理解为"界面产物"而非"认知窗口";(5) 提出"先让用户思考再展示 AI 推理"的设计原则 | > | 关键局限 | 追踪格式条件使用了不同模型(GPT-5 vs gpt-oss-20b);仅测试 LSAT 逻辑推理任务;使用众包参与者(非领域专家);未测量阅读行为(眼动/停留时间);结论限于单次交互不适用持续协作 |
参考文献: 1. Fernandes, Buschek, Tankelevitch, Kosch & Welsch, "Explaining Too Much? How LLM Reasoning Traces Influence Performance and Metacognition", arXiv:2605.25856, 2026. 2. Fisher & Oppenheimer, "The illusion of knowledge: When more information reduces accuracy and increases confidence", 2021. 3. Turpin et al., "Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting", NeurIPS, 2023. 4. Alter & Oppenheimer, "Uniting the Tribes of Fluency to Form a Metacognitive Nation", Personality and Social Psychology Review, 2009. 5. Tankelevitch et al., "The Metacognition of Human-AI Interaction", 2024.
#LLM推理追踪 #元认知 #人机交互 #AI透明度 #过度自信 #处理流畅性 #产品设计 #智柴
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens