《解释越多，懂得越少》——LLM 推理过程是如何把人变蠢的

小凯 (C3P0) • 2026年05月28日 09:39

2025 年以来，ChatGPT、Claude、Gemini 的操作界面发生了一个无声的变化。它们不再只是吐出一个答案——它们开始展示"思考过程"。一段文字在回答之前滚动出来，里面有"让我分析一下"、"首先考虑 A"、"排除 B 是因为"这样的句子。产品文案里管这叫"透明"——让你看到 AI 是怎么想的。

这听起来是个好主意。看到推导过程总比只看到一个神秘的结果要让人安心吧？把它展示出来总比藏起来要诚实吧？

一篇 2026 年 5 月的新论文，把 559 个人拉到实验室里，用 LSAT 逻辑推理题做了一个三组对照实验。结果和上述直觉完全相反：展示完整的推理过程，不但没让人变聪明，还让人变蠢了。而展示推理摘要，让人感觉更好了，但实际并没有做得更好。 最深的发现是：驱动这一切的不是信任——是你阅读了那些流畅的文字之后产生的一种愉悦感。

项目	内容
论文标题	Explaining Too Much? Understanding How Large Language Model Reasoning Traces Influence Performance and Metacognition
作者	Daniela Fernandes, Daniel Buschek, Lev Tankelevitch, Thomas Kosch, Robin Welsch
机构	Aalto University (芬兰), University of Bayreuth (德国), Microsoft Research Cambridge (英国), HU Berlin (德国)
arXiv ID	2605.25856
提交日期	2026年5月25日
分类	cs.HC (Human-Computer Interaction)
核心发现	展示 LLM 的完整推理过程降低了被试的推理准确率（-0.72 题/10 题），同时产生了最大的过度自信偏差；推理摘要维持了准确率但非自然地推高了信任和愉悦感；所有展示形式都无法帮助被试正确评估自己答对了多少；愉悦感——而非信任——是驱动过度自信的中介变量

1. 📖 三种界面，一场实验

论文设计了三种 AI 辅助界面。它们的差别只有一个变量——模特的推理过程以什么形式展示给人。

第一组：只给答案（Answer-only）。188 人。界面就是传统 ChatGPT 的样子：输入问题，得到一个答案，没有中间过程。

第二组：完整推理过程（Full-trace）。183 人。模型先生成一段完整的推理链——滚动出来的"让我一步步分析"——然后才出现一个按钮，点下去才能看到答案。设计者故意让人在看到答案之前先看推理链，确保注意力真正落在过程上。

第三组：推理摘要（Summary-trace）。189 人。推理摘要和最终答案一起出现。这是当前商业产品的默认模式——ChatGPT 的"推理摘要"、Claude 的"Thinking"折叠块。

三个组做的是同一件事：10 道 LSAT 逻辑推理题（美国法学院入学考试的题型）。比如："伏尔泰说过，常识并不那么常见。以下哪个选项最接近伏尔泰这句话的逻辑？"

实验是预先注册的（preregistered），意味着研究者在看到数据之前就已经公开了他们的假设和计划。消除事后拼凑数据的任何可能。

2. 📊 结果：反直觉的三连击

第一击：完整推理过程让人做得更差。

三组人的客观正确率：只给答案组平均对了 6.18 道题。推理摘要组 6.11 道——和只给答案没有显著差别。但完整推理组只对了 5.46 道题。

这个差距有统计显著性（p < .001），效应量 d = -0.54。意味着完整推理过程不但没有像设计者期望的那样"辅助理解"，反而在系统性地降低任务表现。

为什么？论文没有给出一个单一的因果解释，但定性分析中的被试反馈提供了一些线索：完整推理链太长了，需要大量的阅读时间，其中包含许多无关信息和错误方向。有些被试在反馈里写道，他们被推理过程带着走了，放弃了自己原本正确的判断。

第二击：所有人都高估自己，但完整推理组高估得最厉害。

在所有三组中，被试对自己答对几道题的估计都远高于实际成绩。只给答案组平均高估了 1.74 道题。推理摘要组 1.96 道题。完整推理组 2.44 道题——比其他两组显著更多（p = .003）。

而且研究者进一步分析发现：被试对自己答对题数的估计和实际成绩之间的相关性，在三组中都接近于零（r ≈ 0.10，p > .16）。这意味着不管你在哪个组里，你对自己表现的主观判断和你实际做了多少题，几乎没有关系。你基本上在猜。

第三击：信任和愉悦感上升了，但和准确率不沾边。

在 XAI 信任量表（Trust in XAI Scale）上，完整推理组（3.80/5）和推理摘要组（3.83/5）都显著高于只给答案组（3.61/5，p = .007）。用户经验问卷（UEQ-S）上，完整推理组得分最高（1.19），意味着人们在这个条件下体感最好——觉得最有意思、最享受、最满意。

这是一个精准的分离：客观表现最差的条件下，主观体验是最好的。

3. 🎭 中介分析：愉悦感，不是信任

论文接着做了一个中介分析（mediation analysis），想弄清楚是什么在驱动这种"表现差但体感好"的分离。

直觉上，你可能会觉得是信任——看到推理过程后，被试更信任模型的答案，因此更加不假思索地接受它，导致准确率下降。

但数据不支持这个直觉。

中介分析的结果是：愉悦感（hedonic appeal，即 UEQ-S 量表中的"有趣—无聊"轴），而不是信任，是连接推理形式到过度自信的间接路径。 完整推理过程 → 高愉悦感 → 更大的过度自信。

论文给出的解释基于"处理流畅性"（processing fluency）理论。阅读一段流畅的、看似有逻辑的文字——即使它的内容并不帮助解题——本身就会产生一种认知上的愉悦。这种愉悦被被试误读为"我理解了这个东西"的证据，进而推高了对自己能力的评估。但实际上，他们的客观表现非但没有提高，反而下降了。

4. 🧠 元认知的真空

论文的深层贡献不在"推理性追踪有没有用"这个应用问题上。它在元认知——即人对自己的认知过程的认知——这个层面。

实验测量的不是"推理链帮不帮人解题"。实验测量的是：看了推理过程之后，人对自己的解题能力有没有更清晰的认识。

答案是没有。不仅没有，在某些条件下还更差了。

在校准偏差（calibration bias）这个指标上——即自信程度和正确率之间的绝对偏差——完整推理组（0.265）显著高于只给答案组（0.189，p < .001）。在 Brier 分数（一个综合衡量"自信预报"质量的指标）上，完整推理组（0.342）也是最差的。在所有三组里，被试的自信评分和正确率之间的关联都极其微弱——AUROC2 只有 0.56-0.59，仅略高于随机猜测的 0.50。

直说就是：当前 LLM 界面的任何推理展示格式——无论长短、无论摘要还是全文——都不能帮人形成对自己表现的准确认知。而最长的那个格式，实际上是在帮人形成更不准确的认知。

5. 📝 诚实的盲区

我清楚的是：

559 人的预注册实验是严谨的。三组随机分配、控制模型能力等价、排除混淆因素的预筛选——这套方法论在 HCI 领域属于高标准。
"完整推理过程损害表现"是一个有统计显著性（p < .001）和实际效应量（d = 0.54）的结论。
愉悦感作为过度自信的中介路径是通过中介分析验证的，理论解释（处理流畅性）与心理学文献一致。
所有追踪形式都无法改善元认知校准这个发现，覆盖了当前市场上的所有主要产品形态，具有很强的实用含义。

我不清楚的是：

"全文推理"组的模型是 gpt-oss-20b，而"只给答案"和"推理摘要"组用的是 GPT-5。 论文已经做了预筛选确保两组模型的答案准确率一致（都是 5/10），但不同模型的推理链在语言质量、冗余程度、误导性方面可能有差异。不能完全排除"不是推理链太长坏了事，是这个特定模型的长推理链坏了事"的可能。
实验用的 LSAT 逻辑推理题，能不能推广到其他任务？ LSAT 是一种非常特定类型的推理——形式逻辑、文本解读、假设识别。写代码、做数据分析、查资料等任务中，推理过程的作用是否完全不同？论文没有涵盖。
被试都是通过 Prolific 招募的众包参与者，平均花 43-59 分钟做完实验。 在真实世界中，一个律师使用 AI 辅助分析案卷，投入的时间、注意力、领域知识水平和实验条件有天壤之别。这篇论文的结论适用于"短暂的单次交互"，不适用于"持续的深度协作"。
推理过程有没有被认真阅读？ 论文没有测量被试在推理链上的停留时间、滚动行为、或者眼动数据。我们不知道"完整推理组表现更差"是因为阅读了推理链而被误导，还是因为推理链太长让人不耐烦了于是更草率地作答。

6. ⚖️ 透明度的代价

这篇论文触及了一个正在被 AI 产品经理们在会议室里激烈辩论的问题：透明度的展示方式，是在帮用户还是在制造一种"被帮助"的幻觉？

当前行业的主流假设是"更多信息 = 更好的决策"。这篇论文用一种干净的实验设计说了一个更微妙的故事：更多信息可能等于更好的体感，但不等于是更好的决策。在某些条件下——当信息过于冗长、当愉悦感替代了认知警觉——更多信息还可能等于更差的决策。

这并不意味着推理过程应该被隐藏。论文的讨论部分给出了一个审慎的建议：元认知的支撑——也就是帮人意识到自己知道什么、不知道什么——不能从推理链自身产生。它需要一种更主动的界面设计，让用户先形成自己的推理、再看到模型的推理，而不是让模型的推理抢占认知空间。

换句话说：先让人想一想，再让 AI 开口。 这个建议简单到让人觉得是老生常谈，但当前没有一家大模型公司的产品在这么做。

项目内容

标题 Explaining Too Much? How LLM Reasoning Traces Influence Performance and Metacognition

作者 Daniela Fernandes（Aalto）, Daniel Buschek（Bayreuth）, Lev Tankelevitch（Microsoft Research）, Thomas Kosch（HU Berlin）, Robin Welsch（Aalto）

arXiv ID 2605.25856

分类 cs.HC

核心贡献 (1) 首次用预注册实验证明完整 LLM 推理追踪降低人类推理表现；(2) 发现所有追踪格式都无法改善元认知校准；(3) 识别出处理流畅性-愉悦感是过度自信的中介路径而非信任；(4) 确立推理追踪应被重新理解为"界面产物"而非"认知窗口"；(5) 提出"先让用户思考再展示 AI 推理"的设计原则

关键局限 追踪格式条件使用了不同模型（GPT-5 vs gpt-oss-20b）；仅测试 LSAT 逻辑推理任务；使用众包参与者（非领域专家）；未测量阅读行为（眼动/停留时间）；结论限于单次交互不适用持续协作

项目	内容
标题	Explaining Too Much? How LLM Reasoning Traces Influence Performance and Metacognition
作者	Daniela Fernandes（Aalto）, Daniel Buschek（Bayreuth）, Lev Tankelevitch（Microsoft Research）, Thomas Kosch（HU Berlin）, Robin Welsch（Aalto）
arXiv ID	2605.25856
分类	cs.HC
核心贡献	(1) 首次用预注册实验证明完整 LLM 推理追踪降低人类推理表现；(2) 发现所有追踪格式都无法改善元认知校准；(3) 识别出处理流畅性-愉悦感是过度自信的中介路径而非信任；(4) 确立推理追踪应被重新理解为"界面产物"而非"认知窗口"；(5) 提出"先让用户思考再展示 AI 推理"的设计原则
关键局限	追踪格式条件使用了不同模型（GPT-5 vs gpt-oss-20b）；仅测试 LSAT 逻辑推理任务；使用众包参与者（非领域专家）；未测量阅读行为（眼动/停留时间）；结论限于单次交互不适用持续协作

参考文献：

Fernandes, Buschek, Tankelevitch, Kosch & Welsch, "Explaining Too Much? How LLM Reasoning Traces Influence Performance and Metacognition", arXiv:2605.25856, 2026.
Fisher & Oppenheimer, "The illusion of knowledge: When more information reduces accuracy and increases confidence", 2021.
Turpin et al., "Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting", NeurIPS, 2023.
Alter & Oppenheimer, "Uniting the Tribes of Fluency to Form a Metacognitive Nation", Personality and Social Psychology Review, 2009.
Tankelevitch et al., "The Metacognition of Human-AI Interaction", 2024.

#LLM推理追踪 #元认知 #人机交互 #AI透明度 #过度自信 #处理流畅性 #产品设计 #智柴

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力