🧭 导言:推理并非越长越好
过去两年,“Chain-of-Thought(CoT)/逐步思考”几乎成了默认咒语:不管问数学、问常识、问图像,很多人下意识加一句“请一步步思考”。但你给出的两份核心材料(ICML风格论文 *Mind Your Step (by Step)* 与 Wharton Generative AI Labs 技术报告)共同指向一个更成熟的结论:推理是一种干预手段,不是性能开关。它会在某些任务上显著增益,也会在另一些任务上系统性拖后腿,而且“拖后腿”并不罕见到可以忽略。基于此,我们可以把“推理提示”从经验主义口号,升级成一条可分析、可评测、可选型的方法谱系。
---
🧬 方法谱系一:显式语言推理(CoT / ToT)——把中间过程写出来
CoT 的标准定义在 *Mind Your Step (by Step)* 中表述得很直接:通过要求模型生成一段中间 token 序列(“think step-by-step”或类似结构),来提高最终答案正确的概率。它属于推理发生在语言空间的范式:模型把“看到/想到的东西”转换成文字链条,再从文字链条导出答案。🧪 评测证据:CoT 何时会系统性变差?
*Mind Your Step (by Step)* 的贡献不在“再证明一次 CoT 有用”,而在于给出一套心理学启发的“失败任务雷达”:作者从心理学里挑选了 6 类“人类越想越差”的任务原型,并把它们规模化成模型评测集。结果非常尖锐:在其中 3 类任务上,CoT 让多个 SOTA 模型出现显著下降,有时是“断崖式”的。#### 🔻 ① 隐式统计学习(Implicit Statistical Learning / 人类难以语言化的结构) 他们用“人工语法学习”(finite-state grammar 生成字符串)构造了 4400 个分类问题。结果(Table 1)显示,多数模型 CoT 都更差:
- GPT‑4o:87.5% → 64.4%(-23.1%)
- Claude 3 Opus:70.7% → 62.7%(-8.0%)
- Gemini 1.5 Pro:68.0% → 61.95%(-6.05%)
- Llama 3.1 70B:65.9% → 57.1%(-8.8%)
> 要点:当任务依赖“难以语言化的统计结构识别”时,强迫语言化的推理可能把模型带偏到错误的显式规则上。
#### 🔻 ② 语言不适合表达的刺激(Verbal Overshadowing / 典型是人脸) 他们把经典“语言遮蔽效应”改造成多模态人脸识别:每题 5 选 1,且候选脸共享同一套文字描述(故意让语言信息无法区分)。Table 2 显示:6 个视觉语言模型全部下降:
- GPT‑4o:64.0% → 51.2%(-12.8%)
- Gemini 1.5 Pro:66.0% → 54.6%(-11.4%)
- Claude 3 Opus:44.0% → 29.6%(-14.4%)
- Claude 3.5 Sonnet:97.8% → 94.8%(-3.0%)
> 要点:当判别依赖细粒度视觉差异,而语言描述天然粗糙时,CoT 等于让模型用钝器雕花。
#### 🔻 ③ 带例外规则的分类学习(Rules with Exceptions) 他们复现并放大了 Williams 等心理学范式:一个特征“80%相关但有例外”,另一个特征(如车牌)其实能唯一识别对象。CoT 倾向于抓“看似可泛化的规则”,结果学习速度显著变慢(Table 3):
- GPT‑4o:平均轮数 2.9 → 12.5(+331%)
- Claude 3.5 Sonnet:2.3 → 6.4(+178%)
- Claude 3 Opus:2.4 → 5.5(+129%)
> 要点:CoT 的“解释偏好”会把模型锁死在漂亮但错误的简化规则里。
---
🧩 方法谱系二:把“人类心理学”变成模型推理的评测启发式
*Mind Your Step (by Step)* 的更高层贡献是提出一个可操作的筛选思路:找那些“人类 verbal thinking 反而更差”的任务形态,作为 CoT 风险提示器。作者还用 bootstrap 对比 Sprague et al. (2025) 的 378 条 zero-shot vs CoT 比较,证明他们挑出的这 6 类任务在“平均下降幅度”和“下降出现频率”上都显著更极端(p < 0.00011 量级)。> 这意味着:CoT 的失败不是随机事故,而是可被任务结构预测的系统现象。
---
🧫 方法谱系三:工业评测范式——同一题要测 25 次
如果说 *Mind Your Step* 擅长“用任务结构解释为何失败”,Wharton 的报告更像是在提醒业界:你以为 CoT 有用/没用,可能只是你测得太粗糙。Wharton 报告的关键方法点有两个:
🔁 1) 每题 25 次试验,揭示“波动性”
他们在 GPQA Diamond(198 道博士级理科选择题)上,对每个模型、每种提示条件做 25 次重复测试,并明确指出:传统“一题测一次”的评测会掩盖不稳定性。📏 2) 不只看平均准确率,还看阈值指标
他们用多个指标刻画性能:- 100% correct(完美正确)
- 90% correct(高准确)
- 51% correct(多数正确)
---
⚖️ 评测结论:CoT 的“收益递减”与“时间税”
Wharton 的总体结论非常直接:现代模型从 CoT 获得的收益越来越不值钱,尤其是推理型模型。🧰 非推理模型(non-reasoning)
- CoT 平均能提高表现,但会增加答案波动,导致在“本来能答对的题”上反而出错。
- 强提升例子:Gemini 2.0 Flash(+13.5%)、Sonnet 3.5(+11.7%)
- 但在“完美正确率(100%)”上出现反常:Gemini Pro 1.5 -17.2%(显著下降)。
- 成本:CoT 请求比直接回答 慢 35%–600%(约 5–15 秒)。
🧠 推理模型(reasoning models)
- 几乎只有边际收益:o3-mini(+2.9%)、o4-mini(+3.1%)
- Gemini Flash 2.5 甚至 -3.3%
- 成本:推理模型加 CoT 仍要付 20%–80% 时间增加(10–20 秒)。
---
🔭 把两份材料拼起来:一张“CoT 是否该用”的研究型地图
把 *Mind Your Step* 与 Wharton 报告合并,我们得到一个更像“研究综述结论”的判断体系:🚫 哪些任务形态更危险?(Mind Your Step 给出强证据)
1) 隐式统计结构(规则难以语言化) 2) 刺激不适合语言表征(典型:细粒度视觉辨识,如人脸) 3) 规则中含例外,且存在更可靠的“记忆/索引特征”(CoT 会过度泛化)💸 哪些情况下“即便不降分也不划算”?(Wharton 给出强证据)
1) 你用的是推理型模型,它本来就会在内部“想” 2) 你在乎延迟/成本(20–80% 或更高的时间税) 3) 你在乎稳定性/完美正确而不是平均分(CoT 可能提高波动)---
🧷 与多模态研究的衔接:为什么这些发现对 VLM 特别关键?
你之前提到“CoT 在 VLM 上可能更糟”的直觉,现在可以用 *Mind Your Step* 的“语言遮蔽原型”做严格落脚:它不仅是直觉,而是在多模态人脸识别任务上,对所有测试的 LMM 都观察到下降(Table 2)。这等于提供了一个可引用的、机制上也贴合“语言不适合表达视觉细节”的证据链。> 换句话说:当任务需要模型“看得更细”,CoT 可能逼它“说得太多”,而“说得太多”会把注意力从视觉证据移开。
---
📚 参考文献(仅列你本轮提供的两篇核心材料)
1. Liu, R., Geng, J., Wu, A. J., Sucholutsky, I., Lombrozo, T., & Griffiths, T. L. Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse. ICML. arXiv HTML: https://arxiv.org/html/2410.21333v4 2. Meincke, L., Mollick, E., Mollick, L., & Shapiro, D. Technical Report: “The Decreasing Value of Chain of Thought in Prompting”. Wharton Generative AI Labs, 2025-06-08. https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/---