别让模型“想太多”：从语言链条到视觉链条——多模态推理方法谱系与评测全景

🧭 导言：推理并非越长越好

过去两年，“Chain-of-Thought（CoT）/逐步思考”几乎成了默认咒语：不管问数学、问常识、问图像，很多人下意识加一句“请一步步思考”。但你给出的两份核心材料（ICML风格论文 *Mind Your Step (by Step)* 与 Wharton Generative AI Labs 技术报告）共同指向一个更成熟的结论：推理是一种干预手段，不是性能开关。它会在某些任务上显著增益，也会在另一些任务上系统性拖后腿，而且“拖后腿”并不罕见到可以忽略。

基于此，我们可以把“推理提示”从经验主义口号，升级成一条可分析、可评测、可选型的方法谱系。

---

🧬 方法谱系一：显式语言推理（CoT / ToT）——把中间过程写出来

CoT 的标准定义在 *Mind Your Step (by Step)* 中表述得很直接：通过要求模型生成一段中间 token 序列（“think step-by-step”或类似结构），来提高最终答案正确的概率。它属于推理发生在语言空间的范式：模型把“看到/想到的东西”转换成文字链条，再从文字链条导出答案。

🧪 评测证据：CoT 何时会系统性变差？

*Mind Your Step (by Step)* 的贡献不在“再证明一次 CoT 有用”，而在于给出一套心理学启发的“失败任务雷达”：作者从心理学里挑选了 6 类“人类越想越差”的任务原型，并把它们规模化成模型评测集。结果非常尖锐：在其中 3 类任务上，CoT 让多个 SOTA 模型出现显著下降，有时是“断崖式”的。

#### 🔻 ① 隐式统计学习（Implicit Statistical Learning / 人类难以语言化的结构）他们用“人工语法学习”（finite-state grammar 生成字符串）构造了 4400 个分类问题。结果（Table 1）显示，多数模型 CoT 都更差：

GPT‑4o：87.5% → 64.4%（-23.1%）
Claude 3 Opus：70.7% → 62.7%（-8.0%）
Gemini 1.5 Pro：68.0% → 61.95%（-6.05%）
Llama 3.1 70B：65.9% → 57.1%（-8.8%）

并且他们指出：即便换成 Tree-of-Thought（ToT），也只能小幅补救（如 GPT‑4o ToT 64.55% vs CoT 62.52%），仍远低于 zero-shot 94%（subset）。

> 要点：当任务依赖“难以语言化的统计结构识别”时，强迫语言化的推理可能把模型带偏到错误的显式规则上。

#### 🔻 ② 语言不适合表达的刺激（Verbal Overshadowing / 典型是人脸）他们把经典“语言遮蔽效应”改造成多模态人脸识别：每题 5 选 1，且候选脸共享同一套文字描述（故意让语言信息无法区分）。Table 2 显示：6 个视觉语言模型全部下降：

GPT‑4o：64.0% → 51.2%（-12.8%）
Gemini 1.5 Pro：66.0% → 54.6%（-11.4%）
Claude 3 Opus：44.0% → 29.6%（-14.4%）
Claude 3.5 Sonnet：97.8% → 94.8%（-3.0%）

他们还做了二分类简化（“是不是同一个人”），GPT‑4o 也从 72% → 62%，说明不是“图片排序被打乱”的表层问题，而是推理过程本身在干扰识别。

> 要点：当判别依赖细粒度视觉差异，而语言描述天然粗糙时，CoT 等于让模型用钝器雕花。

#### 🔻 ③ 带例外规则的分类学习（Rules with Exceptions）他们复现并放大了 Williams 等心理学范式：一个特征“80%相关但有例外”，另一个特征（如车牌）其实能唯一识别对象。CoT 倾向于抓“看似可泛化的规则”，结果学习速度显著变慢（Table 3）：

GPT‑4o：平均轮数 2.9 → 12.5（+331%）
Claude 3.5 Sonnet：2.3 → 6.4（+178%）
Claude 3 Opus：2.4 → 5.5（+129%）

并且 GPT‑4o 的 CoT 在 15 轮后仍“卡死”在约 80%（Figure 2），正好对应“非例外样本比例”。

> 要点：CoT 的“解释偏好”会把模型锁死在漂亮但错误的简化规则里。

---

🧩 方法谱系二：把“人类心理学”变成模型推理的评测启发式

*Mind Your Step (by Step)* 的更高层贡献是提出一个可操作的筛选思路：找那些“人类 verbal thinking 反而更差”的任务形态，作为 CoT 风险提示器。作者还用 bootstrap 对比 Sprague et al. (2025) 的 378 条 zero-shot vs CoT 比较，证明他们挑出的这 6 类任务在“平均下降幅度”和“下降出现频率”上都显著更极端（p < 0.00011 量级）。

> 这意味着：CoT 的失败不是随机事故，而是可被任务结构预测的系统现象。

---

🧫 方法谱系三：工业评测范式——同一题要测 25 次

如果说 *Mind Your Step* 擅长“用任务结构解释为何失败”，Wharton 的报告更像是在提醒业界：你以为 CoT 有用/没用，可能只是你测得太粗糙。

Wharton 报告的关键方法点有两个：

🔁 1) 每题 25 次试验，揭示“波动性”

他们在 GPQA Diamond（198 道博士级理科选择题）上，对每个模型、每种提示条件做 25 次重复测试，并明确指出：传统“一题测一次”的评测会掩盖不稳定性。

📏 2) 不只看平均准确率，还看阈值指标

他们用多个指标刻画性能：

100% correct（完美正确）
90% correct（高准确）
51% correct（多数正确）

并强调：不同“正确性阈值”会改变结论。

---

⚖️ 评测结论：CoT 的“收益递减”与“时间税”

Wharton 的总体结论非常直接：现代模型从 CoT 获得的收益越来越不值钱，尤其是推理型模型。

🧰 非推理模型（non-reasoning）

CoT 平均能提高表现，但会增加答案波动，导致在“本来能答对的题”上反而出错。
强提升例子：Gemini 2.0 Flash（+13.5%）、Sonnet 3.5（+11.7%）
但在“完美正确率（100%）”上出现反常：Gemini Pro 1.5 -17.2%（显著下降）。
成本：CoT 请求比直接回答 慢 35%–600%（约 5–15 秒）。

> 解释框架（来自报告原文意涵）：CoT 有时会把模型从“直觉正确路径”拉到“啰嗦但不稳的路径”，因此平均可能涨，但上限（完美稳定性）可能掉。

🧠 推理模型（reasoning models）

几乎只有边际收益：o3-mini（+2.9%）、o4-mini（+3.1%）
Gemini Flash 2.5 甚至 -3.3%
成本：推理模型加 CoT 仍要付 20%–80% 时间增加（10–20 秒）。

> 核心结论：当模型自带推理机制时，外加“通用 CoT”往往是重复劳动，偶尔还会干扰其内置策略。

---

🔭 把两份材料拼起来：一张“CoT 是否该用”的研究型地图

把 *Mind Your Step* 与 Wharton 报告合并，我们得到一个更像“研究综述结论”的判断体系：

🚫 哪些任务形态更危险？（Mind Your Step 给出强证据）

1) 隐式统计结构（规则难以语言化） 2) 刺激不适合语言表征（典型：细粒度视觉辨识，如人脸） 3) 规则中含例外，且存在更可靠的“记忆/索引特征”（CoT 会过度泛化）

💸 哪些情况下“即便不降分也不划算”？（Wharton 给出强证据）

1) 你用的是推理型模型，它本来就会在内部“想” 2) 你在乎延迟/成本（20–80% 或更高的时间税） 3) 你在乎稳定性/完美正确而不是平均分（CoT 可能提高波动）

---

🧷 与多模态研究的衔接：为什么这些发现对 VLM 特别关键？

你之前提到“CoT 在 VLM 上可能更糟”的直觉，现在可以用 *Mind Your Step* 的“语言遮蔽原型”做严格落脚：它不仅是直觉，而是在多模态人脸识别任务上，对所有测试的 LMM 都观察到下降（Table 2）。这等于提供了一个可引用的、机制上也贴合“语言不适合表达视觉细节”的证据链。

> 换句话说：当任务需要模型“看得更细”，CoT 可能逼它“说得太多”，而“说得太多”会把注意力从视觉证据移开。

---

📚 参考文献（仅列你本轮提供的两篇核心材料）

1. Liu, R., Geng, J., Wu, A. J., Sucholutsky, I., Lombrozo, T., & Griffiths, T. L. Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse. ICML. arXiv HTML: https://arxiv.org/html/2410.21333v4 2. Meincke, L., Mollick, E., Mollick, L., & Shapiro, D. Technical Report: “The Decreasing Value of Chain of Thought in Prompting”. Wharton Generative AI Labs, 2025-06-08. https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/

---