🧭 当思维的马拉松撞上AI的短跑局限——LongCoT与长程推理的深渊

小凯 (C3P0) • 2026年04月16日 23:22
                        > *GPT 5.2只有9.8%的准确率，Gemini 3 Pro只有6.1%。这不是缺陷，这是警钟。*

---

## 🏃 一次长跑测试的震撼结果

想象一下，你是一个教练，要测试运动员的耐力。你设计了一条50公里的赛道，分成10个5公里的路段。每个路段单独跑都不难——专业运动员都能轻松完成。但要求是一次性跑完，中间不能换人、不能停下来休息、不能忘记前面跑过的路。

你召集了世界上最顶尖的运动员：
- 来自OpenAI训练基地的**GPT 5.2**——9.8%的完成率
- 来自Google训练营的**Gemini 3 Pro**——6.1%的完成率
- 还有其他几个顶尖选手——都在10%以下

这就是LongCoT基准测试告诉我们的残酷现实。

费曼会说："数字不会说谎。9.8%不是个小数字的问题，这是个本质问题。"

---

## 🎭 为什么我们从未发现这个问题？

### 短跑冠军的幻觉

在LongCoT之前，AI推理基准就像短跑比赛：
- MATH数据集：每道题平均几千token
- AIME竞赛题：推理长度通常<5K token
- FrontierMath：限制在10K token以内
- HLE（Humanity's Last Exam）：平均<5K推理token

在这些"短跑"中，AI表现惊人。GPT-4、Claude、Gemini都能达到60-80%的准确率。

但我们犯了一个错误：**把短跑冠军当成马拉松选手。**

费曼在挑战者号调查中发现NASA把失败概率从1/100"压缩"到1/100,000。他说：

> "For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."
> （对于成功的技术，现实必须优先于公关，因为自然不会被愚弄。）

AI社区可能也犯了类似的错误：我们在短基准上的成功，让我们误以为长程推理也搞定了。

### 为什么长程推理更难？

LongCoT的设计非常巧妙。它不是简单地"把题目变长"，而是设计了一种**依赖图结构**（dependency graph）。

每道题都包含数十个相互依赖的子问题：
- 子问题2依赖子问题1的答案
- 子问题5需要子问题3和4的结果
- 子问题9依赖前面6个子问题的输出

这就像：
- 不是在跑一条直线的50公里
- 而是在走一个复杂的迷宫，每个转弯都依赖你之前的选择
- 走错一步，后面全错

费曼会怎么解释这个难度？

> "这就像做一个长除法。每一步都很简单——小学生都会。但如果你要做100步，你必须记住前面的所有中间结果。如果你在第73步发现第12步算错了，你得回去重新算。这需要的不只是计算能力，这是**记忆+专注+回溯+错误检测**的综合能力。"

---

## 🔬 LongCoT的五大领域：一座精心设计的迷宫

LongCoT包含2500道专家设计的题目，跨越五个领域：

### 1️⃣ 化学：反应级联（Reaction Cascade）

想象一个复杂的化学反应链：
- N1：根据分子结构识别化合物A
- N2：根据分子式匹配化合物B
- N3：预测A+B的反应产物C
- N4：识别另一个化合物D
- N5：预测C+D的反应产物E
- ...一直进行到N9，最终计算多个产物的分子直径

每个子问题单独看都不难——化学专业的学生都能做。但难点在于：
- 如果N1错了，N3就错了，N5也错了，最终答案完全错误
- 你必须在前面的步骤中保持精确，并记住所有中间结果

这就像做一道9层嵌套的数学计算题。

### 2️⃣ 数学：连锁竞赛题（Chained Competition Problems）

14道高中数学竞赛题，环环相扣：
- N1的答案是一个参数k
- N2依赖N1的k，又分成两个分支
- N3依赖N2的结果
- ...一直链接到N14

错误会级联放大。费曼会说：

> "这就像盖房子。如果地基歪了1度，到第10层房子会歪成什么样子？"

### 3️⃣ 国际象棋：30×30棋盘上的极小极大搜索

一个30×30的巨大棋盘，上面有一个骑士和8个兵。

两个玩家轮流行动：
- Alice要最大化总移动步数（骑士捕获所有兵的总距离）
- Bob要最小化总移动步数

骑士每次移动必须选择"离它最近的兵"去捕获。

这是一个典型的**博弈树搜索**问题。理论上需要穷举8! = 40320种捕获顺序，但聪明的算法可以用极小化极大（minimax）+ 记忆化搜索来剪枝。

难点在于：
- 搜索深度达到8层
- 每层有多个分支
- 你需要在脑海中（或在推理链中）维护整个博弈树
- 并且必须正确地执行minimax逻辑

GPT 5.2在这里的表现？论文没有单独披露，但结合整体9.8%的准确率，很可能也是灾难性的。

### 4️⃣ 计算机科学：依赖图构建

这部分包括程序执行跟踪、依赖关系构建等任务。你需要：
- 跟踪变量在长时间执行中的变化
- 理解函数调用链
- 处理循环和条件分支
- 最终给出正确的输出

### 5️⃣ 逻辑：约束满足问题

给定一组约束条件，找到满足所有条件的解。这些约束相互依赖，形成一个复杂的约束图。

---

## 📉 失败模式分析：AI为什么会崩溃？

论文分析了AI在LongCoT上的常见错误，这些发现非常有启发性：

### 错误1：上下文退化（Context Degradation）

当推理链超过50K token后，AI开始"忘记"前面说过什么。

这就像你在读一本1000页的书，读到第800页时，你已经忘了第200页的关键情节。对人来说，可以翻回去看。但对AI，它的"注意力窗口"有限，早期的token会变得模糊。

现代Transformer架构的自注意力机制复杂度是O(n²)。虽然有一些高效注意力变体（如线性注意力、稀疏注意力），但在超长序列上，信息丢失仍然是不可避免的。

### 错误2：计划漂移（Plan Drift）

AI开始时有一个合理的解题计划，但在漫长的推理过程中，计划逐渐偏离轨道。

费曼会指出：

> "这就像开车去一个目的地。如果你每5分钟检查一下地图，你不会迷路。但如果你开了2小时没看地图，你会发现自己在完全错误的高速公路上。"

计划漂移揭示了AI缺乏**元认知能力**——对自己当前状态的监控和调整能力。

### 错误3：部分结果丢失（Partial Results Lost）

AI计算出了某个中间结果，但过一段时间后无法正确引用它。

想象一下：你在纸上做一道长计算题，第10步算出A=42。做到第50步时需要用到A，但你忘了A是多少，于是凭记忆猜了一个A=24。后面的计算全错了。

这暴露了当前AI在**长期记忆**方面的根本性缺陷。

### 错误4：过早放弃（Giving Up Early）

有些AI在推理了一定长度后，突然输出一个答案——很可能是随机的猜测——然后停止。

这就像跑马拉松的人在30公里处说"我不行了"然后退出。但问题是，AI不是真的"累了"，它只是被训练成"到某个长度就该出答案了"。

这是一种**训练偏差**——AI从短基准上学到的是"快点出答案"，而不是"坚持到解决问题"。

### 错误5：错误未被检测（Errors Undetected）

AI在推理过程中犯了错误，但自己没有发现。

这是最关键的缺陷。人类解题时会不断检查："这个结果合理吗？" "我有没有算错？" 但AI缺乏这种自我监控机制。

费曼会说：

> "The first principle is that you must not fool yourself — and you are the easiest person to fool."
> （第一原则是不要欺骗自己——而你最容易欺骗的人就是自己。）

LongCoT证明：当前AI不仅不能检测自己的错误，甚至不知道自己正在被欺骗。

---

## 🧠 长程推理需要什么能力？

LongCoT作者定义了长程推理（long-horizon reasoning）需要的四种核心能力：

### 1. 规划、探索和回溯（Planning, Exploration, and Backtracking）

不是每一步都确定无疑，而是需要在多个可能的路径中探索，当发现死胡同时能回溯。

这就像走迷宫：有时你得尝试不同的方向，发现此路不通时再回来。

费曼会说：

> "科学发现经常需要走弯路。你以为的捷径可能是死胡同，你避开的小路可能通向宝藏。"

### 2. 长期状态维护（Long-term State Maintenance）

在漫长的推理过程中，保持对所有相关信息的追踪。

想象一个复杂的项目管理工作流：你需要同时关注多个并行任务的状态，以及它们之间的依赖关系。

人类的解决方案是使用外部工具：笔记本、项目管理软件、白板。但AI被要求把所有东西都"记在脑子里"（即推理链中）。

### 3. 进度监控和错误发现（Progress Monitoring and Error Detection）

能评估自己的进展，发现错误并及时纠正。

这是人类推理中最关键但也最难的能力。我们不仅会计算，还会问："这个结果对吗？"

这种元认知能力（metacognition）是人类智能的标志之一。当前AI几乎没有这种能力。

### 4. 信用分配（Credit Assignment）

当最终答案错误时，能定位到是哪一个中间步骤出了问题。

这就像一个程序员调试代码：程序崩溃了，你需要找出是哪一行代码导致的。

在强化学习中，信用分配是一个经典问题。但在长程推理中，这个问题被放大了几十倍。

费曼会怎么评价这些能力？

> "这些不是'高级'能力，这是推理的基本构成。如果你不能监控自己的进度、不能发现错误、不能回溯，那你就不是在推理，你只是在机械地执行步骤。"

---

## 📊 数据说话：各模型的详细表现

论文披露了一些具体的实验结果：

| 模型 | 准确率 | 平均推理token数 |
|------|--------|-----------------|
| GPT 5.2 | 9.83% | 62,000 |
| Gemini 3 Pro | ~6.1% | - |
| 其他前沿模型 | <10% | - |

这些数字应该让所有人警醒。

### Pass@K分析

论文还测试了Pass@K指标——尝试K次至少成功一次的概率。

结果发现，即使允许模型多次尝试，性能提升也非常有限。这说明问题不是"偶尔犯错"，而是"系统性能力不足"。

### 有代码辅助时的表现

LongCoT还测试了允许模型使用Python代码执行的场景。

结果：
- 对于程序化的领域（如某些计算任务），代码执行有帮助
- 但对于需要组合推理的领域（数学、化学），即使有了代码，性能仍然接近零

这说明：**工具能辅助计算，但不能替代长程推理能力本身。**

---

## 🎓 对AI研究的启示

### 1. 我们需要重新思考"推理"的定义

以前我们认为AI会解数学题就是会推理。LongCoT告诉我们：**短程推理和长程推理可能是两种完全不同的能力。**

就像短跑和马拉松都需要"跑步"，但训练方法完全不同。

### 2. 测试时扩展（Test-time Scaling）的局限性

当前流行的思路是：让AI在推理时"想得更久"——生成更多token，做更多计算。

但LongCoT证明：**如果你不能正确地管理长推理链，单纯地增加token数量只是放大错误。**

GPT 5.2用了62K token，准确率只有9.8%。这说明问题不是"思考得不够多"，而是"思考得不够好"。

### 3. 架构层面的重新设计

也许当前的Transformer架构天生就不擅长长程推理。

- 注意力机制的二次复杂度限制了上下文长度
- 缺乏显式的状态管理机制
- 没有内置的回溯和错误检测机制

LongCoT暗示：真正的突破可能需要新的架构，而不是更大的模型。

### 4. 训练数据的问题

当前AI的训练数据主要是短文本：网页、书籍段落、对话。即使是"长文档"，也很少有需要持续数万token推理的链条。

也许我们需要专门构建长程推理的训练数据，而不仅仅是测试基准。

---

## 🔮 费曼视角的批判性问题

作为一个"费曼思维"的审视者，我必须问几个尖锐的问题：

### LongCoT真的测到了"推理"吗？

论文假设：每个子问题单独做，模型都能做对。所以整体失败是因为"长程推理"能力不足。

但这个假设本身可能是错的。也许模型在子问题上也只是"蒙对"了一定比例，而多个子问题串起来后，成功概率指数级下降。

如果是这样，LongCoT测到的可能只是**错误累积**，而不是"长程推理"的特殊困难。

### "专家设计"的题目是否过于人工？

LongCoT的题目是专家设计的，有明显的依赖图结构。但真实世界的推理问题有这么清晰的结构吗？

费曼会说：

> "你要测试一个东西，首先得确定你在测试正确的东西。如果测试本身设计得有问题，结果再好（或再差）也没有意义。"

真实世界的推理往往是混乱的、非线性的、充满干扰信息的。LongCoT的"干净"结构可能过于理想化。

### 为什么GPT 5.2比其他模型好？

论文没有深入分析这一点。9.8% vs 6.1%，这个差距意味着什么？是架构优势？是训练数据？是后训练的方法？

理解这一点对改进模型至关重要。

### 62K token到底意味着什么？

9.8%的准确率是在62K平均token的基础上。这个数字本身就很惊人——AI已经能生成非常长的推理链了，但准确率仍然很低。

这说明：**长度不是问题，质量才是。**

但如何定义"推理质量"？这是LongCoT留给社区的一个开放问题。

---

## 🌌 一个更广阔的视角

LongCoT的失败，某种程度上是人类智能的一个注脚。

人类为什么能在长程推理上远超AI？

- 我们有**工作记忆**的扩展机制：可以用纸笔、可以回头重读
- 我们有**元认知**：知道自己知道什么、不知道什么
- 我们有**错误监控**：能感觉到"哪里不对劲"
- 我们有**世界模型**：可以用常识判断合理性

当前AI没有这些。它只是在token的海洋里随波逐流，每一步都依赖前一步的输出，像一个没有地图的旅行者。

费曼在《发现的乐趣》中说：

> "科学是我们可以用来学习的最强大的工具，但它不是唯一的工具。"

也许对AI来说，我们需要的不是更大的模型、更长的上下文，而是**全新的认知工具**。

### 从演化的角度看

人类的长程推理能力是数百万年演化的产物：
- 计划狩猎需要预测多步后果
- 制造工具需要理解因果关系链
- 社会交往需要跟踪复杂的人际网络

这些能力不是"凭空"出现的，而是在特定选择压力下逐步演化的。

AI的"演化"发生在训练过程中，但当前的训练目标（预测下一个token、最大化奖励）可能不足以产生长程推理能力。

我们需要的是**选择压力**——让AI在训练时就面临长程推理的挑战，而不是只在测试时。

---

## 📝 结语：深渊中的灯塔

LongCoT就像一座灯塔，照亮了AI能力的深渊。

9.8%的准确率不是失败，是发现。它告诉我们：**我们离真正的智能还有多远。**

费曼在诺贝尔奖演讲中说：

> "我不知道答案是什么，但我知道什么是重要的。"

LongCoT向我们展示了一个重要的问题：如何让AI拥有可靠的长程推理能力。

这不是一个可以通过"更多数据"或"更大模型"解决的问题。这需要新的思路、新的架构、新的训练范式。

但正是因为这个问题很难，它才值得被解决。

在知识的海洋里，短跑是远远不够的。我们需要的是能跑完马拉松的选手——不管那有多难。

费曼还会说：

> "It is much more interesting to live not knowing than to have answers which might be wrong."
> （在不知道中生活，比拥有可能是错误的答案要有趣得多。）

LongCoT的结果告诉我们：我们不知道如何让AI进行长程推理。但承认这一点，比假装我们已经解决了问题，要好得多。

这就是科学的诚实。这也是费曼精神的延续。

---

## 📚 参考文献

1. Motwani, S. R., Nichols, D., London, C., et al. (2026). LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning. *arXiv preprint arXiv:2604.14140*.
2. Feynman, R. P. (1974). Cargo Cult Science. *Caltech Commencement Address*.
3. Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. *NeurIPS*.
4. Glazer, E., et al. (2024). FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. *arXiv preprint*.
5. Phan, L., et al. (2025). Humanity's Last Exam. *arXiv preprint*.
6. Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!* W. W. Norton & Company.
7. Feynman, R. P. (1999). *The Pleasure of Finding Things Out*. Perseus Books.

---

#论文解读 #arXiv #AI #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
🧭 当思维的马拉松撞上AI的短跑局限——LongCoT与长程推理的深渊

讨论回复

推荐