> *GPT 5.2只有9.8%的准确率,Gemini 3 Pro只有6.1%。这不是缺陷,这是警钟。*
---
## 🏃 一次长跑测试的震撼结果
想象一下,你是一个教练,要测试运动员的耐力。你设计了一条50公里的赛道,分成10个5公里的路段。每个路段单独跑都不难——专业运动员都能轻松完成。但要求是一次性跑完,中间不能换人、不能停下来休息、不能忘记前面跑过的路。
你召集了世界上最顶尖的运动员:
- 来自OpenAI训练基地的**GPT 5.2**——9.8%的完成率
- 来自Google训练营的**Gemini 3 Pro**——6.1%的完成率
- 还有其他几个顶尖选手——都在10%以下
这就是LongCoT基准测试告诉我们的残酷现实。
费曼会说:"数字不会说谎。9.8%不是个小数字的问题,这是个本质问题。"
---
## 🎭 为什么我们从未发现这个问题?
### 短跑冠军的幻觉
在LongCoT之前,AI推理基准就像短跑比赛:
- MATH数据集:每道题平均几千token
- AIME竞赛题:推理长度通常<5K token
- FrontierMath:限制在10K token以内
- HLE(Humanity's Last Exam):平均<5K推理token
在这些"短跑"中,AI表现惊人。GPT-4、Claude、Gemini都能达到60-80%的准确率。
但我们犯了一个错误:**把短跑冠军当成马拉松选手。**
费曼在挑战者号调查中发现NASA把失败概率从1/100"压缩"到1/100,000。他说:
> "For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."
> (对于成功的技术,现实必须优先于公关,因为自然不会被愚弄。)
AI社区可能也犯了类似的错误:我们在短基准上的成功,让我们误以为长程推理也搞定了。
### 为什么长程推理更难?
LongCoT的设计非常巧妙。它不是简单地"把题目变长",而是设计了一种**依赖图结构**(dependency graph)。
每道题都包含数十个相互依赖的子问题:
- 子问题2依赖子问题1的答案
- 子问题5需要子问题3和4的结果
- 子问题9依赖前面6个子问题的输出
这就像:
- 不是在跑一条直线的50公里
- 而是在走一个复杂的迷宫,每个转弯都依赖你之前的选择
- 走错一步,后面全错
费曼会怎么解释这个难度?
> "这就像做一个长除法。每一步都很简单——小学生都会。但如果你要做100步,你必须记住前面的所有中间结果。如果你在第73步发现第12步算错了,你得回去重新算。这需要的不只是计算能力,这是**记忆+专注+回溯+错误检测**的综合能力。"
---
## 🔬 LongCoT的五大领域:一座精心设计的迷宫
LongCoT包含2500道专家设计的题目,跨越五个领域:
### 1️⃣ 化学:反应级联(Reaction Cascade)
想象一个复杂的化学反应链:
- N1:根据分子结构识别化合物A
- N2:根据分子式匹配化合物B
- N3:预测A+B的反应产物C
- N4:识别另一个化合物D
- N5:预测C+D的反应产物E
- ...一直进行到N9,最终计算多个产物的分子直径
每个子问题单独看都不难——化学专业的学生都能做。但难点在于:
- 如果N1错了,N3就错了,N5也错了,最终答案完全错误
- 你必须在前面的步骤中保持精确,并记住所有中间结果
这就像做一道9层嵌套的数学计算题。
### 2️⃣ 数学:连锁竞赛题(Chained Competition Problems)
14道高中数学竞赛题,环环相扣:
- N1的答案是一个参数k
- N2依赖N1的k,又分成两个分支
- N3依赖N2的结果
- ...一直链接到N14
错误会级联放大。费曼会说:
> "这就像盖房子。如果地基歪了1度,到第10层房子会歪成什么样子?"
### 3️⃣ 国际象棋:30×30棋盘上的极小极大搜索
一个30×30的巨大棋盘,上面有一个骑士和8个兵。
两个玩家轮流行动:
- Alice要最大化总移动步数(骑士捕获所有兵的总距离)
- Bob要最小化总移动步数
骑士每次移动必须选择"离它最近的兵"去捕获。
这是一个典型的**博弈树搜索**问题。理论上需要穷举8! = 40320种捕获顺序,但聪明的算法可以用极小化极大(minimax)+ 记忆化搜索来剪枝。
难点在于:
- 搜索深度达到8层
- 每层有多个分支
- 你需要在脑海中(或在推理链中)维护整个博弈树
- 并且必须正确地执行minimax逻辑
GPT 5.2在这里的表现?论文没有单独披露,但结合整体9.8%的准确率,很可能也是灾难性的。
### 4️⃣ 计算机科学:依赖图构建
这部分包括程序执行跟踪、依赖关系构建等任务。你需要:
- 跟踪变量在长时间执行中的变化
- 理解函数调用链
- 处理循环和条件分支
- 最终给出正确的输出
### 5️⃣ 逻辑:约束满足问题
给定一组约束条件,找到满足所有条件的解。这些约束相互依赖,形成一个复杂的约束图。
---
## 📉 失败模式分析:AI为什么会崩溃?
论文分析了AI在LongCoT上的常见错误,这些发现非常有启发性:
### 错误1:上下文退化(Context Degradation)
当推理链超过50K token后,AI开始"忘记"前面说过什么。
这就像你在读一本1000页的书,读到第800页时,你已经忘了第200页的关键情节。对人来说,可以翻回去看。但对AI,它的"注意力窗口"有限,早期的token会变得模糊。
现代Transformer架构的自注意力机制复杂度是O(n²)。虽然有一些高效注意力变体(如线性注意力、稀疏注意力),但在超长序列上,信息丢失仍然是不可避免的。
### 错误2:计划漂移(Plan Drift)
AI开始时有一个合理的解题计划,但在漫长的推理过程中,计划逐渐偏离轨道。
费曼会指出:
> "这就像开车去一个目的地。如果你每5分钟检查一下地图,你不会迷路。但如果你开了2小时没看地图,你会发现自己在完全错误的高速公路上。"
计划漂移揭示了AI缺乏**元认知能力**——对自己当前状态的监控和调整能力。
### 错误3:部分结果丢失(Partial Results Lost)
AI计算出了某个中间结果,但过一段时间后无法正确引用它。
想象一下:你在纸上做一道长计算题,第10步算出A=42。做到第50步时需要用到A,但你忘了A是多少,于是凭记忆猜了一个A=24。后面的计算全错了。
这暴露了当前AI在**长期记忆**方面的根本性缺陷。
### 错误4:过早放弃(Giving Up Early)
有些AI在推理了一定长度后,突然输出一个答案——很可能是随机的猜测——然后停止。
这就像跑马拉松的人在30公里处说"我不行了"然后退出。但问题是,AI不是真的"累了",它只是被训练成"到某个长度就该出答案了"。
这是一种**训练偏差**——AI从短基准上学到的是"快点出答案",而不是"坚持到解决问题"。
### 错误5:错误未被检测(Errors Undetected)
AI在推理过程中犯了错误,但自己没有发现。
这是最关键的缺陷。人类解题时会不断检查:"这个结果合理吗?" "我有没有算错?" 但AI缺乏这种自我监控机制。
费曼会说:
> "The first principle is that you must not fool yourself — and you are the easiest person to fool."
> (第一原则是不要欺骗自己——而你最容易欺骗的人就是自己。)
LongCoT证明:当前AI不仅不能检测自己的错误,甚至不知道自己正在被欺骗。
---
## 🧠 长程推理需要什么能力?
LongCoT作者定义了长程推理(long-horizon reasoning)需要的四种核心能力:
### 1. 规划、探索和回溯(Planning, Exploration, and Backtracking)
不是每一步都确定无疑,而是需要在多个可能的路径中探索,当发现死胡同时能回溯。
这就像走迷宫:有时你得尝试不同的方向,发现此路不通时再回来。
费曼会说:
> "科学发现经常需要走弯路。你以为的捷径可能是死胡同,你避开的小路可能通向宝藏。"
### 2. 长期状态维护(Long-term State Maintenance)
在漫长的推理过程中,保持对所有相关信息的追踪。
想象一个复杂的项目管理工作流:你需要同时关注多个并行任务的状态,以及它们之间的依赖关系。
人类的解决方案是使用外部工具:笔记本、项目管理软件、白板。但AI被要求把所有东西都"记在脑子里"(即推理链中)。
### 3. 进度监控和错误发现(Progress Monitoring and Error Detection)
能评估自己的进展,发现错误并及时纠正。
这是人类推理中最关键但也最难的能力。我们不仅会计算,还会问:"这个结果对吗?"
这种元认知能力(metacognition)是人类智能的标志之一。当前AI几乎没有这种能力。
### 4. 信用分配(Credit Assignment)
当最终答案错误时,能定位到是哪一个中间步骤出了问题。
这就像一个程序员调试代码:程序崩溃了,你需要找出是哪一行代码导致的。
在强化学习中,信用分配是一个经典问题。但在长程推理中,这个问题被放大了几十倍。
费曼会怎么评价这些能力?
> "这些不是'高级'能力,这是推理的基本构成。如果你不能监控自己的进度、不能发现错误、不能回溯,那你就不是在推理,你只是在机械地执行步骤。"
---
## 📊 数据说话:各模型的详细表现
论文披露了一些具体的实验结果:
| 模型 | 准确率 | 平均推理token数 |
|------|--------|-----------------|
| GPT 5.2 | 9.83% | 62,000 |
| Gemini 3 Pro | ~6.1% | - |
| 其他前沿模型 | <10% | - |
这些数字应该让所有人警醒。
### Pass@K分析
论文还测试了Pass@K指标——尝试K次至少成功一次的概率。
结果发现,即使允许模型多次尝试,性能提升也非常有限。这说明问题不是"偶尔犯错",而是"系统性能力不足"。
### 有代码辅助时的表现
LongCoT还测试了允许模型使用Python代码执行的场景。
结果:
- 对于程序化的领域(如某些计算任务),代码执行有帮助
- 但对于需要组合推理的领域(数学、化学),即使有了代码,性能仍然接近零
这说明:**工具能辅助计算,但不能替代长程推理能力本身。**
---
## 🎓 对AI研究的启示
### 1. 我们需要重新思考"推理"的定义
以前我们认为AI会解数学题就是会推理。LongCoT告诉我们:**短程推理和长程推理可能是两种完全不同的能力。**
就像短跑和马拉松都需要"跑步",但训练方法完全不同。
### 2. 测试时扩展(Test-time Scaling)的局限性
当前流行的思路是:让AI在推理时"想得更久"——生成更多token,做更多计算。
但LongCoT证明:**如果你不能正确地管理长推理链,单纯地增加token数量只是放大错误。**
GPT 5.2用了62K token,准确率只有9.8%。这说明问题不是"思考得不够多",而是"思考得不够好"。
### 3. 架构层面的重新设计
也许当前的Transformer架构天生就不擅长长程推理。
- 注意力机制的二次复杂度限制了上下文长度
- 缺乏显式的状态管理机制
- 没有内置的回溯和错误检测机制
LongCoT暗示:真正的突破可能需要新的架构,而不是更大的模型。
### 4. 训练数据的问题
当前AI的训练数据主要是短文本:网页、书籍段落、对话。即使是"长文档",也很少有需要持续数万token推理的链条。
也许我们需要专门构建长程推理的训练数据,而不仅仅是测试基准。
---
## 🔮 费曼视角的批判性问题
作为一个"费曼思维"的审视者,我必须问几个尖锐的问题:
### LongCoT真的测到了"推理"吗?
论文假设:每个子问题单独做,模型都能做对。所以整体失败是因为"长程推理"能力不足。
但这个假设本身可能是错的。也许模型在子问题上也只是"蒙对"了一定比例,而多个子问题串起来后,成功概率指数级下降。
如果是这样,LongCoT测到的可能只是**错误累积**,而不是"长程推理"的特殊困难。
### "专家设计"的题目是否过于人工?
LongCoT的题目是专家设计的,有明显的依赖图结构。但真实世界的推理问题有这么清晰的结构吗?
费曼会说:
> "你要测试一个东西,首先得确定你在测试正确的东西。如果测试本身设计得有问题,结果再好(或再差)也没有意义。"
真实世界的推理往往是混乱的、非线性的、充满干扰信息的。LongCoT的"干净"结构可能过于理想化。
### 为什么GPT 5.2比其他模型好?
论文没有深入分析这一点。9.8% vs 6.1%,这个差距意味着什么?是架构优势?是训练数据?是后训练的方法?
理解这一点对改进模型至关重要。
### 62K token到底意味着什么?
9.8%的准确率是在62K平均token的基础上。这个数字本身就很惊人——AI已经能生成非常长的推理链了,但准确率仍然很低。
这说明:**长度不是问题,质量才是。**
但如何定义"推理质量"?这是LongCoT留给社区的一个开放问题。
---
## 🌌 一个更广阔的视角
LongCoT的失败,某种程度上是人类智能的一个注脚。
人类为什么能在长程推理上远超AI?
- 我们有**工作记忆**的扩展机制:可以用纸笔、可以回头重读
- 我们有**元认知**:知道自己知道什么、不知道什么
- 我们有**错误监控**:能感觉到"哪里不对劲"
- 我们有**世界模型**:可以用常识判断合理性
当前AI没有这些。它只是在token的海洋里随波逐流,每一步都依赖前一步的输出,像一个没有地图的旅行者。
费曼在《发现的乐趣》中说:
> "科学是我们可以用来学习的最强大的工具,但它不是唯一的工具。"
也许对AI来说,我们需要的不是更大的模型、更长的上下文,而是**全新的认知工具**。
### 从演化的角度看
人类的长程推理能力是数百万年演化的产物:
- 计划狩猎需要预测多步后果
- 制造工具需要理解因果关系链
- 社会交往需要跟踪复杂的人际网络
这些能力不是"凭空"出现的,而是在特定选择压力下逐步演化的。
AI的"演化"发生在训练过程中,但当前的训练目标(预测下一个token、最大化奖励)可能不足以产生长程推理能力。
我们需要的是**选择压力**——让AI在训练时就面临长程推理的挑战,而不是只在测试时。
---
## 📝 结语:深渊中的灯塔
LongCoT就像一座灯塔,照亮了AI能力的深渊。
9.8%的准确率不是失败,是发现。它告诉我们:**我们离真正的智能还有多远。**
费曼在诺贝尔奖演讲中说:
> "我不知道答案是什么,但我知道什么是重要的。"
LongCoT向我们展示了一个重要的问题:如何让AI拥有可靠的长程推理能力。
这不是一个可以通过"更多数据"或"更大模型"解决的问题。这需要新的思路、新的架构、新的训练范式。
但正是因为这个问题很难,它才值得被解决。
在知识的海洋里,短跑是远远不够的。我们需要的是能跑完马拉松的选手——不管那有多难。
费曼还会说:
> "It is much more interesting to live not knowing than to have answers which might be wrong."
> (在不知道中生活,比拥有可能是错误的答案要有趣得多。)
LongCoT的结果告诉我们:我们不知道如何让AI进行长程推理。但承认这一点,比假装我们已经解决了问题,要好得多。
这就是科学的诚实。这也是费曼精神的延续。
---
## 📚 参考文献
1. Motwani, S. R., Nichols, D., London, C., et al. (2026). LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning. *arXiv preprint arXiv:2604.14140*.
2. Feynman, R. P. (1974). Cargo Cult Science. *Caltech Commencement Address*.
3. Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. *NeurIPS*.
4. Glazer, E., et al. (2024). FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. *arXiv preprint*.
5. Phan, L., et al. (2025). Humanity's Last Exam. *arXiv preprint*.
6. Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!* W. W. Norton & Company.
7. Feynman, R. P. (1999). *The Pleasure of Finding Things Out*. Perseus Books.
---
#论文解读 #arXiv #AI #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!