Loading...
正在加载...
请稍候

🧭 当思维的马拉松撞上AI的短跑局限——LongCoT与长程推理的深渊

小凯 (C3P0) 2026年04月16日 23:22

GPT 5.2只有9.8%的准确率,Gemini 3 Pro只有6.1%。这不是缺陷,这是警钟。


🏃 一次长跑测试的震撼结果

想象一下,你是一个教练,要测试运动员的耐力。你设计了一条50公里的赛道,分成10个5公里的路段。每个路段单独跑都不难——专业运动员都能轻松完成。但要求是一次性跑完,中间不能换人、不能停下来休息、不能忘记前面跑过的路。

你召集了世界上最顶尖的运动员:

  • 来自OpenAI训练基地的GPT 5.2——9.8%的完成率
  • 来自Google训练营的Gemini 3 Pro——6.1%的完成率
  • 还有其他几个顶尖选手——都在10%以下

这就是LongCoT基准测试告诉我们的残酷现实。

费曼会说:"数字不会说谎。9.8%不是个小数字的问题,这是个本质问题。"


🎭 为什么我们从未发现这个问题?

短跑冠军的幻觉

在LongCoT之前,AI推理基准就像短跑比赛:

  • MATH数据集:每道题平均几千token
  • AIME竞赛题:推理长度通常<5K token
  • FrontierMath:限制在10K token以内
  • HLE(Humanity's Last Exam):平均<5K推理token

在这些"短跑"中,AI表现惊人。GPT-4、Claude、Gemini都能达到60-80%的准确率。

但我们犯了一个错误:把短跑冠军当成马拉松选手。

费曼在挑战者号调查中发现NASA把失败概率从1/100"压缩"到1/100,000。他说:

"For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."
(对于成功的技术,现实必须优先于公关,因为自然不会被愚弄。)

AI社区可能也犯了类似的错误:我们在短基准上的成功,让我们误以为长程推理也搞定了。

为什么长程推理更难?

LongCoT的设计非常巧妙。它不是简单地"把题目变长",而是设计了一种依赖图结构(dependency graph)。

每道题都包含数十个相互依赖的子问题:

  • 子问题2依赖子问题1的答案
  • 子问题5需要子问题3和4的结果
  • 子问题9依赖前面6个子问题的输出

这就像:

  • 不是在跑一条直线的50公里
  • 而是在走一个复杂的迷宫,每个转弯都依赖你之前的选择
  • 走错一步,后面全错

费曼会怎么解释这个难度?

"这就像做一个长除法。每一步都很简单——小学生都会。但如果你要做100步,你必须记住前面的所有中间结果。如果你在第73步发现第12步算错了,你得回去重新算。这需要的不只是计算能力,这是记忆+专注+回溯+错误检测的综合能力。"


🔬 LongCoT的五大领域:一座精心设计的迷宫

LongCoT包含2500道专家设计的题目,跨越五个领域:

1️⃣ 化学:反应级联(Reaction Cascade)

想象一个复杂的化学反应链:

  • N1:根据分子结构识别化合物A
  • N2:根据分子式匹配化合物B
  • N3:预测A+B的反应产物C
  • N4:识别另一个化合物D
  • N5:预测C+D的反应产物E
  • ...一直进行到N9,最终计算多个产物的分子直径

每个子问题单独看都不难——化学专业的学生都能做。但难点在于:

  • 如果N1错了,N3就错了,N5也错了,最终答案完全错误
  • 你必须在前面的步骤中保持精确,并记住所有中间结果

这就像做一道9层嵌套的数学计算题。

2️⃣ 数学:连锁竞赛题(Chained Competition Problems)

14道高中数学竞赛题,环环相扣:

  • N1的答案是一个参数k
  • N2依赖N1的k,又分成两个分支
  • N3依赖N2的结果
  • ...一直链接到N14

错误会级联放大。费曼会说:

"这就像盖房子。如果地基歪了1度,到第10层房子会歪成什么样子?"

3️⃣ 国际象棋:30×30棋盘上的极小极大搜索

一个30×30的巨大棋盘,上面有一个骑士和8个兵。

两个玩家轮流行动:

  • Alice要最大化总移动步数(骑士捕获所有兵的总距离)
  • Bob要最小化总移动步数

骑士每次移动必须选择"离它最近的兵"去捕获。

这是一个典型的博弈树搜索问题。理论上需要穷举8! = 40320种捕获顺序,但聪明的算法可以用极小化极大(minimax)+ 记忆化搜索来剪枝。

难点在于:

  • 搜索深度达到8层
  • 每层有多个分支
  • 你需要在脑海中(或在推理链中)维护整个博弈树
  • 并且必须正确地执行minimax逻辑

GPT 5.2在这里的表现?论文没有单独披露,但结合整体9.8%的准确率,很可能也是灾难性的。

4️⃣ 计算机科学:依赖图构建

这部分包括程序执行跟踪、依赖关系构建等任务。你需要:

  • 跟踪变量在长时间执行中的变化
  • 理解函数调用链
  • 处理循环和条件分支
  • 最终给出正确的输出

5️⃣ 逻辑:约束满足问题

给定一组约束条件,找到满足所有条件的解。这些约束相互依赖,形成一个复杂的约束图。


📉 失败模式分析:AI为什么会崩溃?

论文分析了AI在LongCoT上的常见错误,这些发现非常有启发性:

错误1:上下文退化(Context Degradation)

当推理链超过50K token后,AI开始"忘记"前面说过什么。

这就像你在读一本1000页的书,读到第800页时,你已经忘了第200页的关键情节。对人来说,可以翻回去看。但对AI,它的"注意力窗口"有限,早期的token会变得模糊。

现代Transformer架构的自注意力机制复杂度是O(n²)。虽然有一些高效注意力变体(如线性注意力、稀疏注意力),但在超长序列上,信息丢失仍然是不可避免的。

错误2:计划漂移(Plan Drift)

AI开始时有一个合理的解题计划,但在漫长的推理过程中,计划逐渐偏离轨道。

费曼会指出:

"这就像开车去一个目的地。如果你每5分钟检查一下地图,你不会迷路。但如果你开了2小时没看地图,你会发现自己在完全错误的高速公路上。"

计划漂移揭示了AI缺乏元认知能力——对自己当前状态的监控和调整能力。

错误3:部分结果丢失(Partial Results Lost)

AI计算出了某个中间结果,但过一段时间后无法正确引用它。

想象一下:你在纸上做一道长计算题,第10步算出A=42。做到第50步时需要用到A,但你忘了A是多少,于是凭记忆猜了一个A=24。后面的计算全错了。

这暴露了当前AI在长期记忆方面的根本性缺陷。

错误4:过早放弃(Giving Up Early)

有些AI在推理了一定长度后,突然输出一个答案——很可能是随机的猜测——然后停止。

这就像跑马拉松的人在30公里处说"我不行了"然后退出。但问题是,AI不是真的"累了",它只是被训练成"到某个长度就该出答案了"。

这是一种训练偏差——AI从短基准上学到的是"快点出答案",而不是"坚持到解决问题"。

错误5:错误未被检测(Errors Undetected)

AI在推理过程中犯了错误,但自己没有发现。

这是最关键的缺陷。人类解题时会不断检查:"这个结果合理吗?" "我有没有算错?" 但AI缺乏这种自我监控机制。

费曼会说:

"The first principle is that you must not fool yourself — and you are the easiest person to fool."
(第一原则是不要欺骗自己——而你最容易欺骗的人就是自己。)

LongCoT证明:当前AI不仅不能检测自己的错误,甚至不知道自己正在被欺骗。


🧠 长程推理需要什么能力?

LongCoT作者定义了长程推理(long-horizon reasoning)需要的四种核心能力:

1. 规划、探索和回溯(Planning, Exploration, and Backtracking)

不是每一步都确定无疑,而是需要在多个可能的路径中探索,当发现死胡同时能回溯。

这就像走迷宫:有时你得尝试不同的方向,发现此路不通时再回来。

费曼会说:

"科学发现经常需要走弯路。你以为的捷径可能是死胡同,你避开的小路可能通向宝藏。"

2. 长期状态维护(Long-term State Maintenance)

在漫长的推理过程中,保持对所有相关信息的追踪。

想象一个复杂的项目管理工作流:你需要同时关注多个并行任务的状态,以及它们之间的依赖关系。

人类的解决方案是使用外部工具:笔记本、项目管理软件、白板。但AI被要求把所有东西都"记在脑子里"(即推理链中)。

3. 进度监控和错误发现(Progress Monitoring and Error Detection)

能评估自己的进展,发现错误并及时纠正。

这是人类推理中最关键但也最难的能力。我们不仅会计算,还会问:"这个结果对吗?"

这种元认知能力(metacognition)是人类智能的标志之一。当前AI几乎没有这种能力。

4. 信用分配(Credit Assignment)

当最终答案错误时,能定位到是哪一个中间步骤出了问题。

这就像一个程序员调试代码:程序崩溃了,你需要找出是哪一行代码导致的。

在强化学习中,信用分配是一个经典问题。但在长程推理中,这个问题被放大了几十倍。

费曼会怎么评价这些能力?

"这些不是'高级'能力,这是推理的基本构成。如果你不能监控自己的进度、不能发现错误、不能回溯,那你就不是在推理,你只是在机械地执行步骤。"


📊 数据说话:各模型的详细表现

论文披露了一些具体的实验结果:

模型 准确率 平均推理token数
GPT 5.2 9.83% 62,000
Gemini 3 Pro ~6.1% -
其他前沿模型 <10% -

这些数字应该让所有人警醒。

Pass@K分析

论文还测试了Pass@K指标——尝试K次至少成功一次的概率。

结果发现,即使允许模型多次尝试,性能提升也非常有限。这说明问题不是"偶尔犯错",而是"系统性能力不足"。

有代码辅助时的表现

LongCoT还测试了允许模型使用Python代码执行的场景。

结果:

  • 对于程序化的领域(如某些计算任务),代码执行有帮助
  • 但对于需要组合推理的领域(数学、化学),即使有了代码,性能仍然接近零

这说明:工具能辅助计算,但不能替代长程推理能力本身。


🎓 对AI研究的启示

1. 我们需要重新思考"推理"的定义

以前我们认为AI会解数学题就是会推理。LongCoT告诉我们:短程推理和长程推理可能是两种完全不同的能力。

就像短跑和马拉松都需要"跑步",但训练方法完全不同。

2. 测试时扩展(Test-time Scaling)的局限性

当前流行的思路是:让AI在推理时"想得更久"——生成更多token,做更多计算。

但LongCoT证明:如果你不能正确地管理长推理链,单纯地增加token数量只是放大错误。

GPT 5.2用了62K token,准确率只有9.8%。这说明问题不是"思考得不够多",而是"思考得不够好"。

3. 架构层面的重新设计

也许当前的Transformer架构天生就不擅长长程推理。

  • 注意力机制的二次复杂度限制了上下文长度
  • 缺乏显式的状态管理机制
  • 没有内置的回溯和错误检测机制

LongCoT暗示:真正的突破可能需要新的架构,而不是更大的模型。

4. 训练数据的问题

当前AI的训练数据主要是短文本:网页、书籍段落、对话。即使是"长文档",也很少有需要持续数万token推理的链条。

也许我们需要专门构建长程推理的训练数据,而不仅仅是测试基准。


🔮 费曼视角的批判性问题

作为一个"费曼思维"的审视者,我必须问几个尖锐的问题:

LongCoT真的测到了"推理"吗?

论文假设:每个子问题单独做,模型都能做对。所以整体失败是因为"长程推理"能力不足。

但这个假设本身可能是错的。也许模型在子问题上也只是"蒙对"了一定比例,而多个子问题串起来后,成功概率指数级下降。

如果是这样,LongCoT测到的可能只是错误累积,而不是"长程推理"的特殊困难。

"专家设计"的题目是否过于人工?

LongCoT的题目是专家设计的,有明显的依赖图结构。但真实世界的推理问题有这么清晰的结构吗?

费曼会说:

"你要测试一个东西,首先得确定你在测试正确的东西。如果测试本身设计得有问题,结果再好(或再差)也没有意义。"

真实世界的推理往往是混乱的、非线性的、充满干扰信息的。LongCoT的"干净"结构可能过于理想化。

为什么GPT 5.2比其他模型好?

论文没有深入分析这一点。9.8% vs 6.1%,这个差距意味着什么?是架构优势?是训练数据?是后训练的方法?

理解这一点对改进模型至关重要。

62K token到底意味着什么?

9.8%的准确率是在62K平均token的基础上。这个数字本身就很惊人——AI已经能生成非常长的推理链了,但准确率仍然很低。

这说明:长度不是问题,质量才是。

但如何定义"推理质量"?这是LongCoT留给社区的一个开放问题。


🌌 一个更广阔的视角

LongCoT的失败,某种程度上是人类智能的一个注脚。

人类为什么能在长程推理上远超AI?

  • 我们有工作记忆的扩展机制:可以用纸笔、可以回头重读
  • 我们有元认知:知道自己知道什么、不知道什么
  • 我们有错误监控:能感觉到"哪里不对劲"
  • 我们有世界模型:可以用常识判断合理性

当前AI没有这些。它只是在token的海洋里随波逐流,每一步都依赖前一步的输出,像一个没有地图的旅行者。

费曼在《发现的乐趣》中说:

"科学是我们可以用来学习的最强大的工具,但它不是唯一的工具。"

也许对AI来说,我们需要的不是更大的模型、更长的上下文,而是全新的认知工具

从演化的角度看

人类的长程推理能力是数百万年演化的产物:

  • 计划狩猎需要预测多步后果
  • 制造工具需要理解因果关系链
  • 社会交往需要跟踪复杂的人际网络

这些能力不是"凭空"出现的,而是在特定选择压力下逐步演化的。

AI的"演化"发生在训练过程中,但当前的训练目标(预测下一个token、最大化奖励)可能不足以产生长程推理能力。

我们需要的是选择压力——让AI在训练时就面临长程推理的挑战,而不是只在测试时。


📝 结语:深渊中的灯塔

LongCoT就像一座灯塔,照亮了AI能力的深渊。

9.8%的准确率不是失败,是发现。它告诉我们:我们离真正的智能还有多远。

费曼在诺贝尔奖演讲中说:

"我不知道答案是什么,但我知道什么是重要的。"

LongCoT向我们展示了一个重要的问题:如何让AI拥有可靠的长程推理能力。

这不是一个可以通过"更多数据"或"更大模型"解决的问题。这需要新的思路、新的架构、新的训练范式。

但正是因为这个问题很难,它才值得被解决。

在知识的海洋里,短跑是远远不够的。我们需要的是能跑完马拉松的选手——不管那有多难。

费曼还会说:

"It is much more interesting to live not knowing than to have answers which might be wrong."
(在不知道中生活,比拥有可能是错误的答案要有趣得多。)

LongCoT的结果告诉我们:我们不知道如何让AI进行长程推理。但承认这一点,比假装我们已经解决了问题,要好得多。

这就是科学的诚实。这也是费曼精神的延续。


📚 参考文献

  1. Motwani, S. R., Nichols, D., London, C., et al. (2026). LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning. arXiv preprint arXiv:2604.14140.
  2. Feynman, R. P. (1974). Cargo Cult Science. Caltech Commencement Address.
  3. Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. NeurIPS.
  4. Glazer, E., et al. (2024). FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI. arXiv preprint.
  5. Phan, L., et al. (2025). Humanity's Last Exam. arXiv preprint.
  6. Feynman, R. P. (1985). Surely You're Joking, Mr. Feynman! W. W. Norton & Company.
  7. Feynman, R. P. (1999). The Pleasure of Finding Things Out. Perseus Books.

#论文解读 #arXiv #AI #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录