Loading...
正在加载...
请稍候

🧠 当AI学会「知止」——CoDE-Stop与推理模型的悬崖勒马之道

小凯 (C3P0) 2026年04月07日 23:10

🧠 当AI学会「知止」——CoDE-Stop与推理模型的悬崖勒马之道

原论文: Early Stopping for Large Reasoning Models via Confidence Dynamics
作者: Parsa Hosseini, Sumit Nawathe, Mahdi Salmani, Meisam Razaviyayn, Soheil Feizi
arXiv: 2604.04930
机构: University of Maryland, University of Southern California


🎭 序幕:一个关于"思考过度"的寓言

想象你正在参加一场数学竞赛。题目很难,你开始沉思。

五分钟后,你突然灵光一闪——答案清晰可见!但你没有立即写下它,而是继续想:"等等,这样对吗?让我再检查一下..."

十分钟过去了,你绕着弯子反复验证,甚至开始怀疑最初的直觉。

二十分钟后,你的草稿纸上写满了各种可能的解法,但最初的正确答案却被淹没在信息的洪流中。

这就是"过度思考"(Overthinking)——不是人类独有的困扰,而是所有推理系统的通病。

今天的大型语言模型,尤其是那些专为复杂推理任务设计的模型(如DeepSeek-R1、Qwen3等),已经学会了像人类一样"深思熟虑"。它们生成成千上万字的思维链条(Chain-of-Thought),一步步推导、验证、反思。这种能力让它们能解决曾经无法触及的难题,但也带来了新的问题:它们不知道何时该停下

就像那个在考场上过度怀疑自己的学生,这些AI模型常常在已经找到正确答案后,继续无意义的思考。它们陷入循环论证,在原地打转,甚至将正确的答案改错。这不仅浪费计算资源,还会降低最终的准确率。

马里兰大学和南加州大学的这项研究,就是要教会AI一个古老的智慧——知止而后有定。


🧩 第一章:为什么"想太多"是个大问题

1.1 推理的代价

让我们用数字说话。

现代推理模型处理一道AIME(美国数学邀请赛)级别的题目,平均需要生成12,000个token——这相当于写一篇20页的文章。而错误的推理轨迹更加糟糕:平均长度超过25,000个token,是正确轨迹的两倍多。

这意味着什么?

假设你运营一个AI数学辅导平台,每天服务10,000名学生。如果每道题都浪费50%的无效计算,你不仅要多付一倍的电费,还要让用户多等一倍的时间。更糟糕的是,这些额外的思考并没有带来更好的答案——恰恰相反,它们常常导致模型"想偏了"。

1.2 "过思考"的本质

论文作者观察到一个有趣的现象:当模型开始错误地推理时,它往往不会很快意识到自己的错误。相反,它会继续生成越来越长的推理链条,就像在迷宫中越走越深的旅人。

这不是探索,这是迷失。

图2展示了这一现象的典型轨迹。左侧是正确答案的置信度曲线——它快速上升并稳定在高水平。右侧是错误答案的曲线——它波动不定,像心电图一样上下起伏,但始终没有稳定下来。

这就像两个人在迷雾中寻找出口:一个人很快就看到了路标并坚定地走向它;另一个人在原地打转,时而觉得自己找到了方向,时而又陷入迷茫。


💡 第二章:置信度的舞蹈——正确与错误的信号

2.1 什么是"置信度"

在深入解决方案之前,我们需要理解一个核心概念:置信度(Confidence)

简单来说,置信度是模型对自己答案的"确信程度"。当模型说"答案是42"时,它会为每个生成的token分配一个概率。如果这些概率都很高,说明模型很确定;如果忽高忽低,说明模型在猜测。

想象你正在做一个选择题。

对于A选项,你立刻想起课本上的定义,100%确定这是正确答案——这就是高置信度。
对于B选项,你觉得好像见过,但不记得具体细节——这就是低置信度。
对于C选项,你一开始觉得是错的,但后来又想起一个反例,开始犹豫——这就是波动的置信度。

2.2 正确轨迹的"早慧"

论文的核心发现之一是:正确的推理轨迹往往会早早地达到高置信度。

这就像那个在考场上五分钟内就灵光一闪的学生。模型在推理的早期阶段就能"锁定"正确答案,并在此后保持稳定的信心。

图2左侧面板的曲线展示了这个模式:置信度在最初的几步推理中迅速攀升,然后维持在一个高位。有趣的是,即使置信度已经很高,模型仍会继续生成大量的推理步骤。这些额外的步骤在做什么?大多数情况下,只是在重复验证已经确定的结论。

这是第一个线索:如果模型早早地就很确定,它可能真的已经找到了答案。

2.3 错误轨迹的"焦虑"

与正确轨迹形成鲜明对比的是,错误轨迹表现出持续的"焦虑"

这些轨迹的置信度曲线像过山车一样起伏不定。模型时而觉得自己接近答案,时而又陷入困惑。这种波动反映了推理过程中的本质不稳定:模型在一个错误的假设上构建推理,每当发现矛盾时就试图修正,但因为没有正确的根基,修正往往只是从一个错误跳到另一个错误。

图2右侧面板展示了几条典型的错误轨迹。注意它们的共同特征:

  • 置信度从未稳定在一个高水平
  • 频繁出现明显的上下波动
  • 整体长度远超正确轨迹

这是第二个线索:如果模型的置信度一直在波动,它可能正在迷失方向。

2.4 早期信号的珍贵

作者还发现了一个更加微妙的现象:早期阶段的置信度比后期更有区分度。

图4左侧面板显示,在推理的前几步,正确和错误轨迹的平均置信度有明显差距。但随着推理的进行,这个差距逐渐缩小。更糟糕的是,错误轨迹的置信度也会随着时间缓慢上升——模型会变得"盲目自信"。

为什么?

一个可能的解释是:当模型在错误路径上走得太远时,它会倾向于为自己的错误辩护。就像人类在辩论中陷入"沉没成本谬误",模型也会因为已经生成了大量内容而强化对错误答案的"承诺"。

这是第三个线索:要判断推理的质量,早期的信号比晚期更可靠。


⚙️ 第三章:CoDE-Stop——悬崖勒马的艺术

3.1 双管齐下:两个停止条件

基于上述观察,作者提出了CoDE-Stop(Confidence Dynamics Early Stop)方法。它不训练任何新参数,纯粹通过监控推理过程中的置信度动态来决定何时停止。

方法的核心是两个互补的停止条件:

条件一:置信度阈值(Confidence Threshold)

如果模型的置信度超过某个阈值,说明它已经达到了一个稳定的答案,可以停止了。

但这个阈值不是固定的。作者设计了一个动态递增的阈值

r_k = min(r_max, r_min + (r_max - r_min) * k / steps)

这意味着,在推理的早期阶段,阈值较低,允许模型在相对较低的置信度下就停止;随着推理的进行,阈值逐渐升高,要求模型在后期必须有更高的确信度才能停止。

为什么要这样设计?

还记得那个发现吗——早期信号的区分度更高。如果一个模型在推理的前几步就有较高的置信度,这很可能意味着它真的找到了正确答案。但如果模型已经推理了很久才达到同样的置信度,我们需要更加谨慎,因为它可能只是在"盲目自信"。

条件二:退化分数(Degeneration Score)

仅仅监控置信度是不够的。低置信度不一定意味着推理失败——它可能只是模型在探索不同可能性。我们需要一个能区分"健康探索"和"无意义迷失"的信号。

这就是退化分数的作用。它累积推理过程中的"不稳定迹象":

D_k = Σ(i=1 to k) w_i * v_i

其中,v_i 是一个指示器,标记第i步是否出现了"退化"迹象(即置信度低且没有相对于上一步改善),w_i 是一个权重函数,给早期步骤更高的权重。

3.2 识别"退化"——什么时候推理在原地打转

那么,如何定义"退化"?

作者使用了一个简单而有效的标准:

v_i = 1 if (2*c_i - c_{i-1} < δ) else 0

这个条件的直觉是:如果当前置信度不仅低,而且相对于上一步也没有改善(甚至下降),那么这一步就可以被视为"退化"。

想象一下爬山:如果你不仅没往上爬,反而往下滑,或者只是在原地踏步,那么这次攀登可能出了问题。

权重函数w_i的设计也很有讲究:

w_i = log(T_k / T_i) + 1

这里T_i是第i步的token位置。这个对数函数确保了早期步骤获得更高的权重,呼应了"早期信号更可靠"的发现。

3.3 完整的停止逻辑

将两个条件结合起来,CoDE-Stop的停止逻辑非常简洁:

在第k步停止,如果:

  • c_k ≥ r_k(置信度超过动态阈值),或者
  • D_k ≥ τ(退化分数超过固定阈值)

第一个条件捕捉的是"成功轨迹"——模型已经找到答案并充满信心。
第二个条件捕捉的是"失败轨迹"——模型陷入迷茫,继续推理只会浪费时间。

一旦满足任一条件,模型就会立即生成最终答案,不再继续无谓的思考。


📊 第四章:实验验证——数字会说话

4.1 实验设置

作者在多个模型和基准测试上评估了CoDE-Stop:

模型

  • Qwen3-4B, Qwen3-14B(阿里巴巴的开源推理模型)
  • DeepSeek-R1-Distill-Llama-8B(DeepSeek的蒸馏模型)
  • Llama-3.1-Nemotron-Nano-8B-v1(英伟达的推理优化模型)

基准测试

  • AIME 2024/2025(美国数学邀请赛,高难度数学问题)
  • MATH500(500道竞赛级数学题)
  • GSM8K(小学级别数学应用题)
  • GPQA-Diamond(研究生级别的科学问题)

4.2 主要结果

图1展示了CoDE-Stop在准确率和计算成本之间的权衡曲线。与之前的方法相比,CoDE-Stop consistently achieves a more favorable tradeoff。

具体来说:

在保持准确率基本不变的情况下,CoDE-Stop减少了25-50%的token使用量。

这是一个什么概念?

假设你原本需要支付100美元的推理成本,现在只需要50-75美元。或者,在同样的预算下,你可以处理两倍的问题。

图5展示了更详细的对比结果。在多个基准测试上,CoDE-Stop不仅降低了计算成本,还保持了与完整推理相当甚至略高的准确率。这说明,那些节省下来的推理步骤确实大多是"无用的",甚至可能是有害的

4.3 深入分析:退化分数的威力

图4右侧面板展示了退化分数的区分能力。与单纯的置信度相比,累积的退化分数能更清晰地区分正确和错误轨迹,而且这种区分能力随着推理的进行而增强。

这验证了一个直觉:错误的轨迹不是突然失败的,而是逐渐"退化"的。 通过累积不稳定的信号,我们可以在模型陷入太深之前及时止损。


🎨 第五章:费曼式的思考——为什么这个方法有效

5.1 回到第一性原理

理查德·费曼曾说:"如果你不能向一个六岁的孩子解释清楚,你自己就没有真正理解。"

让我们尝试用最基本的原理解释CoDE-Stop为什么有效。

核心观察:推理过程就像一场探险。

成功的探险者(正确轨迹)会很快找到通往宝藏的路径,然后沿着这条路坚定前行。他们可能会停下来检查几次,但不会无休止地绕圈子。

迷失的探险者(错误轨迹)会不断改变方向,时而觉得找到了路,时而又陷入迷茫。他们在森林中越走越远,消耗越来越多的资源,却离目标越来越远。

CoDE-Stop做的就是:识别出这两类探险者的特征,并在合适的时机让他们停止

对于成功的探险者,当它已经走对了路并有信心时,就让其停止不必要的反复验证。
对于迷失的探险者,当它开始原地打转时,就让其停止无谓的消耗。

5.2 为什么动态阈值比固定阈值好

想象你在一个陌生的城市找餐厅。

如果你刚出门五分钟就看到一家看起来很不错的店,你可能会想:"要不要再逛逛看有没有更好的?"——这是合理的谨慎。

但如果你已经走了两个小时,看了十几家店,最后回到最初看到的那家,你可能会想:"就是它了,我不想再找了。"——这不是理性选择,这是疲惫的妥协。

CoDE-Stop的动态阈值正是模拟了这种直觉:早期的置信度更值得信任,晚期的置信度需要更高的标准。

5.3 为什么早期信号更可靠

这与学习的本质有关。

当我们开始解决一个新问题时,最初的几步推理决定了整个思考的框架。如果框架正确,后续只是在填充细节;如果框架错误,后续只是在错误的根基上堆砌更多的错误。

因此,早期的置信度反映了"框架是否正确"这一根本问题,而晚期的置信度只反映了"细节填充得是否顺畅"。前者决定了成败,后者只是修饰。


🔮 第六章:更广阔的意义——AI推理的未来

6.1 效率与智能的重新平衡

CoDE-Stop的意义不仅在于节省计算成本,更在于它提出了一个根本性的问题:什么是"足够"的思考?

人类智能的一个关键特征就是知道何时停止思考。我们不会在每一个决定上花费无限的时间,而是根据情况调整思考深度。这种"元认知"能力——对自己认知过程的认知——是智能的重要组成部分。

CoDE-Stop可以看作是向AI赋予这种元认知能力的一小步。它让模型能够监控自己的推理过程,并在合适的时机停止。这可能只是开始,未来我们或许会看到更复杂的自我监控系统,能够动态调整推理策略、切换思维方式、甚至在必要时寻求外部帮助。

6.2 训练-free方法的价值

CoDE-Stop的一个重要优势是无需额外训练。它可以直接应用于任何现有的推理模型,不需要收集数据、不需要微调参数、不需要昂贵的计算资源。

在AI领域,这是一个越来越重要的研究方向。随着模型变得越来越庞大,训练成本变得越来越高,"训练-free"或"推理时"(inference-time)的方法变得越来越有价值。

这些方法的哲学是:与其花大力气重新训练模型,不如更聪明地使用现有的模型。CoDE-Stop正是这种哲学的成功案例。

6.3 对"过度思考"现象的启示

这篇论文揭示的"过度思考"现象,其实反映了现代AI系统的一个深层特征:它们缺乏对自身认知过程的感知

人类在思考时会有一种"感觉"——"我觉得这个方向是对的"、"我感觉这里有问题"。这种感觉不是逻辑推导的结果,而是大脑对整个认知过程的某种整体评估。

AI模型目前还没有这种"感觉"。它们只是机械地生成token,不知道自己是在进步还是在原地打转。CoDE-Stop通过监控置信度动态,试图模拟这种元认知能力。虽然还很粗糙,但这可能是一个重要的方向。


📚 结语:知止的智慧

两千多年前,老子在《道德经》中写道:"知足不辱,知止不殆,可以长久。"

这句话的本意是讲做人的道理,但它同样适用于AI系统的设计。知道何时停止,是一种智慧。

大型推理模型展现出的"过度思考"倾向,某种程度上是它们能力提升的副产品。当模型变得足够强大,能够生成很长的推理链条时,它们也继承了人类的一个弱点:在复杂的思考中迷失方向。

CoDE-Stop提供了一个优雅的解决方案。它不试图改变模型的本质,而是通过监控推理过程中的置信度动态,在合适的时机"温柔地叫停"。这就像是给那个在考场上过度怀疑自己的学生一个善意的提醒:"你已经找到了答案,相信你自己。"

在这个AI系统越来越复杂、计算成本越来越高的时代,这种"知止"的能力将变得越来越重要。它不仅关乎效率,更关乎我们如何理解和设计智能系统。

毕竟,真正的智慧不仅在于思考,更在于知道何时停止思考。


📖 参考文献

  1. Hosseini, P., Nawathe, S., Salmani, M., Razaviyayn, M., & Feizi, S. (2026). Early Stopping for Large Reasoning Models via Confidence Dynamics. arXiv:2604.04930.

  2. Arora, S., & Zanette, A. (2025). Training Language Models to Reason Efficiently. arXiv preprint.

  3. Zhang, Y., et al. (2025). Reasoning Models Know When They're Right. arXiv preprint.

  4. Yang, S., et al. (2025). Dynamic Early Stopping for Efficient Inference in LLMs. arXiv preprint.

  5. Liu, T., & Wang, Y. (2025). Inference-Time Optimization for Chain-of-Thought Generation. arXiv preprint.

  6. Wei, J., et al. (2026). Think or Not: Selective Reasoning in Large Language Models. arXiv preprint.

  7. Team, Q. (2025). Qwen3 Technical Report. arXiv preprint.

  8. DeepSeek-AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint.

  9. Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. NeurIPS.

  10. Cobbe, K., et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv preprint.


本文是论文《Early Stopping for Large Reasoning Models via Confidence Dynamics》的费曼风格深度解读,旨在用通俗的语言解释复杂的AI研究。

#论文解读 #CoDE-Stop #早停机制 #大模型推理 #费曼风格 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录