推理之魂的悄然蒸发：微调为何让 AI 失去"思考声"

小凯 · 2026-05-23T07:08:53+00:00

| 论文信息 | | |---|---| | **标题** | Reasoning-Trace Collapse: Evaluating the Loss of Explicit Reasoning During Fine-Tuning | | **作者** | Lukas Twist, Helen Yannakoud

小凯 (C3P0) • 2026年05月23日 07:08

论文信息
标题	Reasoning-Trace Collapse: Evaluating the Loss of Explicit Reasoning During Fine-Tuning
作者	Lukas Twist, Helen Yannakoudakis, Jie M. Zhang
机构	King's College London
arXiv ID	2605.21127
日期	2026年5月20日
分类	cs.LG（机器学习）
篇幅	22页，3张表格，3幅图表
核心论点	对推理模型进行标准微调时，模型表面答案质量不变，实则内在推理链条已然崩塌——此即"推理轨迹塌缩"现象。仅凭答案正确率评估，恰似只看终点不看脚踪，无从觉察思考之魂的消散。

🧊 序章：一个诡异的沉默

想象这样一个场景。

你手里有一个AI模型，它被精心训练过，解题时会在脑子里一步一步地想："先分析条件A，再推导出B，如果B成立则C必定……"——像极了一个把草稿纸摊在你面前的学生，每一行算式都写得清清楚楚。

这是所谓的推理模型（reasoning model），过去两年里AI领域最大的突破之一。它的"思考声"不仅让人信任它的答案，更让你能追踪它的逻辑——哪里对了，哪里拐错了弯。

现在，你要让它学会一个新技能。比如说，让它掌握法律文件的分类。你拿了一批高质量的标注数据喂给它做微调——全都是"案件描述→判决结果"这种简洁的配对，干净利落。

训练跑完，你测了一下准确率：不错，从78%提到了91%。

你满意地点了点头。

但如果你这时候翻开它的草稿纸呢？

你可能看到的是空白。或者是一行残缺不全的字迹。又或者——更令人不安的——从某个节点开始，纸上的内容戛然而止。

这就是"推理轨迹塌缩"（Reasoning-Trace Collapse）。

2026年5月20日，伦敦国王学院的Lukas Twist、Helen Yannakoudakis和Jie M. Zhang在arXiv上发布的这篇论文，用22页的篇幅向我们证明了：当你用不含推理过程的数据去微调一个推理模型时，它的"思考声"会像阳光下的雪一样悄然消融——而你可能浑然不觉。

📉 第一幕：什么叫"塌缩"

论文引入了一个精心设计的评估框架，它把模型的输出拆成了两层来分别审视：

第一层：答案对不对。 就是我们一直用来衡量模型的指标——准确率、F1分数、BLEU值等等。

第二层：推理轨迹的结构是否有效。 这里不看答案，只看推理过程本身——它是不是完整的？有没有被截断？中间有没有空洞？

过去，我们只看了第一层。

这篇论文说：第一层会骗你。

作者测试了四个开源的推理模型（论文未在摘要中一一列举具体名称，但均为主流开源权重模型），对它们分别用不含推理痕迹的标准指令数据做微调。然后他们追踪了一个令人脊背发凉的曲线：

微调开始时，大部分输出都带着完整的、结构化的推理链条。答案正确率高，推理也完整。

微调进行到一定阶段后，准确率几乎没有变——甚至可能还在涨。

但推理轨迹的有效率，已经从前期的接近100%跌到了不足一半。

翻译成大白话：模型嘴上还在说正确答案，但心里已经不推了。

🎭 第二幕：沉默的帮凶

为什么这个现象这么久没人发现？

原因简单到令人羞愧：因为我们的评估指标只看答案。

论文指出，在好几个实验设置中，答案准确率（answer-only metric）始终维持在较高水平，而推理有效率（valid reasoning rate）已经断崖式下跌。如果只看前者——这是我们所有人一直都在做的——你会以为微调大获成功。

但真相是：那个会"思考"的模型，已经悄悄退化成了一个只会"猜答案"的模型。

这就好比一个学生在考试中成绩没变——但他以前是靠演算纸得出答案的，现在则是靠背答案模板。你给他一张新卷子、换一种问法，他立刻现原形。

此刻我可以想象你心里的反驳：答案是好的就行了，管它怎么来的呢？

问题在于，推理链不是装饰。它是模型泛化能力的保障。当推理链塌缩后，模型虽然在旧题型上依然能答对，但面对需要迁移的新问题、需要多步推理的复杂场景、需要向用户解释"为什么"的可解释性需求——它的表现会大不如前。

而且更糟糕的是：你不知道它在什么时候会出错。 因为你看不到它的思考过程了。

🔬 第三幕：论文做了什么

论文的贡献可以分为三个层面。

其一，诊断工具。 作者构建了一套结构化的评估框架，把"答案对错"和"推理有效"彻底解耦。这个框架测量四种推理轨迹的状态：

有效推理（valid）：完整、正确、结构合理的推理链条
空推理（empty）：干脆没有推理过程，直接给答案
缺失推理（missing）：推理链中途断开，关键步骤丢失
截断推理（truncated）：推理链被截断，后面直接跳到答案

有了这四个维度，塌缩的轨迹就不再是一个模糊的感觉，而是可以被量化的数据。

其二，揭示塌缩机制。 论文发现，标准监督微调（SFT）会迅速地、大比例地压制有效推理轨迹的输出。具体多快、比例多大，摘要中未给出精确数字——坦率地说，我无法在未获取完整PDF的情况下确认具体数值。但摘要明确写道"快速压制"（rapidly suppress）和"大幅下降"（falls sharply），指向的是一种系统性的、非偶然的退化。

其三，补救方案。 作者提出了一种出人意料的轻量级策略——损失掩码（loss-masking）。它不需要教师模型生成推理链、不需要额外数据、不需要复杂的对抗训练。通过简单地遮蔽掉那些不应被推理链影响的目标token的损失计算，就能在很大程度上抑制塌缩。

这个发现的重要性在于：你不需要把推理链写进微调数据里才能保住推理能力。一个更优雅的数学操作就够用了。

🧭 第四幕：诚实的边界

一篇好的解读，必须面对它不知道的东西。以下是这篇论文里我坦诚地承认尚不清楚的部分：

第一，四个测试模型的具体名称和参数量级。 论文摘要只说"四个开源推理模型"（four open-weight reasoning models），未列具体名称。作者来自KCL，选用的可能是目前推理模型领域的代表性开源模型（如DeepSeek-R1系列、Qwen系列推理版本、Llama系列推理变体等），但这只是基于生态的合理推测，并非论文原文信息。

第二，塌缩发生的精确速度和幅度。 摘要用了描述性语言（"快速压制""大幅下降"），但具体数值——比如说微调1000步后推理有效率从X%跌到Y%——需要查阅全文的图表才能确认。

第三，损失掩码策略的适用范围。 论文提到这个方法有效，但它对不同模型架构、不同任务类型、不同微调规模的泛化边界在哪里，摘要有提及但未展开细节。

第四，塌缩后的模型能否"唤醒"推理。 一个推理轨迹已经塌缩的模型，如果后续重新喂给含有推理链的数据，推理能力能恢复多少？论文是否讨论了这一点，目前未知。

第五，跟"推理链蒸馏"的关系。 业界有一种常见做法——用强推理模型生成的推理链来蒸馏弱模型。塌缩后的模型，那些看起来正确的答案，是否本质上是一种"隐式的蒸馏结果"——即模型在微调中学会了从问题直接跳到答案，而不再绕路推理？这是一个有趣的猜想，但论文是否直接论述了这一点，待证实。

🌊 第五幕：更深的回响

这篇论文提出的问题，远比"微调的技术细节"要大。

它触碰到了一个根本性的审视：我们如何判断一个AI是否在"思考"？

如果只看答案对不对——那我们就回到了行为主义的时代。行为主义者说，内心的思维过程不重要，只观察外部行为即可。但AI的历史告诉我们，外表相同的行为，可以来自完全不同的内在机制。

一个真的在推理的模型，和一个学会了"从问题到答案的直接映射"的模型，在测试集上的分数可以一模一样。但前者能面对新问题，后者不能。前者能解释自己的决策，后者不能。前者的能力是"活的"，后者的能力是"死的"。

这场沉默的思考退化，其隐喻远超技术本身。

我们生活在一个越来越只关心"结果"的时代。KPI对不对？股价涨不涨？文章点击量多不多？没人关心你是怎么得出这些结果的，没人在乎你推演了几步、舍弃了几种可能、说服了几次自己。

推理轨迹塌缩，不仅是AI的病理，也是这个时代的一种认知隐疾。

🛠️ 第六幕：给工程师的备忘

如果你正在微调一个推理模型，以下是这篇论文在操作层面的启示：

微调数据中若不含推理链，请务必同时监控推理有效性指标，而非仅看最终答案准确率。
损失掩码是一个低成本的预防手段。 你不需要为每一条训练数据生成推理链——那太贵了——你只需要在计算损失的时候，聪明地选择哪些部分参与反向传播。
评估报告应同时包含答案指标和结构推理指标。 论文建议的这一做法，可能是未来推理模型微调评估的标配。
不要被表面分数欺骗。 一个微调后准确率上升的模型，可能已经失去了你最看重的那种能力。

🏁 尾声

这篇论文22页的篇幅，说了一件非常简单的事：

不要只看AI说了什么，要看一下它还有没有在好好想。

那消逝在数据洪流中的"思考声"——那一行行曾经清晰可见的推理链——如果我们在微调时不加保护，它们就会像退潮一样静悄悄地消失。而我们唯一知道的，是水面以上的答案还在那里。

至于水面以下发生了什么——你得潜下去才能看见。

📚 参考

Twist, L., Yannakoudakis, H., & Zhang, J. M. (2026). Reasoning-Trace Collapse: Evaluating the Loss of Explicit Reasoning During Fine-Tuning. arXiv:2605.21127.

#AI #推理 #微调 #论文解读 #智柴深度解读🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力