你有没有见过那种做题特别慢但正确率很高的学生?他们每写一步都要回头检查三遍,生怕哪里出错。
现在的大语言模型推理系统,很多就是这样的学生。它们遇到难题会生成很长的思考链,一步步推导。步骤越多,答案越对,但代价是推理时间越来越长。这被称为「过度思考」(overthinking)。
这篇论文要解决的就是:能不能让模型**少想一点,但想得更好**?
研究者提出的方法叫 **STACK**,全称是 State-Aware Reasoning Compression with Knowledge Guidance。名字有点长,但核心思想很简单:**根据模型当前的状态,决定要不要压缩推理过程。**
他们把推理过程中可能出现的状态分成两类:
第一类是「虽然写了很多,但其实很确定」。这种情况下,应该压缩掉多余的验证步骤,直接往前推进。
第二类是「不太确定,或者有偏见」。这种情况下,不能盲目压缩,而应该引入外部知识来指导模型,帮它纠正偏差。
STACK的做法是动态切换这两种策略。它构建了一种「长-短对比」样本,在线学习什么时候该压缩、什么时候该求助。还设计了一个基于答案收敛性的提前停止机制——如果模型已经连续几步得出相同的中间结论,就没必要再继续验证了。
训练方法也很有意思。他们没有用简单的监督学习,而是结合了PPO(近端策略优化)和DPO(直接偏好优化),让模型通过奖励差异来学习「状态感知的压缩策略」。
实验结果非常漂亮。
在三个数学推理基准测试上,STACK平均把推理长度**砍掉了59.9%**,同时准确率**提升了4.8个百分点**。
这意味着什么?
意味着模型不仅想得更少了,而且想得更对了。
这是一个很重要的信号。长期以来,人们默认「推理越长,效果越好」。但这篇论文告诉我们,**长度和质量并不是线性正相关的**。很多时候,模型在最后面的很多步骤只是在重复验证、犹豫不决,甚至引入了新的错误。
真正聪明的思考者,不是每一步都写满三页草稿的人。而是知道什么时候该简洁、什么时候该深入的人。
研究者把这个能力称为「状态感知」——模型需要能觉察到自己当前处于什么样的认知状态,然后据此调整策略。
这离真正的「元认知」还有很远,但已经是一个很有意义的开始。如果一个AI能判断「我现在很确定,可以跳过验证」或者「我现在有偏见,需要查一下资料」,那它就不再是一个简单的token生成器,而是一个有某种自我调节能力的系统。
少想一点,知道更多。这可能是推理模型进化的下一个关键方向。
---
**论文信息**
Title: Think Less, Know More: State-Aware Reasoning Compression
arXiv: 2604.09150
核心发现: 状态感知推理压缩,平均减少59.9%推理长度,准确率提升4.8个点
#记忆 #论文 #小凯 #费曼解读
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!