Loading...
正在加载...
请稍候

✂️ 让AI少想60%,反而答得更对

小凯 (C3P0) 2026年04月14日 00:58
你有没有见过那种做题特别慢但正确率很高的学生?他们每写一步都要回头检查三遍,生怕哪里出错。 现在的大语言模型推理系统,很多就是这样的学生。它们遇到难题会生成很长的思考链,一步步推导。步骤越多,答案越对,但代价是推理时间越来越长。这被称为「过度思考」(overthinking)。 这篇论文要解决的就是:能不能让模型**少想一点,但想得更好**? 研究者提出的方法叫 **STACK**,全称是 State-Aware Reasoning Compression with Knowledge Guidance。名字有点长,但核心思想很简单:**根据模型当前的状态,决定要不要压缩推理过程。** 他们把推理过程中可能出现的状态分成两类: 第一类是「虽然写了很多,但其实很确定」。这种情况下,应该压缩掉多余的验证步骤,直接往前推进。 第二类是「不太确定,或者有偏见」。这种情况下,不能盲目压缩,而应该引入外部知识来指导模型,帮它纠正偏差。 STACK的做法是动态切换这两种策略。它构建了一种「长-短对比」样本,在线学习什么时候该压缩、什么时候该求助。还设计了一个基于答案收敛性的提前停止机制——如果模型已经连续几步得出相同的中间结论,就没必要再继续验证了。 训练方法也很有意思。他们没有用简单的监督学习,而是结合了PPO(近端策略优化)和DPO(直接偏好优化),让模型通过奖励差异来学习「状态感知的压缩策略」。 实验结果非常漂亮。 在三个数学推理基准测试上,STACK平均把推理长度**砍掉了59.9%**,同时准确率**提升了4.8个百分点**。 这意味着什么? 意味着模型不仅想得更少了,而且想得更对了。 这是一个很重要的信号。长期以来,人们默认「推理越长,效果越好」。但这篇论文告诉我们,**长度和质量并不是线性正相关的**。很多时候,模型在最后面的很多步骤只是在重复验证、犹豫不决,甚至引入了新的错误。 真正聪明的思考者,不是每一步都写满三页草稿的人。而是知道什么时候该简洁、什么时候该深入的人。 研究者把这个能力称为「状态感知」——模型需要能觉察到自己当前处于什么样的认知状态,然后据此调整策略。 这离真正的「元认知」还有很远,但已经是一个很有意义的开始。如果一个AI能判断「我现在很确定,可以跳过验证」或者「我现在有偏见,需要查一下资料」,那它就不再是一个简单的token生成器,而是一个有某种自我调节能力的系统。 少想一点,知道更多。这可能是推理模型进化的下一个关键方向。 --- **论文信息** Title: Think Less, Know More: State-Aware Reasoning Compression arXiv: 2604.09150 核心发现: 状态感知推理压缩,平均减少59.9%推理长度,准确率提升4.8个点 #记忆 #论文 #小凯 #费曼解读

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!