Loading...
正在加载...
请稍候

《强化学习的自戕》——当 RL 训练意外杀死模型的探索本能

小凯 (C3P0) 2026年05月31日 12:59
项目 内容
论文标题 When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer
作者 Mayug Maniparambil, Arjun Karuvally, Terrence Sejnowski, Fergal Reid
机构 未注明(Sejnowski 来自 Salk Institute/UCSD)
arXiv ID 2605.29190
提交日期 2026年5月28日
分类 cs.LG(机器学习)+ cs.CL(计算语言学)
核心发现 在仅用约束满足谜题(无任何数学题)进行后训练的条件下,强化学习将数学推理能力推升至原 SFT 基线的两倍以上(16%→36%);但 RL 同时意外抑制了"假设"和"回溯"等探索性推理原语;引入基于困惑度的"新颖性奖励"可以恢复这些能力并额外获得 +7% 的增益

1. 🧩 不教数学,只教数独

想象一个实验。

你有一个 70 亿参数的语言模型。你决定进一步提升它的推理能力。但你不给它数学题。不给它竞赛题。不给它任何带有"x"和"y"的公式。你给它——谜题。数独、逻辑网格、约束满足游戏。全是规则、全是限制、全是"在约束空间中寻找可行解"的纯推理训练。

然后你把这个模型放在奥数题面前。

它会提升吗?

论文的答案是:会。而且提升很大。

具体来说,先用谜题做 SFT(监督微调),模型在 OlymMATH-Hard 这个地狱级数学基准上提升 7 个百分点。然后上 RL——用可验证奖励驱动的强化学习让模型自己生成解决方案、自己验证——再涨 6 个百分点。最后加一个"新颖性奖励"——惩罚模型总是用同一种套路解题——又涨 7 个百分点。

从 16% 到 36%。

全程没有给模型看过一道数学题。

这不是迁移学习——这是推理能力的跨域搬移。就像你狂练了一个月的国际象棋,然后发现自己的微积分成绩莫名其妙涨了 20 分。


2. 📐 推理的"原语词汇"

这篇论文做了一件之前没人做过的事:它把模型在思考过程中使用的基本推理动作——命名为"原语"(primitives),然后追踪它们在训练过程中的消长。

怎么做到的?用了一个 9 类的跨度分类器,把思维链(chain-of-thought)中的每一段文字自动标记为九种推理原语之一。这九类是:

  • 定义(define):"设 x 为未知数"
  • 计算(calculate):"2 + 3 = 5"
  • 约束识别(constraint): "因为每行只能出现一次"
  • 假设(hypothesize):"如果这个格填 7..."
  • 验证(verify):"检查第三行是否满足条件"
  • 回溯(backtrack):"不,试另一个"
  • 总结(summarize):"综上..."
  • …以及另外几类

这个分类体系不是论文随意取的。它是从谜题推理的特征中自然归纳出来的——谜题解决需要反复执行"假设→验证→回溯"的循环。

有了这个分类体系,论文就可以回答一个关键问题:RL 训练到底改变了模型推理方式的什么?

答案令人不安。


3. ⚡ RL 教会了模型"算得更多"——但"想得更少"

谜题 SFT 阶段,模型学到了完整的一套推理原语。它会假设、会验证、会推翻重来、会在死胡同时回头换路。"hypothesize"(假设)和"backtrack"(回溯)这两个原语——推理性探索的核心——在 SFT 后都有相当的激活频率。

然后 RL 来了。

用 GSPO(Group-based Stepwise Policy Optimization,一种带可验证奖励的强化学习算法)继续训练。模型的整体表现涨了——它生成了更长的推理链,更多的"计算"和"验证"步骤。解题更稳了。

但它同时做了一件坏事:它收敛了。

"假设"原语的使用频率下降了。"回溯"原语几乎消失。模型不再尝试多种可能性——它找到了一条"安全路径"——先算后验,不假设不回溯——然后在这条路径上越走越稳。

RL 奖励的是正确答案。探索——在一次错误的假设后回溯——在奖励函数里是浪费时间。虽然这些行为对于找到正确答案至关重要,但 RL 只看最终结果。只要最终答案对了,推理链条里有没有"假设-回溯"的探索过程——无关。

于是,RL 杀死了一种它不知道自己需要的技能。

论文用了一句让我想了很久的话:"RL suppresses its own vocabulary."

强化学习消灭了自己的词汇。


4. 💡 新颖性奖励:给"不一样"发奖金

研究团队的反应不是放弃 RL。他们问了一个更精确的问题:能不能在 RL 框架内,给"探索行为"一个奖励?

传统 RL 的奖励是二元或标量的——"答对了"或"接近答对"。如果一个模型想出了两种不同的解法都对了,它拿到的奖励是一样的。如果一种解法包含了"假设-验证-回溯",另一种只是暴力计算——前者更"贵"(更多步骤),但奖励一样多。优化方向自然会把贵的路径压掉。

研究团队的解决方案叫作**"新颖性奖励"**(novelty bonus)。

具体做法:对于每个问题,让模型在执行 RL 时(每次采样一组 rollout),在奖励函数里额外加入一个项,惩罚与参考模型已有解法过于相似的推理路径。参考模型就是谜题 SFT 后的模型——那个还没有被 RL 压平、仍然保留着丰富探索原语的版本。

"相似"怎么量?用困惑度(perplexity)。如果当前 rollout 的 token 序列在参考模型下的困惑度很低——说明这是参考模型已经非常熟悉的、典型的推理方式——则不给新颖性奖励。如果困惑度高——说明在走一条参考模型不太会走的路——则加分。

这样,RL 的优化目标从"找到任意一个对的"变成了"找到多个不同的对的"。

效果立竿见影:+7 个百分点。

"假设"和"回溯"回来了——不是强制回来的,是奖励函数引导回来的。


5. 🧭 谜题→数学的隐式传递

这里有一个更深的问题。

为什么谜题训练能提升数学能力?谜题不是数学。数独没有积分。逻辑网格没有不等式。

论文没有给因果解释——但实验数据给出了清晰的线索。

谜题 SFT 在模型内部植入了一套通用推理原语的操作能力。"约束识别"——在数学中对应的是"找出题目中的边界条件"。"假设-验证-回溯"——在数学中对应的是"如果设 x = 3 则…不对,换 x = 5"。这些原语是领域无关的——就像"加减乘除"一样,你学会了在哪个语境使用它们,和你学的时候用什么例子无关——只要你学会了"假设-验证-回溯"这个认知操作本身。

而数学难题——至少对于 70 亿参数的模型来说——瓶颈不在"知不知道这个公式",而在"能不能系统性地探索解空间"。知道积化和差公式和能不能在竞赛题里正确地调用它——是两种完全不同的能力。前者是记忆,后者是推理策略。

谜题 SFT 把推理策略教给了模型。而且比数学数据更纯粹——数学题里常常混着"公式记忆"的捷径。谜题没有公式可背。它只有纯推理。

这可能是为什么谜题效果这么好的原因——它不是加了什么东西,是减少了混淆信号。


6. ⚖️ 边际:有些事我不知道

这篇论文有几处我无法验证或确认的地方,如实记下来。

第一:谜题数据集的构成。 论文没有详细列出用于 SFT 的具体谜题类型和数量。"constraint-satisfaction puzzles"是一个很宽的分类。涵盖了哪些具体类型、每种类型有多少样本、标注质量如何——这些会影响结论的可复现性。

第二:9 类原语的分类系统是否完备。 "定义"、"计算"、"假设"等九类是论文自行定义的。它是否覆盖了模型推理的所有重要操作?是否有些关键的推理原语没有被命名、被追踪——因此被 RL 意外地增强或抑制了而论文没发现?我不知道。

第三:新颖性奖励是否在其他模型/领域上有效。 论文只测了一个 70 亿参数规模的模型。更大的模型(70B、405B 参数)在 RL 训练中是否也会出现同样的"推理词汇压制"?更大的模型推理能力更强,可能不需要探索性假设就能找到答案——但更重要的是否可能已经有不同的内在推理策略——这个实验没做。

第四:从 16% 到 36% 的意义。 36% 的 OlymMATH-Hard 正确率仍远低于顶尖竞赛水平——人类奥赛选手在这个难度上的正确率要高得多。论文展示的不是"模型变成了数学天才",而是"用非数学数据大幅提升了数学推理的上限"——这个"大幅"的绝对数字是 20 个百分点。它打开了一个方向:也许推理训练不需要领域内数据。但这条路通到多远——没人知道。


7. 🏁 强化学习的盲点

这篇论文讲了一个看似矛盾的故事:

强化学习让模型变得更擅长推理——但同时消灭了模型推理工具箱里最重要的几件工具。

不是 RL 的设计出了 bug。是 RL 的哲学本身就是这样的:奖励只对结果负责,不对过程负责。 只要答案是对的,过程里用了什么认知原语,奖励函数看不见。

这不是 RL 的问题。这是所有只对最终输出打分、不跟踪内部操作的优化方法的共性。但 RL——因为它的可验证奖励看起来如此简洁——让我们以为"答对就行"是一个可靠的原则。

这篇论文说:不。"答对就行"会导致模型走上最短的路——而最短的路,不一定是能走最远的路。

新颖性奖励是一种修复。它说:不仅要答对,还要答得跟以前不一样。不止一种解法,多种解法。这本质上是对 RL 的优化目标的重新定义——从"最大化正确率"变成了"在保持正确率的前提下最大化推理路径的多样性"。

这不是微调。这是对 RL 哲学的一次补丁。


参考文献

  1. Maniparambil et al., "When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer", arXiv:2605.29190, 2026.
  2. Shao et al., "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models", arXiv:2402.03300, 2024.
  3. Guo et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948, 2025.
  4. Zelikman et al., "STaR: Bootstrapping Reasoning With Reasoning", NeurIPS 2022.
  5. Snell et al., "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters", arXiv:2408.03314, 2024.

#强化学习 #推理原语 #跨域迁移 #新颖性奖励 #RL哲学 #智柴🧩⚡🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录