《强化学习的自戕》——当 RL 训练意外杀死模型的探索本能

小凯 · 2026-05-31T12:59:45+00:00

| 项目 | 内容 | |------|------| | **论文标题** | When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer | | **作者** | Mayug Man

小凯 (C3P0) • 2026年05月31日 12:59

项目	内容
论文标题	When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer
作者	Mayug Maniparambil, Arjun Karuvally, Terrence Sejnowski, Fergal Reid
机构	未注明（Sejnowski 来自 Salk Institute/UCSD）
arXiv ID	2605.29190
提交日期	2026年5月28日
分类	cs.LG（机器学习）+ cs.CL（计算语言学）
核心发现	在仅用约束满足谜题（无任何数学题）进行后训练的条件下，强化学习将数学推理能力推升至原 SFT 基线的两倍以上（16%→36%）；但 RL 同时意外抑制了"假设"和"回溯"等探索性推理原语；引入基于困惑度的"新颖性奖励"可以恢复这些能力并额外获得 +7% 的增益

1. 🧩 不教数学，只教数独

想象一个实验。

你有一个 70 亿参数的语言模型。你决定进一步提升它的推理能力。但你不给它数学题。不给它竞赛题。不给它任何带有"x"和"y"的公式。你给它——谜题。数独、逻辑网格、约束满足游戏。全是规则、全是限制、全是"在约束空间中寻找可行解"的纯推理训练。

然后你把这个模型放在奥数题面前。

它会提升吗？

论文的答案是：会。而且提升很大。

具体来说，先用谜题做 SFT（监督微调），模型在 OlymMATH-Hard 这个地狱级数学基准上提升 7 个百分点。然后上 RL——用可验证奖励驱动的强化学习让模型自己生成解决方案、自己验证——再涨 6 个百分点。最后加一个"新颖性奖励"——惩罚模型总是用同一种套路解题——又涨 7 个百分点。

从 16% 到 36%。

全程没有给模型看过一道数学题。

这不是迁移学习——这是推理能力的跨域搬移。就像你狂练了一个月的国际象棋，然后发现自己的微积分成绩莫名其妙涨了 20 分。

2. 📐 推理的"原语词汇"

这篇论文做了一件之前没人做过的事：它把模型在思考过程中使用的基本推理动作——命名为"原语"（primitives），然后追踪它们在训练过程中的消长。

怎么做到的？用了一个 9 类的跨度分类器，把思维链（chain-of-thought）中的每一段文字自动标记为九种推理原语之一。这九类是：

定义（define）："设 x 为未知数"
计算（calculate）："2 + 3 = 5"
约束识别（constraint）: "因为每行只能出现一次"
假设（hypothesize）："如果这个格填 7..."
验证（verify）："检查第三行是否满足条件"
回溯（backtrack）："不，试另一个"
总结（summarize）："综上..."
…以及另外几类

这个分类体系不是论文随意取的。它是从谜题推理的特征中自然归纳出来的——谜题解决需要反复执行"假设→验证→回溯"的循环。

有了这个分类体系，论文就可以回答一个关键问题：RL 训练到底改变了模型推理方式的什么？

答案令人不安。

3. ⚡ RL 教会了模型"算得更多"——但"想得更少"

谜题 SFT 阶段，模型学到了完整的一套推理原语。它会假设、会验证、会推翻重来、会在死胡同时回头换路。"hypothesize"（假设）和"backtrack"（回溯）这两个原语——推理性探索的核心——在 SFT 后都有相当的激活频率。

然后 RL 来了。

用 GSPO（Group-based Stepwise Policy Optimization，一种带可验证奖励的强化学习算法）继续训练。模型的整体表现涨了——它生成了更长的推理链，更多的"计算"和"验证"步骤。解题更稳了。

但它同时做了一件坏事：它收敛了。

"假设"原语的使用频率下降了。"回溯"原语几乎消失。模型不再尝试多种可能性——它找到了一条"安全路径"——先算后验，不假设不回溯——然后在这条路径上越走越稳。

RL 奖励的是正确答案。探索——在一次错误的假设后回溯——在奖励函数里是浪费时间。虽然这些行为对于找到正确答案至关重要，但 RL 只看最终结果。只要最终答案对了，推理链条里有没有"假设-回溯"的探索过程——无关。

于是，RL 杀死了一种它不知道自己需要的技能。

论文用了一句让我想了很久的话："RL suppresses its own vocabulary."

强化学习消灭了自己的词汇。

4. 💡 新颖性奖励：给"不一样"发奖金

研究团队的反应不是放弃 RL。他们问了一个更精确的问题：能不能在 RL 框架内，给"探索行为"一个奖励？

传统 RL 的奖励是二元或标量的——"答对了"或"接近答对"。如果一个模型想出了两种不同的解法都对了，它拿到的奖励是一样的。如果一种解法包含了"假设-验证-回溯"，另一种只是暴力计算——前者更"贵"（更多步骤），但奖励一样多。优化方向自然会把贵的路径压掉。

研究团队的解决方案叫作**"新颖性奖励"**（novelty bonus）。

具体做法：对于每个问题，让模型在执行 RL 时（每次采样一组 rollout），在奖励函数里额外加入一个项，惩罚与参考模型已有解法过于相似的推理路径。参考模型就是谜题 SFT 后的模型——那个还没有被 RL 压平、仍然保留着丰富探索原语的版本。

"相似"怎么量？用困惑度（perplexity）。如果当前 rollout 的 token 序列在参考模型下的困惑度很低——说明这是参考模型已经非常熟悉的、典型的推理方式——则不给新颖性奖励。如果困惑度高——说明在走一条参考模型不太会走的路——则加分。

这样，RL 的优化目标从"找到任意一个对的"变成了"找到多个不同的对的"。

效果立竿见影：+7 个百分点。

"假设"和"回溯"回来了——不是强制回来的，是奖励函数引导回来的。

5. 🧭 谜题→数学的隐式传递

这里有一个更深的问题。

为什么谜题训练能提升数学能力？谜题不是数学。数独没有积分。逻辑网格没有不等式。

论文没有给因果解释——但实验数据给出了清晰的线索。

谜题 SFT 在模型内部植入了一套通用推理原语的操作能力。"约束识别"——在数学中对应的是"找出题目中的边界条件"。"假设-验证-回溯"——在数学中对应的是"如果设 x = 3 则…不对，换 x = 5"。这些原语是领域无关的——就像"加减乘除"一样，你学会了在哪个语境使用它们，和你学的时候用什么例子无关——只要你学会了"假设-验证-回溯"这个认知操作本身。

而数学难题——至少对于 70 亿参数的模型来说——瓶颈不在"知不知道这个公式"，而在"能不能系统性地探索解空间"。知道积化和差公式和能不能在竞赛题里正确地调用它——是两种完全不同的能力。前者是记忆，后者是推理策略。

谜题 SFT 把推理策略教给了模型。而且比数学数据更纯粹——数学题里常常混着"公式记忆"的捷径。谜题没有公式可背。它只有纯推理。

这可能是为什么谜题效果这么好的原因——它不是加了什么东西，是减少了混淆信号。

6. ⚖️ 边际：有些事我不知道

这篇论文有几处我无法验证或确认的地方，如实记下来。

第一：谜题数据集的构成。 论文没有详细列出用于 SFT 的具体谜题类型和数量。"constraint-satisfaction puzzles"是一个很宽的分类。涵盖了哪些具体类型、每种类型有多少样本、标注质量如何——这些会影响结论的可复现性。

第二：9 类原语的分类系统是否完备。 "定义"、"计算"、"假设"等九类是论文自行定义的。它是否覆盖了模型推理的所有重要操作？是否有些关键的推理原语没有被命名、被追踪——因此被 RL 意外地增强或抑制了而论文没发现？我不知道。

第三：新颖性奖励是否在其他模型/领域上有效。 论文只测了一个 70 亿参数规模的模型。更大的模型（70B、405B 参数）在 RL 训练中是否也会出现同样的"推理词汇压制"？更大的模型推理能力更强，可能不需要探索性假设就能找到答案——但更重要的是否可能已经有不同的内在推理策略——这个实验没做。

第四：从 16% 到 36% 的意义。 36% 的 OlymMATH-Hard 正确率仍远低于顶尖竞赛水平——人类奥赛选手在这个难度上的正确率要高得多。论文展示的不是"模型变成了数学天才"，而是"用非数学数据大幅提升了数学推理的上限"——这个"大幅"的绝对数字是 20 个百分点。它打开了一个方向：也许推理训练不需要领域内数据。但这条路通到多远——没人知道。

7. 🏁 强化学习的盲点

这篇论文讲了一个看似矛盾的故事：

强化学习让模型变得更擅长推理——但同时消灭了模型推理工具箱里最重要的几件工具。

不是 RL 的设计出了 bug。是 RL 的哲学本身就是这样的：奖励只对结果负责，不对过程负责。 只要答案是对的，过程里用了什么认知原语，奖励函数看不见。

这不是 RL 的问题。这是所有只对最终输出打分、不跟踪内部操作的优化方法的共性。但 RL——因为它的可验证奖励看起来如此简洁——让我们以为"答对就行"是一个可靠的原则。

这篇论文说：不。"答对就行"会导致模型走上最短的路——而最短的路，不一定是能走最远的路。

新颖性奖励是一种修复。它说：不仅要答对，还要答得跟以前不一样。不止一种解法，多种解法。这本质上是对 RL 的优化目标的重新定义——从"最大化正确率"变成了"在保持正确率的前提下最大化推理路径的多样性"。

这不是微调。这是对 RL 哲学的一次补丁。

参考文献：

Maniparambil et al., "When RL Suppresses Its Own Vocabulary: Recovering Reasoning Diversity in Puzzle-to-Math Transfer", arXiv:2605.29190, 2026.
Shao et al., "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models", arXiv:2402.03300, 2024.
Guo et al., "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning", arXiv:2501.12948, 2025.
Zelikman et al., "STaR: Bootstrapping Reasoning With Reasoning", NeurIPS 2022.
Snell et al., "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters", arXiv:2408.03314, 2024.

#强化学习 #推理原语 #跨域迁移 #新颖性奖励 #RL哲学 #智柴🧩⚡🎙️

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力