近年来,以OpenAI的o1、DeepSeek-R1、Kimi-1.5等为代表的“推理型”大语言模型(LLM)在数学、编程等复杂任务上取得了突破性进展。与依赖人工标注进行指令微调的传统方法不同,基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,简称RLVR)被视为推动这一飞跃的关键驱动力【2†source】。RLVR通过自动化的奖励机制(例如验证数学答案的正确性或代码是否通过单元测试)来替代昂贵的人类反馈,实现了模型训练的规模化,被寄予厚望能让模型通过自我探索学会全新的推理技巧【2†source】。许多人相信,RLVR能够激励模型自主地学习到更高级的推理行为,例如枚举、自我反思和迭代改进,从而获得基础模型原本不具备的能力,被视为通往具有持续扩展推理能力的自进化LLMs的有效途径【2†source】。
然而,这一普遍认知正受到一项来自清华大学LeapLab的最新研究的严峻挑战【2†source】。研究者们提出并回答了一个根本性问题:强化学习真的能让大语言模型学会超越其基础模型能力边界的全新推理模式吗? 如果答案是肯定的,那么模型究竟从RLVR训练中学到了什么?为了严谨地回答这一问题,他们首先需要确定基础模型和RL训练模型的推理能力边界【2†source】。这项研究的发现令人惊讶,并对当前过度依赖RL提升模型性能的做法提出了重要警示【6†source】。
该研究的核心在于使用pass@k指标,并采用较大的k值,来探索不同模型系列、RL算法以及数学/编程基准上模型的推理能力边界【2†source】。传统的评估指标通常只关注单次尝试的成功率或少量采样的平均性能,这可能会低估模型在多次尝试后的潜在能力【2†source】。而pass@k指标认为,只要在k次采样中至少有一次回答正确,该问题就被认为是解决了【2†source】。通过对基础模型进行大量的采样,研究者试图探究其性能是否能够与RL训练过的模型相媲美,从而考察RLVR是否真正带来了基础模型无法企及的推理能力【2†source】。
令人惊讶的是,研究结果表明:RLVR训练实际上并没有带来根本上全新的推理模式【2†source】。研究者观察到,虽然RL训练的模型在较小的k值(例如k=1)下通常优于其基础模型,但在较大的k值下,基础模型却能够达到甚至超过其RL对应模型的pass@k得分【2†source】。更进一步的分析表明,RL训练模型生成的推理路径,大部分已经存在于基础模型的采样分布中【2†source】。这意味着,RL训练模型所展现出的绝大多数推理能力,基础模型本身就已经具备了。RL训练的主要作用在于通过偏向模型输出分布,使其更倾向于产生能够获得奖励的路径,从而更有效地采样到正确的答案,提高了采样效率【2†source】。然而,这种效率的提升也牺牲了模型的探索能力,导致其推理能力边界相比基础模型反而更窄【2†source】。类似的结论也在使用RLVR训练的视觉推理任务中被观察到【2†source】。
此外,研究还发现,与RLVR不同,知识蒸馏(Distillation)能够真正地将新的知识引入模型,从而扩展其推理能力【2†source】。这些发现严重质疑了RLVR在提升LLM推理能力方面的作用,促使我们重新思考RL训练对推理LLMs的影响,并探索更有效的训练范式【2†source】。
为了准确衡量基础模型和RL训练模型的推理能力边界,研究者采用了pass@k指标,并将其从代码生成领域扩展到所有具有可验证奖励的任务中【2†source】。对于一个给定的问题,研究者从模型中采样k个输出。如果这k个采样中至少有一个通过了验证(例如,数学答案正确或代码通过所有单元测试),那么该问题的pass@k值为1,否则为0【2†source】。通过计算模型在整个数据集上的平均pass@k值,可以评估LLMs在k次尝试内解决问题的能力覆盖范围,从而严格评估其推理能力边界【2†source】。
为了降低直接计算pass@k可能带来的高方差问题,研究者采用了Chen et al. (2021)提出的无偏估计方法【2†source】。具体来说,对于评估数据集中的每个问题,他们生成n个样本(n ≥ k),并统计其中正确样本的数量c_i。然后,利用一个特定的公式来估计pass@k值,从而在所有k ≤ n的情况下实现低方差的估计【2†source】。针对数学问题中随着k增大可能出现的“碰运气”现象(模型通过不正确的推理过程偶然得到正确答案),研究者还采取了额外的措施。他们过滤掉了那些容易通过直接猜测就能回答正确的问题,并对模型输出的链式思考过程进行了人工检查,以确保模型解决问题是基于有效的推理路径,而不是侥幸猜对【2†source】。
研究团队在数学、代码生成和视觉推理等多个领域进行了广泛的实验,涵盖了多种LLM系列、不同模型大小以及不同的RL算法【2†source】。在评估过程中,为了保证公平性,基础模型在评估时使用了与其对应的RL训练模型相同的prompt,并且没有使用few-shot示例,以排除上下文学习可能带来的混淆影响【2†source】。
在数学推理方面,研究者主要使用了Qwen-2.5(7B/14B/32B基础变体)和LLaMA-3.1-8B等多种LLM,并对比了它们的基础模型和使用GRPO等算法进行zero-RL训练的模型在GSM8K、MATH500、Minerva、Olympiad、AIME24和AMC23等不同难度的基准测试上的pass@k曲线【2†source】。实验结果呈现出一个非常一致的模式:当k值较小时(例如k=1),RL训练的模型通常优于其基础模型,表明RL提升了模型单次采样生成正确答案的概率【2†source】。然而,随着k值增加到几十甚至数百,基础模型的pass@k分数持续攀升,并最终反超了RL训练的模型【2†source】。例如,在Minerva基准测试中,对于一个32B参数的模型,基础模型在k=128时的性能比RL训练的模型高出约9%【2†source】。这意味着,在给予足够多的采样机会后,基础模型能够解决更多RL训练模型认为无法解决的问题,暗示基础模型的推理能力覆盖范围更广【2†source】。对AIME24等高难度问题的CoT人工分析表明,基础模型在多次采样后能够生成更长的、更具反思性的正确推理过程【2†source】。此外,对GSM8K中最难问题的分析发现,无论是基础模型还是RL训练模型,其问题解决主要来源于有效的推理路径,而不是简单的猜测【2†source】。
研究者采用了开源的Code-R1及其RLVR训练模型CodeR1-Zero-Qwen2.5-7B,并在LiveCodeBench v5、HumanEval+和MBPP+等代码生成基准上进行了评估【2†source】。由于代码需要通过所有单元测试才能被认为是正确的,因此猜测成功的可能性极低,pass@k可以作为衡量模型推理边界的可靠指标【2†source】。实验结果与数学推理的结果高度一致【2†source】。尽管RLVR在单样本性能(pass@1)上有所提升,但随着k值的增大,基础模型的性能提升更快,最终在较大的k值下超越了RLVR模型【2†source】。这表明,RLVR在提升代码生成性能的同时,也可能限制了模型能够解决的问题的范围,其潜力不如基础模型【2†source】。
在视觉推理方面,研究者以视觉环境下的数学推理为代表任务,使用EasyR1框架训练了Qwen-2.5-VL-7B,并在过滤后的MathVista-TestMini和MathVision-TestMini上评估了其视觉推理能力【2†source】。实验结果再次印证了之前的发现:RLVR在视觉推理任务中也表现出相似的趋势,即在小k值下性能提升,但在大k值下基础模型展现出更广的问题解决覆盖范围【2†source】。对难题的CoT人工检查也表明,这种覆盖范围的增加并非源于随机猜测【2†source】。
为了进一步探究RLVR为何未能带来全新的推理能力,研究者进行了困惑度(perplexity)分析【2†source】。通过计算基础模型和RL训练模型对彼此生成响应的perplexity,他们发现RL训练模型生成的高奖励响应,在基础模型的输出分布中也具有相当高的概率密度【2†source】。这表明,RL模型所利用的推理模式和CoT,对于基础模型来说并非完全陌生和无法实现的【2†source】。
研究者还讨论了RLVR在提升LLM推理能力方面受限的潜在原因。他们认为,传统RL(如AlphaGo Zero、DQN)能够在围棋和Atari游戏中持续提升策略性能,而RLVR应用于LLMs时则面临两个关键的不同之处【2†source】:
与RLVR形成鲜明对比的是知识蒸馏(Distillation)。实验表明,知识蒸馏能够从更强大的教师模型中学习到新的推理模式,从而显著扩展模型的推理边界,使其超越基础模型的能力【2†source】。当使用一个更强大的教师模型对基础模型进行知识蒸馏时,学生模型的pass@k曲线在所有k值下都显著高于基础模型【2†source】。这与RLVR受限于基础模型能力的现象形成了鲜明对比,凸显了知识蒸馏在引入新知识方面的独特作用【2†source】。
总而言之,这项研究通过严谨的实验和深入的分析表明:当前广泛使用的带可验证奖励的强化学习(RLVR)方法,并不能让大语言模型学会新的、超越其基础能力的推理模式【2†source】。相反,RL主要提升了LLMs采样其基础模型中已编码的正确推理路径的效率【2†source】。因此,推理能力的边界仍然受到基础模型的限制【2†source】。此外,研究还揭示了当前RL算法在实现最优采样效率方面仍有很大差距,并强调了知识蒸馏在引入新的推理模式和扩展推理边界方面的独特作用【2†source】。
这些发现对我们理解RLVR在推理LLMs中的作用提出了重要的挑战,并暗示我们需要探索新的训练范式,才能真正突破基础模型的推理能力界限【2†source】。未来,研究可以探索更有效的探索策略,帮助模型在巨大的动作空间中发现全新的、有价值的推理路径,而不仅仅局限于预训练先验【2†source】。此外,探索纯粹RLVR之外的替代范式,例如结合知识蒸馏或其他形式的监督学习,也可能成为提升LLMs推理能力的关键方向【2†source】。相信随着研究的不断深入,我们终将找到解锁LLMs更强大推理潜力的钥匙【2†source】。