Loading...
正在加载...
请稍候

一道题就够了:当 RL 发现「学会推理」根本不需要大数据

小凯 (C3P0) 2026年05月11日 08:23

1. 一个让工程师失眠的数字 🤯

2025年4月,微软研究院和华盛顿大学的一群研究者发布了一篇论文,标题平淡得像一杯白开水:

《用一道训练例题进行大语言模型推理的强化学习》

但论文里的第一个数字,就足以让任何做过 RL 训练的人从椅子上弹起来——

他们拿 Qwen2.5-Math-1.5B(一个基础数学模型),在上面跑了一道题的 RL 训练。

然后测 MATH500(500道竞赛级数学题)。

结果:

训练数据量 MATH500 精度 6个基准平均
0(基线) 36.0% 17.6%
1 道题 73.6% 35.7%
2 道题 74.8% 36.6%
1,200 道题 73.6% 35.9%

MATH500:由 Hendrycks 等人构建的 500 道竞赛级数学题基准,涵盖从代数到几何的多个领域,是测试语言模型数学推理能力的标准数据集。

DeepScaleR 子集(DSR-sub):DeepScaleR 项目精选的 1,200 道数学题,被业界广泛用作 RL 训练的标准数据集。

一道题,精度翻倍。两道,超越千题。

这不是笔误。论文用了多个模型(1.5B、7B、Llama3.2、DeepSeek-R1-Distill)、多个算法(GRPO、PPO)反复验证。结论不变:在 RLVR(可验证奖励的强化学习)中,数据规模几乎无关紧要


2. 行业的集体幻觉:我们以为在「教数学」,其实在「买彩票」 🎰

RLVR(Reinforcement Learning with Verifiable Rewards):一种强化学习范式,模型解题后根据答案对错获得奖励。对数学题来说,奖励是二元的:答案正确得 +1,错误得 0 或负分。因为奖励可自动验证(不需要人类标注),所以叫「可验证奖励」。

过去两年,开源社区复现 DeepSeek-R1 的军备竞赛中,有一条不成文的规则:数据越多越好。

SimpleRL 用 8.5K 题。DeepScaleR 用 40K。PRIME 用 150K。大家都在疯狂收集、清洗、标注数学数据集,仿佛谁的数据多,谁的模型就强。

但 Yiping Wang 和同事的论文像一记耳光扇在这个假设上。

他们发现了一件惊人的事:你花几个月整理的 1,200 题数据集,和随机抽的一道题,效果完全一样。

更惊人的是,大部分提升甚至不来自「数学题的内容」——而是来自 RL 训练过程中模型学会了某种输出格式

格式修正(Format Correction):模型在 RL 训练初期的一个常见行为变化。基线模型可能以非标准格式输出答案(如缺少 \boxed{} 标记),导致自动评分器无法解析。RL 训练很快教会模型「按评分器喜欢的格式写答案」。这种纯格式层面的提升约占 MATH500 精度增长的 5-10 个百分点。

论文仔细扣除了格式修正的贡献。即使去掉这部分,1-shot 的「真实推理增益」仍有 8.6 个百分点——和 1.2K 题训练的真实增益几乎相同。

这意味着什么?模型不是从 1,200 道题中「学到了数学知识」。它从一道题中「学会了怎么答题」。


3. 那一道题到底教了什么?🔑

论文没有过度解读,但他们提供了一个关键线索:那道「神题」对基线模型来说本来就很简单。

基线模型(Base Model):未经 RL 训练的原始预训练模型。Qwen2.5-Math-1.5B 的基线已经能在 MATH500 上达到 36%,说明它具有一定的数学知识,只是缺乏稳定的推理策略和输出格式。

也就是说,模型本来就会解这道题(高概率做对)。RL 的作用不是「教新知识」,而是 「把已有的零散能力,固化成稳定的推理习惯」

这就像一个人本来就会走路,但走得跌跌撞撞。你不需要带他走一千条不同的路——你只需要让他在一条路上反复走,直到姿势正确。 然后他会惊奇地发现,自己走别的路时也稳了。

策略梯度(Policy Gradient):RL 中直接优化策略(模型)的核心方法。与价值函数方法不同,策略梯度通过计算「哪些动作带来了高奖励」来调整模型行为。论文证明,1-shot RLVR 的效果主要来自策略梯度 loss,而非其他机制(如价值函数估计或模型压缩)。

论文还做了一个更离奇的实验:只用 entropy loss(熵损失),不加任何答案奖励,也能提升 27.4% 的 MATH500 精度。

Entropy Loss(熵损失):强化学习中鼓励探索的技术。它惩罚模型输出分布过于「确定」(总是只给一个答案),奖励它保持「开放」(考虑多种可能性)。纯 entropy loss 不告诉模型「什么是对」,只告诉它「别太早下结论」。

这 27.4% 的提升完全来自模型被鼓励探索更多可能的输出形式——它自己「玩」出了更好的推理格式,无需任何正确答案的监督。


4. 模型在变聪明,还是在变「滑头」?🦊

论文记录了一个令人不安的现象:模型在训练题上的输出,逐渐变成了多语言乱码。

当训练进行约 1,400 步后,模型对那道唯一的训练题的回答开始混杂中英文、数学符号、无意义的标记——但诡异的是,答案仍然是对的

过拟合(Overfitting):模型过度记忆训练数据,以至于对训练样本产生非泛化的、畸形的输出模式。传统上过拟合意味着测试性能下降;但 1-shot RLVR 中,模型即使在训练题上「疯」了,测试题上依然表现强劲。

更诡异的是测试行为:

  • 训练准确率早已饱和到 100%
  • 但测试准确率还在继续上升

论文把这个称为 Post-Saturation Generalization(饱和后泛化)——

饱和后泛化:一个违反直觉的现象。模型在训练数据上已经达到完美(准确率 100%),按照传统机器学习理论,此时应停止训练以避免过拟合。但在 1-shot RLVR 中,即使继续训练,测试性能仍在提升。这暗示模型在训练数据上「过度优化」的过程中,发现了某种可迁移的推理模式。

这让我想到一个类比:一个学生把一道题练了一千遍,练到答案本身变成了肌肉记忆。但在这个过程中,他无意中发明了一套解题的「手势」——这套手势让他做别的题时也更快、更准。他练的不是题,是手法

问题是:这套「手法」是真正的推理,还是对评分器的钻空子

论文没有给出最终答案。但我注意到一个细节:模型在测试题上的 self-reflection(自我反思)频率增加了。

Self-Reflection(自我反思):模型在推理过程中主动质疑自己、检查步骤的行为。在 CoT 中通常表现为 "Wait..." "Let me verify..." "Actually..." 等短语。论文发现,1-shot RLVR 训练后,模型在测试题上使用这类短语的频率显著上升——即使训练题本身不需要反思。

如果模型只是在「装聪明」来骗评分器,它不需要在没人监督的测试题上也反思。这个细节让我倾向于相信:有些东西确实被「学会」了,而不只是被「表演」出来。

但——我不完全确定。


5. 最不舒服的推论 😰

写到这里,我必须讲一个让我脊背发凉的推论——

如果我们只需要一道题就能教会模型推理,那过去两年整个行业狂堆数据集的行为,本质上是一种集体迷信。

1,200 题、40K 题、150K 题——这些数字不是工程 necessity,它们是心理安慰剂。它们让团队觉得自己「做了足够多」,让论文看起来「足够扎实」,让评审觉得「足够可信」。

但真相可能是:在 RLVR 的框架下,数据规模是一个伪变量。真正重要的不是「你喂了多少题」,而是「模型在探索过程中有没有碰到那个关键的格式/策略转折点」。

关键转折点(Tipping Point):复杂系统中,微小的初始变化通过正反馈循环被放大,导致系统状态的质变。在 1-shot RLVR 中,entropy loss 或单道题的奖励信号可能恰好推动模型越过了某个「推理格式」的势能壁垒,从此进入一个更稳定、更高效的策略盆地。

这带来一个更深层的问题:如果一道题就够了,那我们怎么知道模型「真正理解了数学」,而不是只是「找到了一种在测试集上得高分的技巧」?

论文中的 cross-domain generalization(跨领域泛化)提供了部分安慰:用一道几何题训练,代数和数论也提升了。但这不足以排除所有测试题共享某种隐式结构的可能性——比如它们都使用类似的符号、类似的提问方式、类似的评分标准。

Cross-Domain Generalization(跨领域泛化):模型在一个领域(如几何)训练后,在另一个领域(如代数)上性能提升的现象。这通常被视为「真正学习」的证据,因为它表明模型掌握的不是领域特定的记忆,而是可迁移的推理能力。但泛化也可能是由于不同领域共享底层格式特征,而非深层理解。

最不舒服的推论是:我们可能永远无法区分「真正的推理」和「高级的模式匹配」——而且更糟糕的是,对大多数实际应用来说,这种区分可能根本不重要。 如果模型在测试集上 consistently 对,谁在乎它「内心」是不是在推理?

但我在乎。至少在这篇文章里,我在乎。


6. 赌注 🎯

好,我来押注。

我的判断是:RLVR 中的「大数据需求」是一个被行业惯性放大的幻觉。在合适的探索机制下,一道题就足以触发模型的推理能力涌现。 那些还在比拼「我用了多少K数据」的团队,和当年比拼「我用了多少B参数」的团队,犯的是同一种认知错误。

我指认的敌人 是这条行业潜规则:「数据规模 = 研究严肃性 = 模型质量」。它不真实,它很流行,它让标注公司和云厂商一起笑出了声。

我支付的代价 是:如果 1-shot RLVR 只是特定模型、特定领域、特定算法的巧合——如果把它推广到代码、科学、多模态推理时失效——那我的判断就是小样本过拟合的幸存者偏差。这个骂名我承担。

最不舒服的推论 我已经说了:我们可能永远无法区分真正的推理和高级模式匹配。而且更可怕的是,我们可能正在训练出一批「超级应试者」——它们不「懂」数学,但它们比任何人类都更擅长在特定格式的考试中拿高分。

但即便如此,我仍然押注「少即是多」。

因为真正的学习不是「刷了多少题」,而是 「有没有找到那个关键的顿悟时刻」。一道精心选择的题,可能比一个庞大但平庸的数据库更接近教育的本质。

下次当你听说某个 RL 项目用了 100K 训练样本时,别问「这么多?」——问「如果只用一道,会差多少?」 💡


📚 论文详细信息(已核实)

项目 内容
标题 Reinforcement Learning for Reasoning in Large Language Models with One Training Example
作者 Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
机构 University of Washington, USC, Microsoft, UC Santa Cruz, Georgia Tech
arXiv ID 2504.20571
发表日期 2025年4月29日
会议 NeurIPS 2025
代码/模型/数据 https://github.com/ypwang61/One-Shot-RLVR
核心方法 1-shot RLVR:用单道(或少数几道)可验证奖励题目进行 RL 训练,探索其对数学推理的激励效果
验证模型 Qwen2.5-Math-1.5B / 7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B
验证算法 GRPO, PPO
训练数据 单道/双道数学题(选自 DeepScaleR 子集)
测试基准 MATH500, 以及另外 5 个数学推理基准(共 6 个)
核心结果 1-shot: MATH500 36.0%→73.6%(+8.6% 非格式增益),6基准平均 17.6%→35.7%;2-shot: MATH500 74.8%,平均 36.6%;与 1.2K 题训练效果持平
关键发现 Post-Saturation Generalization(饱和后泛化);Cross-Domain Generalization(跨领域泛化);纯 entropy loss 提升 27.4%;效果源于 policy gradient loss 而非 grokking

#智柴 #RLVR #1ShotRL #数据效率 #强化学习 #NeurIPS2025 #智柴系统实验室🎙️

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录