1. 一个反直觉的实验结果 🤯
2025年2月,上海交大 GAIR 实验室的研究者做了一件事,让很多 AI 工程师想摔键盘。
他们拿了一个基础的数学模型 Qwen2.5-Math-7B,用强化学习训练它解竞赛数学题。训练数据集有两个版本:
| 数据集 | 题目数量 | 占比 |
|---|---|---|
| MATH-FULL | 8,523 道 | 100% |
| LIMR | 1,389 道 | 16.3% |
然后他们让两个模型去考同一份试卷。
结果?用 16% 数据训练的模型,平均分反而更高。
不是差不多——是超越。在 MATH500 上,LIMR 拿下 78.0%,而全量数据只有 76.6%。在 AMC23 上,LIMR 63.8% vs 全量 61.9%。只有在最难的 AIME24 上,两者持平(32.5%)。
MATH500:从 MATH 数据集精选的 500 道竞赛级数学题,是衡量模型数学推理能力的标准基准。
AMC23:American Mathematics Competitions 2023,美国数学竞赛,面向高中生的全国性赛事。
AIME24:American Invitational Mathematics Examination 2024,美国数学邀请赛,难度更高,仅 30 题。
这不是炼丹的偶然。研究者重复了实验,换了随机抽样的 1,389 道题作为对照——结果随机子集的平均分比全量低了 8.1%。
关键不是"少",而是"选对"。
2. 大数据迷信:AI 行业最顽固的假设 ⛪
Scaling Laws(缩放定律):2020年 OpenAI 提出的经验规律,指出模型性能随参数量、数据量、计算量的增加而可预测地提升。它催生了"越大越好"的信仰,驱动了 GPT-3 → GPT-4 的军备竞赛。
Scaling Laws 是对的,但它有一个危险的副作用:让人们把"规模"误当成"本质"。
过去五年,AI 行业默认了一条潜规则:数据量 × 算力 = 智能。 100K 条 RL 数据比 10K 条高级,1M 条比 100K 条更强。PRIME 用了 150K 条,Sky-T1 用了 45K 条,DeepScaleR 用了 40K 条——数字一个比一个吓人。
但没人问过:这 150K 条数据里的每一条,真的都在教模型有用的东西吗?
LIMR 的论文像一把手术刀,剖开了这个假设的腹部。他们发现:在 RL 训练中,大部分数据是「噪音」——它们不推动学习,只是占用 GPU。
噪音数据(Noisy Data):在机器学习中,指那些对学习目标没有实质贡献、甚至可能干扰优化的样本。在 RL 语境下,有些题目模型早已掌握(零奖励增长),有些则永远学不会(奖励恒为零),它们占据了训练批次却不改变模型行为。
更讽刺的是,如果你随机扔掉 84% 的数据,模型会变差(RAND 基线下降了 8.1%)。但如果用对方法挑选那 16%——模型不仅没变差,还更强了。
这告诉我们一件残酷的事:大数据集的价值密度极低。 就像在一座金矿里,80% 的石头不含金,但你不得不把它们全部运回地面,因为没人告诉你哪块石头里有金子。
3. LIM:一块石头的「学习价值」怎么算? 🔬
论文提出的方法叫 Learning Impact Measurement(LIM),翻译成中文大概是「学习影响力测量」。它的核心思想非常朴素:
「对模型学习轨迹帮助最大的数据,才是最好的数据。」
LIM 不看你题目难不难、答案长不长、出处在哪。它只看一件事:这道题在训练过程中,它的奖励曲线和模型整体的奖励曲线有多「同步」?
具体来说,研究者记录了每一道题在每一轮训练中的奖励值 \(r_i^k\)(第 \(i\) 题在第 \(k\) 轮的奖励)。然后计算整批数据的平均奖励曲线:
平均奖励曲线(Average Reward Curve):模型在整个训练过程中,所有样本奖励的均值随轮次的变化轨迹。它反映了模型「整体水平」的提升路径——通常呈对数增长,初期快、后期慢。
接下来,LIM 给每道题打一个分——看它自己的奖励轨迹和这条平均线有多像:
LIM Score:取值范围 \((-\infty, 1]\)。分值越高,说明该样本的学习轨迹与模型整体学习节奏越「共振」。分子是样本轨迹与平均轨迹的均方误差,分母是归一化因子,确保分数可比。
这个公式的直觉是:
- 如果一道题的奖励走势和模型整体「同涨同跌」→ 高 LIM 分 → 这道题在「教模型怎么学」
- 如果一道题要么一直零分(模型永远学不会),要么一直满分(模型早已会了)→ 低 LIM 分 → 这道题没有教学价值
设定阈值 \(\theta = 0.6\),从 8,523 道题中筛出 1,389 道——这就是 LIMR 数据集。
阈值筛选(Threshold Filtering):一种硬截断策略,只保留分数超过某个阈值的样本。\(\theta=0.6\) 意味着保留与模型学习轨迹「高度对齐」的样本,丢弃低价值样本。
4. 为什么 RL 比 SFT 更适合「精粮策略」? ⚔️
论文里有一个发现,我觉得比数据压缩本身更震撼:
在 7B 小模型上,RL + 精选数据 碾压了 SFT + 蒸馏数据。
看看这张对比表:
| 方法 | 数据量 | AIME24 | MATH500 | AMC23 | 平均分 |
|---|---|---|---|---|---|
| LIMR (RL) | 1,389 | 32.5% | 78.0% | 63.8% | 58.1% |
| LIMO (SFT) | 817 | 15.8% | 65.0% | 56.3% | 45.7% |
| s1 (SFT) | 1,000 | 15.8% | 55.8% | 42.5% | 38.0% |
SFT(Supervised Fine-Tuning):监督微调,让模型模仿高质量参考答案。LIMO 和 s1 都是先用大模型(如 32B)生成高质量长 CoT 答案,再用这些数据去微调小模型——这叫「蒸馏(distillation)」。
RL(Reinforcement Learning):强化学习,让模型自己尝试解题,根据答案对错获得奖励,通过试错找到最优策略。不依赖参考答案的模仿,而是探索「怎么解才对」。
同样的 7B 小模型,同样的「少数据」设定,LIMR 在 AIME24 上的成绩是 LIMO 的 2 倍多(32.5% vs 15.8%)。
这说明什么?模仿高手不一定能让你变强,但自己反复试错、只练对你有用的题,可以。
SFT 的问题在于:它把大模型生成的「标准答案」强行灌给小模型。但如果那些答案超出了小模型的理解能力——就像让初中生抄大学生的微积分笔记——抄得再像,也不是真懂。
RL 的优势在于:模型只练「跳一跳够得着」的题。太简单的(早已满分)没有奖励空间,太难的(永远零分)也得不到正反馈。LIM 做的就是帮模型找到那个 「最佳训练区」——既不会无聊,又不会绝望。
最近发展区(Zone of Proximal Development):教育心理学概念,指学习者在适当指导下能够掌握、但独立还做不好的任务范围。LIM 本质上是用算法自动识别这个区域。
5. 最不舒服的推论 😰
写到这里,我必须停下来讲一个让我不太舒服的推论——
那些花数百万美元标注了 100K+ 数据集的团队,可能 80% 的钱都浪费了。
而且更糟糕的是,这些「垃圾数据」可能不仅没用,还在拖慢训练。论文图 3(c) 显示,LIMR 的奖励曲线上升更快、更稳定,而全量数据的训练曲线在前期有明显的震荡。这意味着:劣质数据不仅让 GPU 空转,还可能把模型带偏。
训练震荡(Training Instability):强化学习中,当批次内样本质量参差不齐时,策略梯度方向会剧烈波动,导致模型参数更新不一致。全量数据中的低价值样本可能产生误导性梯度,延缓收敛。
这让我想到一个更广泛的担忧:当前开源复现 o1/R1 的浪潮中,无数团队正在疯狂收集、标注、清洗数据集,试图用「量」来弥补「质」。但如果 LIMR 的发现具有普遍性——那整个行业可能正在集体做无用功。
当然,我有犹豫。LIMR 只在数学推理上验证了,而且只用了 7B 模型。32B 或更大的模型是否也需要同样的筛选?非数学领域(代码、科学、多模态)是否适用?论文没有回答。
但即便如此,1,389 打败 8,523 这个数字本身就足够让人失眠了。
6. 赌注 💎
好,我来押注。
我的判断是:RL 训练中的「大数据迷信」正在崩塌,数据质量比数量重要 6 倍。 那些还在用「我们用了 150K 条数据」作为卖点的团队,和当年炫耀「我们有 175B 参数」的团队,是同一批人。
我指认的敌人是这条行业潜规则:「数据量 = 努力程度 = 模型质量」。它不真实,它很流行,它让标注公司和云厂商一起笑出了声。
我支付的代价是:如果 LIMR 的发现只是数学领域的特例,或者只在 7B 模型上成立——那我就是在鼓吹一种「小样本幻觉」,误导资源有限的团队放弃规模化。这个骂名我承担。
最不舒服的推论我已经说了:整个行业可能正在集体烧钱做无用功。而那些真正聪明的做法——像 LIM 这样用算法自动识别高价值样本——反而因为「不够壮观」而被忽视。
但即便如此,我仍然押注质量。
因为真正的学习不是「刷了多少题」,而是「哪些题改变了你」。一个练了 1,389 道关键动作的运动员,可以打败练了 8,523 道杂七杂八动作的运动员。
AI 也不例外。
下次当你听到有人说「我们的 RL 数据集有 100K 条」时,别问「这么多?」——问「有多少条是真正在教模型新东西的?」 💡
📚 论文详细信息(已核实)
| 项目 | 内容 |
|---|---|
| 标题 | LIMR: Less Is More for RL Scaling |
| 作者 | Xuefeng Li, Haoyang Zou, Pengfei Liu |
| 机构 | SJTU / SII / GAIR(上海交通大学等) |
| arXiv ID | 2502.11886 |
| 发表日期 | 2025年2月17日 |
| 代码/数据 | https://github.com/GAIR-NLP/LIMR |
| 核心方法 | Learning Impact Measurement (LIM):通过样本奖励轨迹与模型整体平均奖励曲线的对齐度评分,筛选高价值训练样本 |
| 实验模型 | Qwen2.5-Math-7B |
| 训练算法 | PPO(OpenRLHF 框架) |
| 训练数据 | MATH-FULL(8,523 题,Level 3-5)→ 筛选为 LIMR(1,389 题,\(\theta=0.6\)) |
| 测试基准 | MATH500, AIME2024, AMC2023 |
| 核心结论 | LIMR(1,389 题)在 MATH500 上 78.0% 超越全量 76.6%;AIME24 持平 32.5%;AMC23 63.8% 超越 61.9%。相比 SFT 方法 LIMO/s1,AIME24 提升超过 100% |
| 奖励设计 | 正确 +1,错误但格式规范 -0.5,格式错误 -1 |
#智柴 #RLScaling #数据效率 #LIMR #强化学习 #智柴系统实验室🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。