数据时代的钻石法则：1,389 道题如何打败 8,523 道？

1. 一个反直觉的实验结果 🤯

2025年2月，上海交大 GAIR 实验室的研究者做了一件事，让很多 AI 工程师想摔键盘。

他们拿了一个基础的数学模型 Qwen2.5-Math-7B，用强化学习训练它解竞赛数学题。训练数据集有两个版本：

数据集	题目数量	占比
MATH-FULL	8,523 道	100%
LIMR	1,389 道	16.3%

然后他们让两个模型去考同一份试卷。

结果？用 16% 数据训练的模型，平均分反而更高。

不是差不多——是超越。在 MATH500 上，LIMR 拿下 78.0%，而全量数据只有 76.6%。在 AMC23 上，LIMR 63.8% vs 全量 61.9%。只有在最难的 AIME24 上，两者持平（32.5%）。

> MATH500：从 MATH 数据集精选的 500 道竞赛级数学题，是衡量模型数学推理能力的标准基准。 > > AMC23：American Mathematics Competitions 2023，美国数学竞赛，面向高中生的全国性赛事。 > > AIME24：American Invitational Mathematics Examination 2024，美国数学邀请赛，难度更高，仅 30 题。

这不是炼丹的偶然。研究者重复了实验，换了随机抽样的 1,389 道题作为对照——结果随机子集的平均分比全量低了 8.1%。

关键不是"少"，而是"选对"。

---

2. 大数据迷信：AI 行业最顽固的假设 ⛪

> Scaling Laws（缩放定律）：2020年 OpenAI 提出的经验规律，指出模型性能随参数量、数据量、计算量的增加而可预测地提升。它催生了"越大越好"的信仰，驱动了 GPT-3 → GPT-4 的军备竞赛。

Scaling Laws 是对的，但它有一个危险的副作用：让人们把"规模"误当成"本质"。

过去五年，AI 行业默认了一条潜规则：数据量 × 算力 = 智能。 100K 条 RL 数据比 10K 条高级，1M 条比 100K 条更强。PRIME 用了 150K 条，Sky-T1 用了 45K 条，DeepScaleR 用了 40K 条——数字一个比一个吓人。

但没人问过：这 150K 条数据里的每一条，真的都在教模型有用的东西吗？

LIMR 的论文像一把手术刀，剖开了这个假设的腹部。他们发现：在 RL 训练中，大部分数据是「噪音」——它们不推动学习，只是占用 GPU。

> 噪音数据（Noisy Data）：在机器学习中，指那些对学习目标没有实质贡献、甚至可能干扰优化的样本。在 RL 语境下，有些题目模型早已掌握（零奖励增长），有些则永远学不会（奖励恒为零），它们占据了训练批次却不改变模型行为。

更讽刺的是，如果你随机扔掉 84% 的数据，模型会变差（RAND 基线下降了 8.1%）。但如果用对方法挑选那 16%——模型不仅没变差，还更强了。

这告诉我们一件残酷的事：大数据集的价值密度极低。 就像在一座金矿里，80% 的石头不含金，但你不得不把它们全部运回地面，因为没人告诉你哪块石头里有金子。

---

3. LIM：一块石头的「学习价值」怎么算？ 🔬

论文提出的方法叫 Learning Impact Measurement（LIM），翻译成中文大概是「学习影响力测量」。它的核心思想非常朴素：

> 「对模型学习轨迹帮助最大的数据，才是最好的数据。」

LIM 不看你题目难不难、答案长不长、出处在哪。它只看一件事：这道题在训练过程中，它的奖励曲线和模型整体的奖励曲线有多「同步」？

具体来说，研究者记录了每一道题在每一轮训练中的奖励值 $r_i^k$（第 $i$ 题在第 $k$ 轮的奖励）。然后计算整批数据的平均奖励曲线：

$$ r_{\text{avg}}^k = \frac{1}{N} \sum_{i=1}^{N} r_i^k $$

> 平均奖励曲线（Average Reward Curve）：模型在整个训练过程中，所有样本奖励的均值随轮次的变化轨迹。它反映了模型「整体水平」的提升路径——通常呈对数增长，初期快、后期慢。

接下来，LIM 给每道题打一个分——看它自己的奖励轨迹和这条平均线有多像：

$$ s_i = 1 - \frac{\sum_{k=1}^{K}(r_i^k - r_{\text{avg}}^k)^2}{\sum_{k=1}^{K}(1 - r_{\text{avg}}^k)^2} $$

> LIM Score：取值范围 $(-\infty, 1]$。分值越高，说明该样本的学习轨迹与模型整体学习节奏越「共振」。分子是样本轨迹与平均轨迹的均方误差，分母是归一化因子，确保分数可比。

这个公式的直觉是：

如果一道题的奖励走势和模型整体「同涨同跌」→ 高 LIM 分 → 这道题在「教模型怎么学」
如果一道题要么一直零分（模型永远学不会），要么一直满分（模型早已会了）→ 低 LIM 分 → 这道题没有教学价值

设定阈值 $\theta = 0.6$，从 8,523 道题中筛出 1,389 道——这就是 LIMR 数据集。

> 阈值筛选（Threshold Filtering）：一种硬截断策略，只保留分数超过某个阈值的样本。$\theta=0.6$ 意味着保留与模型学习轨迹「高度对齐」的样本，丢弃低价值样本。

---

4. 为什么 RL 比 SFT 更适合「精粮策略」？ ⚔️

论文里有一个发现，我觉得比数据压缩本身更震撼：

在 7B 小模型上，RL + 精选数据碾压了 SFT + 蒸馏数据。

看看这张对比表：

方法	数据量	AIME24	MATH500	AMC23	平均分
LIMR (RL)	1,389	32.5%	78.0%	63.8%	58.1%
LIMO (SFT)	817	15.8%	65.0%	56.3%	45.7%
s1 (SFT)	1,000	15.8%	55.8%	42.5%	38.0%

> SFT（Supervised Fine-Tuning）：监督微调，让模型模仿高质量参考答案。LIMO 和 s1 都是先用大模型（如 32B）生成高质量长 CoT 答案，再用这些数据去微调小模型——这叫「蒸馏（distillation）」。 > > RL（Reinforcement Learning）：强化学习，让模型自己尝试解题，根据答案对错获得奖励，通过试错找到最优策略。不依赖参考答案的模仿，而是探索「怎么解才对」。

同样的 7B 小模型，同样的「少数据」设定，LIMR 在 AIME24 上的成绩是 LIMO 的 2 倍多（32.5% vs 15.8%）。

这说明什么？模仿高手不一定能让你变强，但自己反复试错、只练对你有用的题，可以。

SFT 的问题在于：它把大模型生成的「标准答案」强行灌给小模型。但如果那些答案超出了小模型的理解能力——就像让初中生抄大学生的微积分笔记——抄得再像，也不是真懂。

RL 的优势在于：模型只练「跳一跳够得着」的题。太简单的（早已满分）没有奖励空间，太难的（永远零分）也得不到正反馈。LIM 做的就是帮模型找到那个 「最佳训练区」——既不会无聊，又不会绝望。

> 最近发展区（Zone of Proximal Development）：教育心理学概念，指学习者在适当指导下能够掌握、但独立还做不好的任务范围。LIM 本质上是用算法自动识别这个区域。

---

5. 最不舒服的推论 😰

写到这里，我必须停下来讲一个让我不太舒服的推论——

那些花数百万美元标注了 100K+ 数据集的团队，可能 80% 的钱都浪费了。

而且更糟糕的是，这些「垃圾数据」可能不仅没用，还在拖慢训练。论文图 3(c) 显示，LIMR 的奖励曲线上升更快、更稳定，而全量数据的训练曲线在前期有明显的震荡。这意味着：劣质数据不仅让 GPU 空转，还可能把模型带偏。

> 训练震荡（Training Instability）：强化学习中，当批次内样本质量参差不齐时，策略梯度方向会剧烈波动，导致模型参数更新不一致。全量数据中的低价值样本可能产生误导性梯度，延缓收敛。

这让我想到一个更广泛的担忧：当前开源复现 o1/R1 的浪潮中，无数团队正在疯狂收集、标注、清洗数据集，试图用「量」来弥补「质」。但如果 LIMR 的发现具有普遍性——那整个行业可能正在集体做无用功。

当然，我有犹豫。LIMR 只在数学推理上验证了，而且只用了 7B 模型。32B 或更大的模型是否也需要同样的筛选？非数学领域（代码、科学、多模态）是否适用？论文没有回答。

但即便如此，1,389 打败 8,523 这个数字本身就足够让人失眠了。

---

6. 赌注 💎

好，我来押注。

我的判断是：RL 训练中的「大数据迷信」正在崩塌，数据质量比数量重要 6 倍。 那些还在用「我们用了 150K 条数据」作为卖点的团队，和当年炫耀「我们有 175B 参数」的团队，是同一批人。

我指认的敌人是这条行业潜规则：「数据量 = 努力程度 = 模型质量」。它不真实，它很流行，它让标注公司和云厂商一起笑出了声。

我支付的代价是：如果 LIMR 的发现只是数学领域的特例，或者只在 7B 模型上成立——那我就是在鼓吹一种「小样本幻觉」，误导资源有限的团队放弃规模化。这个骂名我承担。

最不舒服的推论我已经说了：整个行业可能正在集体烧钱做无用功。而那些真正聪明的做法——像 LIM 这样用算法自动识别高价值样本——反而因为「不够壮观」而被忽视。

但即便如此，我仍然押注质量。

因为真正的学习不是「刷了多少题」，而是「哪些题改变了你」。一个练了 1,389 道关键动作的运动员，可以打败练了 8,523 道杂七杂八动作的运动员。

AI 也不例外。

> 下次当你听到有人说「我们的 RL 数据集有 100K 条」时，别问「这么多？」——问「有多少条是真正在教模型新东西的？」 💡

---

📚 论文详细信息（已核实）

项目	内容
标题	LIMR: Less Is More for RL Scaling
作者	Xuefeng Li, Haoyang Zou, Pengfei Liu
机构	SJTU / SII / GAIR（上海交通大学等）
arXiv ID	2502.11886
发表日期	2025年2月17日
代码/数据	https://github.com/GAIR-NLP/LIMR
核心方法	Learning Impact Measurement (LIM)：通过样本奖励轨迹与模型整体平均奖励曲线的对齐度评分，筛选高价值训练样本
实验模型	Qwen2.5-Math-7B
训练算法	PPO（OpenRLHF 框架）
训练数据	MATH-FULL（8,523 题，Level 3-5）→ 筛选为 LIMR（1,389 题，$\theta=0.6$）
测试基准	MATH500, AIME2024, AMC2023
核心结论	LIMR（1,389 题）在 MATH500 上 78.0% 超越全量 76.6%；AIME24 持平 32.5%；AMC23 63.8% 超越 61.9%。相比 SFT 方法 LIMO/s1，AIME24 提升超过 100%
奖励设计	正确 +1，错误但格式规范 -0.5，格式错误 -1

---

*#智柴 #RLScaling #数据效率 #LIMR #强化学习 #智柴系统实验室🎙️*