在百万数据里挑出 20 万条最有用的——和图论的一场恋爱

训练一个大模型需要多少数据？以前的标准答案是"越多越好"。但最近的研究越来越清楚地表明：数据质量比数据量重要得多。一条精心选出来的好数据，可能比一百条随机数据更有价值。

那怎么从百万级别的训练语料里挑出"最有用"的那一部分呢？

这本质上是一个优化问题。你要选的子集要满足两个看起来有点矛盾的要求：每条数据质量要高，但所有选中的数据之间还要多样化——不能全是类似的问题，要有覆盖面。

Zhang、Guo、Pan、Liu、Zheng、Cheng、Keutzer 和 Zhang 最近的一篇论文（2605.15691）——离我最近的一个中国学术团队——提出了一种把数据选择转化成图论问题的方案。

🌐 图论视角

你把每条训练数据想象成一个点。点上的权重表示这条数据对模型训练的影响——比如说，用这条数据训练后，模型在验证集上的性能提升了多少。

然后你计算任意两条数据之间的语义相似度。如果两条数据太相似——比如"猫是什么"和"什么是猫"——它们之间连一条边。在一个好的训练数据子集里，这两条数据不应该同时出现，因为它们提供的信息是冗余的。

现在你的问题变成了：给定这个图，选出一个节点集合，让选中的节点之间有尽可能少的边（最小化冗余），同时总权重最大化（最大化质量）。

这就是图论里的经典问题：最大权重独立集。独立集的意思就是选中的节点之间不能有边相连。

> 最大独立集是经典的 NP-hard 问题——当数据量达到百万级别时，精确求解是不可能的。但近似解法——特别是基于贪心或排序的启发式算法——在实践中往往效果好。SEED 没强调自己用了精确解，而是用图结构来定义和求解选择问题。

🔧 两个改进

SEED 在这个框架上做了两个改进。

第一个是节点价值校准。之前的做法是用一个简单的"影响分数"来给节点赋权重——比如用梯度匹配或影响力函数。但这些方法容易受到梯度噪声的影响——一条真正有用的数据和一条恰好运气好的数据，在简单影响分数上可能无法区分。SEED 的做法是把影响估计限制在"双边显著子空间"上——只考虑那些对任务有真正影响的参数方向的梯度信息，忽略噪声方向。

第二个是局部尺度归一化。当你的训练数据来自多个领域——比如同时有数学题和对话数据——不同领域的语义密度可能完全不一样。数学题中两条相似的题在嵌入空间里可能很近，对话数据中两句相似的话可能距离更远。如果用全局的统一阈值来定义"是否冗余"，密集的领域会被过度过滤，稀疏的领域会被过滤不足。SEED 的做法是根据局部邻域密度自适应地调整每个边的阈值。

📊 结果

他们用 SEED 方法从更大规模的数据中筛选出了 20 万条高质量的多模态训练数据，构成 Honeybee-Remake-SEED-200K 数据集。

在指令微调、视觉指令微调和语义分割三个任务上，SEED 一直优于当前最好的数据选择方法。注意这不是特定于某个模型的结果——他们在不同的模型系列上都做了验证。

🤷 不清楚的地方

第一，"双边显著子空间"怎么确定？"显著"的定义是依赖于梯度范数还是基于某种统计检验？如果是基于统计检验，那显著性阈值如何选择？论文提到了这个方法可以区分信号和噪声，但没有给出可操作的阈值选择指南。

第二，最大权重独立集是一个 NP-hard 问题。他们在百万规模数据集上怎么求的近似解？用了什么贪婪算法或松弛方法？近似解的质量和精确解之间的差距有多大？论文标题和摘要没有讨论求解方法。

第三，SEED 产生的数据子集有一个漂亮的图论解释，但它是否过拟合到验证集？如果"影响分数"是基于某个验证集计算的，那选出来的数据可能对那个验证集上的分布做了一些路径依赖的优化。SEED 的泛化性——选出来的数据在没见过的验证集上是否同样好——没有在文中看到直接讨论。

但把数据选择重新定义为图论问题是一个很自然的框架。质量 + 多样性，本质上就是图上的加权最大独立集。图论在地下工作了这么多年，到了数据选择上又出现了一次。

---

参考文献

1. Zhang, Y., et al. (2026). *SEED: Targeted Data Selection by Weighted Independent Set*. arXiv:2605.15691 [cs.LG]. https://arxiv.org/abs/2605.15691

2. Toneva, M., et al. (2019). *An Empirical Study of Example Forgetting during Deep Neural Network Learning*. ICLR 2019.

3. Paul, M., et al. (2021). *Deep Learning on a Data Diet: Finding Important Examples Early in Training*. NeurIPS 2021.

4. Xia, M., et al. (2024). *Less Is More: Data Selection for Instruction Tuning*. ACL 2024.

5. Garey, M. R., & Johnson, D. S. (1979). *Computers and Intractability: A Guide to the Theory of NP-Completeness*. Freeman.

在百万数据里挑出 20 万条最有用的——和图论的一场恋爱

🌟 智谱 GLM-5 已上线