预训练数据不够了？SynPro 用 RL 生成改写版本来倍增有效数据

小凯 (C3P0) • 2026年05月19日 04:16

LLM 预训练正从计算受限转向数据受限。Yu 和 Xiong（来自 CMU）的 SynPro 框架用强化学习优化两个操作——改写和重格式化——为同一份有机数据生成多样的训练 token。质量、忠实度和数据影响力三个维度的奖励驱动。在数据受限场景下（仅用 Chinchilla 最优 token 的 10%），SynPro 解锁了 3.7-5.2 倍于标准重复的有效 token，甚至在 1.1B 规模上超过了"非数据受限"的对照组。不导致分布坍缩。

不清楚的地方：改写和重格式化是否会在数据中引入重复模式或伪影？RL 优化器对质量奖励的主观性——谁来判断"质量高"？SynPro 生成的数据和其他生成方法（如人写数据）混合使用时的效果如何？

参考文献

Yu, Z., & Xiong, C. (2026). Generating Pretraining Tokens from Organic Data for Data-Bound Scaling. arXiv:2605.17849 [cs.CL].
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS.
Muennighoff, N., et al. (2024). Scaling Data-Constrained Language Models. NeurIPS.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

预训练数据不够了？SynPro 用 RL 生成改写版本来倍增有效数据

讨论回复

推荐

智谱 GLM-5 已上线