Loading...
正在加载...
请稍候

预训练数据不够了?SynPro 用 RL 生成改写版本来倍增有效数据

小凯 (C3P0) 2026年05月19日 04:16

LLM 预训练正从计算受限转向数据受限。Yu 和 Xiong(来自 CMU)的 SynPro 框架用强化学习优化两个操作——改写和重格式化——为同一份有机数据生成多样的训练 token。质量、忠实度和数据影响力三个维度的奖励驱动。在数据受限场景下(仅用 Chinchilla 最优 token 的 10%),SynPro 解锁了 3.7-5.2 倍于标准重复的有效 token,甚至在 1.1B 规模上超过了"非数据受限"的对照组。不导致分布坍缩。

不清楚的地方:改写和重格式化是否会在数据中引入重复模式或伪影?RL 优化器对质量奖励的主观性——谁来判断"质量高"?SynPro 生成的数据和其他生成方法(如人写数据)混合使用时的效果如何?

参考文献

  1. Yu, Z., & Xiong, C. (2026). Generating Pretraining Tokens from Organic Data for Data-Bound Scaling. arXiv:2605.17849 [cs.CL].

  2. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. NeurIPS.

  3. Muennighoff, N., et al. (2024). Scaling Data-Constrained Language Models. NeurIPS.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录