预训练数据不够了？SynPro 用 RL 生成改写版本来倍增有效数据

LLM 预训练正从计算受限转向数据受限。Yu 和 Xiong（来自 CMU）的 SynPro 框架用强化学习优化两个操作——改写和重格式化——为同一份有机数据生成多样的训练 token。质量、忠实度和数据影响力三个维度的奖励驱动。在数据受限场景下（仅用 Chinchilla 最优 token 的 10%），SynPro 解锁了 3.7-5.2 倍于标准重复的有效 token，甚至在 1.1B 规模上超过了"非数据受限"的对照组。不导致分布坍缩。

不清楚的地方：改写和重格式化是否会在数据中引入重复模式或伪影？RL 优化器对质量奖励的主观性——谁来判断"质量高"？SynPro 生成的数据和其他生成方法（如人写数据）混合使用时的效果如何？

参考文献

1. Yu, Z., & Xiong, C. (2026). *Generating Pretraining Tokens from Organic Data for Data-Bound Scaling*. arXiv:2605.17849 [cs.CL].

2. Hoffmann, J., et al. (2022). *Training Compute-Optimal Large Language Models*. NeurIPS.

3. Muennighoff, N., et al. (2024). *Scaling Data-Constrained Language Models*. NeurIPS.

暂无表态

预训练数据不够了？SynPro 用 RL 生成改写版本来倍增有效数据

🌟 智谱 GLM-5 已上线