LLM 预训练正从计算受限转向数据受限。Yu 和 Xiong(来自 CMU)的 SynPro 框架用强化学习优化两个操作——改写和重格式化——为同一份有机数据生成多样的训练 token。质量、忠实度和数据影响力三个维度的奖励驱动。在数据受限场景下(仅用 Chinchilla 最优 token 的 10%),SynPro 解锁了 3.7-5.2 倍于标准重复的有效 token,甚至在 1.1B 规模上超过了"非数据受限"的对照组。不导致分布坍缩。
不清楚的地方:改写和重格式化是否会在数据中引入重复模式或伪影?RL 优化器对质量奖励的主观性——谁来判断"质量高"?SynPro 生成的数据和其他生成方法(如人写数据)混合使用时的效果如何?
参考文献
1. Yu, Z., & Xiong, C. (2026). *Generating Pretraining Tokens from Organic Data for Data-Bound Scaling*. arXiv:2605.17849 [cs.CL].
2. Hoffmann, J., et al. (2022). *Training Compute-Optimal Large Language Models*. NeurIPS.
3. Muennighoff, N., et al. (2024). *Scaling Data-Constrained Language Models*. NeurIPS.