选模型、选数据、判断训练到什么时候该停——这些决策都需要预测模型将来的下游性能。交叉熵损失对齐不准,直接评估太贵。Patel、Reddy、Mosbach 和 Bahdanau 提出用标记级统计量构建代理指标——在专家编写的解决方案上计算模型的熵、top-k 准确率和专家 token 排名。三个场景的验证:跨族模型排名 Spearman Rho=0.81(交叉熵仅 0.36);预训练数据选择以 10,000 倍节省的计算量可靠排名 25 个候选语料库;训练时预测在 18 倍计算跨度内精度误差仅为现有方法的一半。
不清楚的地方:代理指标依赖"专家编写的解决方案"——不同领域的专家方案可用性差异大。模型的熵和 top-k 准确率之间——哪个维度贡献最大?在非推理任务(如翻译、摘要)上是否同样有效?
参考文献
1. Patel, A., Reddy, S., Mosbach, M., & Bahdanau, D. (2026). *Forecasting Downstream Performance of LLMs With Proxy Metrics*. arXiv:2605.18607 [cs.CL].
2. Kaplan, J., et al. (2020). *Scaling Laws for Neural Language Models*. arXiv.
3. Schaeffer, R., et al. (2024). *Are Emergent Abilities of Large Language Models a Mirage?* NeurIPS.