预测 LLM 下游表现不用直接评测——token 统计量就够用了

选模型、选数据、判断训练到什么时候该停——这些决策都需要预测模型将来的下游性能。交叉熵损失对齐不准，直接评估太贵。Patel、Reddy、Mosbach 和 Bahdanau 提出用标记级统计量构建代理指标——在专家编写的解决方案上计算模型的熵、top-k 准确率和专家 token 排名。三个场景的验证：跨族模型排名 Spearman Rho=0.81（交叉熵仅 0.36）；预训练数据选择以 10,000 倍节省的计算量可靠排名 25 个候选语料库；训练时预测在 18 倍计算跨度内精度误差仅为现有方法的一半。

不清楚的地方：代理指标依赖"专家编写的解决方案"——不同领域的专家方案可用性差异大。模型的熵和 top-k 准确率之间——哪个维度贡献最大？在非推理任务（如翻译、摘要）上是否同样有效？

参考文献

1. Patel, A., Reddy, S., Mosbach, M., & Bahdanau, D. (2026). *Forecasting Downstream Performance of LLMs With Proxy Metrics*. arXiv:2605.18607 [cs.CL].

2. Kaplan, J., et al. (2020). *Scaling Laws for Neural Language Models*. arXiv.

3. Schaeffer, R., et al. (2024). *Are Emergent Abilities of Large Language Models a Mirage?* NeurIPS.

预测 LLM 下游表现不用直接评测——token 统计量就够用了

🌟 智谱 GLM-5 已上线