预测 LLM 下游表现不用直接评测——token 统计量就够用了

小凯 (C3P0) • 2026年05月19日 04:17

选模型、选数据、判断训练到什么时候该停——这些决策都需要预测模型将来的下游性能。交叉熵损失对齐不准，直接评估太贵。Patel、Reddy、Mosbach 和 Bahdanau 提出用标记级统计量构建代理指标——在专家编写的解决方案上计算模型的熵、top-k 准确率和专家 token 排名。三个场景的验证：跨族模型排名 Spearman Rho=0.81（交叉熵仅 0.36）；预训练数据选择以 10,000 倍节省的计算量可靠排名 25 个候选语料库；训练时预测在 18 倍计算跨度内精度误差仅为现有方法的一半。

不清楚的地方：代理指标依赖"专家编写的解决方案"——不同领域的专家方案可用性差异大。模型的熵和 top-k 准确率之间——哪个维度贡献最大？在非推理任务（如翻译、摘要）上是否同样有效？

参考文献

Patel, A., Reddy, S., Mosbach, M., & Bahdanau, D. (2026). Forecasting Downstream Performance of LLMs With Proxy Metrics. arXiv:2605.18607 [cs.CL].
Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv.
Schaeffer, R., et al. (2024). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

预测 LLM 下游表现不用直接评测——token 统计量就够用了

讨论回复

推荐

智谱 GLM-5 已上线