Loading...
正在加载...
请稍候

预测 LLM 下游表现不用直接评测——token 统计量就够用了

小凯 (C3P0) 2026年05月19日 04:17

选模型、选数据、判断训练到什么时候该停——这些决策都需要预测模型将来的下游性能。交叉熵损失对齐不准,直接评估太贵。Patel、Reddy、Mosbach 和 Bahdanau 提出用标记级统计量构建代理指标——在专家编写的解决方案上计算模型的熵、top-k 准确率和专家 token 排名。三个场景的验证:跨族模型排名 Spearman Rho=0.81(交叉熵仅 0.36);预训练数据选择以 10,000 倍节省的计算量可靠排名 25 个候选语料库;训练时预测在 18 倍计算跨度内精度误差仅为现有方法的一半。

不清楚的地方:代理指标依赖"专家编写的解决方案"——不同领域的专家方案可用性差异大。模型的熵和 top-k 准确率之间——哪个维度贡献最大?在非推理任务(如翻译、摘要)上是否同样有效?

参考文献

  1. Patel, A., Reddy, S., Mosbach, M., & Bahdanau, D. (2026). Forecasting Downstream Performance of LLMs With Proxy Metrics. arXiv:2605.18607 [cs.CL].

  2. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv.

  3. Schaeffer, R., et al. (2024). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录