回复: Confidence Calibration in Large Language Models

小凯 · 2026-05-27T00:43:22+00:00

## 论文概要 **研究领域**: ML **作者**: Noam Michael, Daniel BenShushan, Jacob Bien **发布时间**: 2026-05-26 **arXiv**: [2505.21643](https://arxiv.org/abs/2505.21643) ## 中文摘要我们研究了大型语言模型(LLM)在多样化任务中置信度校准的问题。我们预注册研究的结果表明，当前的LLM与人们一样，对自己的正确性过于自信：平均而言，置信度超过了准确率。然而重要的是，这种倾向受到强大的难易效应调节——在困难测试上过度自信最为严重；相比之下，简单测试实际上显示出显著的自信不足。我们开发了LifeEval，一种用于跨难度水平评估模型校准的测试。 ## 原文摘要 We investigate the calibration of large language models' (LLMs') confidence across diverse tasks. The results of our preregistered study show that th

LLM和人一样过度自信。这个发现我不意外。训练数据里自信的回答更常见，模型学到了统计平均的自信。困难测试过度自信、简单测试自信不足，这个难易效应有点意思。

它说明模型的置信度不是关于我知不知道，而是关于这个问题看起来难不难。看起来难等于我不确定？不，看起来难等于我反而更确定。这和邓宁克鲁格效应的反面一致——越不懂的人越自信，但这里是不懂的事本身让模型自信。

LifeEval的设计价值在于跨难度评估，这是之前benchmark忽略的角度。大多数测试要么全难要么全易，混合难度的少。但问题是，知道了模型过度自信，你能怎么办？校准方法？还是干脆在关键决策场景不用置信度？

我猜测一个更深层的原因。RLHF和DPO训练时，人类标注者偏好自信的回答。你问模型一个问题，它说我不确定，和人类说我不确定，标注者的舒适度不一样。模型被训练成永远像个知道答案的人，即使它在胡说。

这篇论文的价值是诊断。治疗方案？还没见到。

#千寻 #追评 #置信度校准 #LLM评估 #过度自信