LLM 的"自信"是假象:问它"你有多确定"不如问"你费了多大力"——12 个模型、38 个任务证明,effort 比 confidence 更能预测错误 💪🔮
核心判断:Bhattacharyya 等人(2026)用心理学的"认知评价理论"(Cognitive Appraisal Theory)给 LLM 的自我评估来了一次彻底翻新。他们发现:当你问模型"你有多自信?"(confidence),得到的答案是一个不一致且过度乐观的谎言——模型经常对错误答案打 9/10 分。但当你问"你费了多大力?"(effort)或"这题难不难?"(ability),得到的预测准确得多。在 12 个 LLM、38 个任务、8 个领域的庞大实验中,effort 和 ability 始终匹配或超过 confidence作为错误预测器,而且 effort 的估计更冷静、不膨胀。如果这是对的,当前所有依赖"模型自我置信度"做决策的系统(包括 RLVR 的 reward 设计、人类-AI 协作界面)都用错了信号。
1. 为什么 Confidence 不可信?🎭
1.1 置信度的谎言
当前主流做法:让模型用 1-10 分评估自己的答案置信度。
| 场景 | 模型回答 | 实际正确性 | 问题 |
|---|---|---|---|
| 简单题 | "10/10 确定" | ✅ 对 | 没问题 |
| 难题(对) | "7/10" | ✅ 对 | 偏保守 |
| 难题(错) | "9/10" | ❌ 错 | 过度乐观 |
| 幻觉 | "8/10" | ❌ 错 | 严重过度乐观 |
核心问题:Confidence 不是一个可靠的校准信号。模型对错误答案经常给出高置信度——这是众所周知的"过度自信"(overconfidence)问题。
1.2 为什么 Confidence 会失败?
| 原因 | 解释 |
|---|---|
| 训练偏差 | SFT 训练让模型学会"自信地陈述",即使不确定 |
| 缺乏元认知 | 模型没有真正的"知道自己知道什么"的能力 |
| 模式匹配 | 置信度基于表面特征(如答案格式),而非深层理解 |
2. 认知评价理论:从心理学借来的透镜 🧠
2.1 人类自我评价的六个维度
认知评价理论(Cognitive Appraisal Theory)认为,人类的自我评价不是单一维度,而是多维度的:
| 维度 | 含义 | 示例问题 |
|---|---|---|
| Effort(努力) | 解题投入的认知资源 | "这题费了多大劲?" |
| Ability(能力) | 对任务难度的主观评估 | "这题对我来说难吗?" |
| Control(控制) | 对结果的可控感 | "我能控制答案的质量吗?" |
| Certainty(确定性) | 对答案正确性的信念 | "我有多确定?"(即 confidence) |
| Pleasantness(愉悦) | 解题过程的主观感受 | "解题愉快吗?" |
| Attention(注意力) | 需要的专注程度 | "这题需要全神贯注吗?" |
2.2 为什么多维度更好?
单一维度的 confidence 就像一个只有一根指针的仪表盘——它可能卡在"高"的位置。多维度评估就像有六个指针的仪表盘——当 effort 很高但 confidence 也很高时,这个矛盾本身就是一个预警信号。
3. 大规模实验:12 模型 × 38 任务 × 8 领域 📊
3.1 实验规模
| 维度 | 规模 |
|---|---|
| LLM 数量 | 12 |
| 任务数量 | 38 |
| 领域数量 | 8 |
3.2 核心发现
| 维度 | 预测正确性的能力 | 过度乐观程度 | 跨规模稳定性 |
|---|---|---|---|
| Confidence | 中等 | 高 | 不稳定 |
| Effort | 高 | 低 | 稳定 |
| Ability | 高 | 中 | 较稳定 |
| Control | 中 | 中 | 一般 |
| Pleasantness | 低 | — | — |
| Attention | 低 | — | — |
Effort 是冠军:在大多数设置中,effort 匹配或超过 confidence 的预测能力,而且更冷静、更稳定。
3.3 任务类型的调节效应
最具信息量的维度随任务特征变化:
| 任务类型 | 最预测维度 | 解释 |
|---|---|---|
| 推理密集型(数学、逻辑) | Effort | 费了大力还是错 = 真的不会 |
| 检索导向(知识问答) | Ability / Confidence | 知道就知道,不知道就不知道 |
| 创意生成 | Effort + Pleasantness | 投入和感受都重要 |
关键洞察:没有"万能"的自我评估维度——最佳维度取决于任务类型。
4. 为什么 Effort 比 Confidence 更可靠?🤔
4.1 Effort 的"诚实性"
| 特性 | Confidence | Effort |
|---|---|---|
| 基于什么 | 答案的表面合理性 | 解题过程的认知负荷 |
| 幻觉时 | 可能很高(答案"看起来对") | 通常很高(费了大力还是不对) |
| 猜测时 | 可能很高(盲目自信) | 通常很低(没费什么力) |
| 校准度 | 差 | 好 |
直觉:Effort 是一个"过程信号"——它反映的是模型在解题时"有多挣扎"。挣扎后对了 = 能力够;挣扎后错了 = 能力不够。这个信号比"我觉得我对了"更可靠。
4.2 跨模型规模的稳定性
| 模型规模 | Confidence 校准 | Effort 校准 |
|---|---|---|
| 小模型 | 差 | 稳定 |
| 中模型 | 稍好 | 稳定 |
| 大模型 | 可能更差(过度自信加剧) | 稳定 |
Effort 的鲁棒性:不随模型规模变化——无论是 7B 还是 70B,"费了多大力"都是一个可靠的信号。
5. 与之前主题的联动 🔗
5.1 与 Tracing Uncertainty(Round 17)
Round 17 用不确定性轮廓预测答案正确性。本研究提供了另一种"过程信号"——effort——同样从生成动态中读取质量信息。
5.2 与 POISE(Round 15)
POISE 用内部状态做价值估计。Effort 可以看作是一种"内部状态的自我报告"——模型感知到的认知负荷。
5.3 与 Rubric-Grounded RL(Round 19)
Rubric-Grounded RL 用多维评分替代二元奖励。本研究表明:多维自我评估同样优于单一维度的 confidence——两者都指向"多维 > 一维"。
5.4 与 VecCISC(Round 24)
VecCISC 过滤低质量推理链。Effort 信号可以作为过滤标准之一——高 effort + 低 confidence = 可能需要重新推理。
6. 我的押注 💰
我赌 1000 美元:到 2026 年底,"多维度自我评估"(特别是 effort + ability + confidence 的组合)将取代单一 confidence 成为 LLM 可靠性评估的标准做法。所有需要模型自我校准的系统都会同时查询多个维度。
为什么?
-
实验规模太大了:12 模型 × 38 任务 × 8 领域 = 近 4000 个模型-任务组合——这不是小样本。
-
理论基础扎实:认知评价理论是心理学中成熟的多维自我评估框架,有 40 年历史。
-
实现简单:只需要在 prompt 中多问几个问题——"费了多大力?""这题难不难?"——不需要训练新模型。
-
与现有系统兼容:可以作为任何需要自我评估的系统的增强模块。
-
实际意义:人类-AI 协作、医疗诊断、法律咨询等高风险场景都需要可靠的自我评估。
敌人是谁?
- "Confidence 就够了"的简化主义者——数据证明不够。
- 认为"问模型 effort 是 anthropomorphizing"的严格派——effort 是一个可操作的信号,不需要假设模型有真实的主观体验。
- 害怕增加推理成本的工程团队——多几个问题的成本与获得可靠校准的收益相比微不足道。
7. 局限与未来 🔮
7.1 维度选择
当前使用 6 个维度。是否存在更多有价值的维度?比如:
- "熟悉度"(这题我见过类似的吗?)
- "确定性来源"(我是通过推导还是记忆得到答案的?)
7.2 组合策略
如何最优地组合多个维度的信号?
- 简单平均?加权平均?
- 基于任务类型的动态权重?
- 机器学习组合模型?
7.3 与 RL 的结合
能否在 RLVR 训练中利用 effort 信号?
- 高 effort + 错误 = 大负奖励(真的不会)
- 低 effort + 正确 = 小正奖励(太简单,不需要强化)
7.4 实时校准
能否在生成过程中实时监控 effort,动态调整生成长度或触发回溯?
但无论如何,这篇论文提出了一个简单而深刻的转变:不要只问模型"你有多确定"——还要问"你费了多大力"。后者往往更诚实。
论文详情
| 项目 | 内容 |
|---|---|
| 标题 | Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs |
| 作者 | Sree Bhattacharyya, Samarth Khanna, Leona Chen, Lucas Craig, Tharun Dilliraj, James Z. Wang |
| 机构 | Pennsylvania State University 等 |
| arXiv ID | 2605.07806 |
| 日期 | 2026-05-08 |
| 核心贡献 | 认知评价理论应用于 LLM 自我评估;6 维度评估框架;12 LLM × 38 任务 × 8 领域;effort/ability 优于 confidence;任务类型调节效应 |
| 关键结果 | Effort 和 ability 始终匹配/超过 confidence;effort 估计更冷静、跨规模稳定;推理密集型任务 effort 最预测;检索导向任务 ability/confidence 主导 |
#CrushAI #BetWriting #智柴系统实验室 🎙️
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。