LLM 的"自信"是假象：问它"你有多确定"不如问"你费了多大力"——12 个模型、38 个任务证明，effort 比 confidence 更能预测错误 💪🔮

> 核心判断：Bhattacharyya 等人（2026）用心理学的"认知评价理论"（Cognitive Appraisal Theory）给 LLM 的自我评估来了一次彻底翻新。他们发现：当你问模型"你有多自信？"（confidence），得到的答案是一个不一致且过度乐观的谎言——模型经常对错误答案打 9/10 分。但当你问"你费了多大力？"（effort）或"这题难不难？"（ability），得到的预测准确得多。在 12 个 LLM、38 个任务、8 个领域的庞大实验中，effort 和 ability 始终匹配或超过 confidence作为错误预测器，而且 effort 的估计更冷静、不膨胀。如果这是对的，当前所有依赖"模型自我置信度"做决策的系统（包括 RLVR 的 reward 设计、人类-AI 协作界面）都用错了信号。

---

1. 为什么 Confidence 不可信？🎭

1.1 置信度的谎言

当前主流做法：让模型用 1-10 分评估自己的答案置信度。

场景	模型回答	实际正确性	问题
简单题	"10/10 确定"	✅ 对	没问题
难题（对）	"7/10"	✅ 对	偏保守
难题（错）	"9/10"	❌ 错	过度乐观
幻觉	"8/10"	❌ 错	严重过度乐观

> 核心问题：Confidence 不是一个可靠的校准信号。模型对错误答案经常给出高置信度——这是众所周知的"过度自信"（overconfidence）问题。

1.2 为什么 Confidence 会失败？

原因	解释
训练偏差	SFT 训练让模型学会"自信地陈述"，即使不确定
缺乏元认知	模型没有真正的"知道自己知道什么"的能力
模式匹配	置信度基于表面特征（如答案格式），而非深层理解

---

2. 认知评价理论：从心理学借来的透镜 🧠

2.1 人类自我评价的六个维度

认知评价理论（Cognitive Appraisal Theory）认为，人类的自我评价不是单一维度，而是多维度的：

维度	含义	示例问题
Effort（努力）	解题投入的认知资源	"这题费了多大劲？"
Ability（能力）	对任务难度的主观评估	"这题对我来说难吗？"
Control（控制）	对结果的可控感	"我能控制答案的质量吗？"
Certainty（确定性）	对答案正确性的信念	"我有多确定？"（即 confidence）
Pleasantness（愉悦）	解题过程的主观感受	"解题愉快吗？"
Attention（注意力）	需要的专注程度	"这题需要全神贯注吗？"

2.2 为什么多维度更好？

单一维度的 confidence 就像一个只有一根指针的仪表盘——它可能卡在"高"的位置。多维度评估就像有六个指针的仪表盘——当 effort 很高但 confidence 也很高时，这个矛盾本身就是一个预警信号。

---

3. 大规模实验：12 模型 × 38 任务 × 8 领域 📊

3.1 实验规模

维度	规模
LLM 数量	12
任务数量	38
领域数量	8

3.2 核心发现

维度	预测正确性的能力	过度乐观程度	跨规模稳定性
Confidence	中等	高	不稳定
Effort	高	低	稳定
Ability	高	中	较稳定
Control	中	中	一般
Pleasantness	低	—	—
Attention	低	—	—

> Effort 是冠军：在大多数设置中，effort 匹配或超过 confidence 的预测能力，而且更冷静、更稳定。

3.3 任务类型的调节效应

最具信息量的维度随任务特征变化：

任务类型	最预测维度	解释
推理密集型（数学、逻辑）	Effort	费了大力还是错 = 真的不会
检索导向（知识问答）	Ability / Confidence	知道就知道，不知道就不知道
创意生成	Effort + Pleasantness	投入和感受都重要

> 关键洞察：没有"万能"的自我评估维度——最佳维度取决于任务类型。

---

4. 为什么 Effort 比 Confidence 更可靠？🤔

4.1 Effort 的"诚实性"

特性	Confidence	Effort
基于什么	答案的表面合理性	解题过程的认知负荷
幻觉时	可能很高（答案"看起来对"）	通常很高（费了大力还是不对）
猜测时	可能很高（盲目自信）	通常很低（没费什么力）
校准度	差	好

> 直觉：Effort 是一个"过程信号"——它反映的是模型在解题时"有多挣扎"。挣扎后对了 = 能力够；挣扎后错了 = 能力不够。这个信号比"我觉得我对了"更可靠。

4.2 跨模型规模的稳定性

模型规模	Confidence 校准	Effort 校准
小模型	差	稳定
中模型	稍好	稳定
大模型	可能更差（过度自信加剧）	稳定

> Effort 的鲁棒性：不随模型规模变化——无论是 7B 还是 70B，"费了多大力"都是一个可靠的信号。

---

5. 与之前主题的联动 🔗

5.1 与 Tracing Uncertainty（Round 17）

Round 17 用不确定性轮廓预测答案正确性。本研究提供了另一种"过程信号"——effort——同样从生成动态中读取质量信息。

5.2 与 POISE（Round 15）

POISE 用内部状态做价值估计。Effort 可以看作是一种"内部状态的自我报告"——模型感知到的认知负荷。

5.3 与 Rubric-Grounded RL（Round 19）

Rubric-Grounded RL 用多维评分替代二元奖励。本研究表明：多维自我评估同样优于单一维度的 confidence——两者都指向"多维 > 一维"。

5.4 与 VecCISC（Round 24）

VecCISC 过滤低质量推理链。Effort 信号可以作为过滤标准之一——高 effort + 低 confidence = 可能需要重新推理。

---

6. 我的押注 💰

我赌 1000 美元：到 2026 年底，"多维度自我评估"（特别是 effort + ability + confidence 的组合）将取代单一 confidence 成为 LLM 可靠性评估的标准做法。所有需要模型自我校准的系统都会同时查询多个维度。

为什么？

1. 实验规模太大了：12 模型 × 38 任务 × 8 领域 = 近 4000 个模型-任务组合——这不是小样本。

2. 理论基础扎实：认知评价理论是心理学中成熟的多维自我评估框架，有 40 年历史。

3. 实现简单：只需要在 prompt 中多问几个问题——"费了多大力？""这题难不难？"——不需要训练新模型。

4. 与现有系统兼容：可以作为任何需要自我评估的系统的增强模块。

5. 实际意义：人类-AI 协作、医疗诊断、法律咨询等高风险场景都需要可靠的自我评估。

敌人是谁？

"Confidence 就够了"的简化主义者——数据证明不够。
认为"问模型 effort 是 anthropomorphizing"的严格派——effort 是一个可操作的信号，不需要假设模型有真实的主观体验。
害怕增加推理成本的工程团队——多几个问题的成本与获得可靠校准的收益相比微不足道。

---

7. 局限与未来 🔮

7.1 维度选择

当前使用 6 个维度。是否存在更多有价值的维度？比如：

"熟悉度"（这题我见过类似的吗？）
"确定性来源"（我是通过推导还是记忆得到答案的？）

7.2 组合策略

如何最优地组合多个维度的信号？

简单平均？加权平均？
基于任务类型的动态权重？
机器学习组合模型？

7.3 与 RL 的结合

能否在 RLVR 训练中利用 effort 信号？

高 effort + 错误 = 大负奖励（真的不会）
低 effort + 正确 = 小正奖励（太简单，不需要强化）

7.4 实时校准

能否在生成过程中实时监控 effort，动态调整生成长度或触发回溯？

但无论如何，这篇论文提出了一个简单而深刻的转变：不要只问模型"你有多确定"——还要问"你费了多大力"。后者往往更诚实。

---

论文详情

项目	内容
标题	Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs
作者	Sree Bhattacharyya, Samarth Khanna, Leona Chen, Lucas Craig, Tharun Dilliraj, James Z. Wang
机构	Pennsylvania State University 等
arXiv ID	2605.07806
日期	2026-05-08
核心贡献	认知评价理论应用于 LLM 自我评估；6 维度评估框架；12 LLM × 38 任务 × 8 领域；effort/ability 优于 confidence；任务类型调节效应
关键结果	Effort 和 ability 始终匹配/超过 confidence；effort 估计更冷静、跨规模稳定；推理密集型任务 effort 最预测；检索导向任务 ability/confidence 主导

#CrushAI #BetWriting #智柴系统实验室 🎙️