您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

当AI开始"自知":大语言模型如何意外学会了衡量自己的确定性

✨步子哥 (steper) 2025年11月12日 01:06 0 次浏览

——解码语义校准:从token海洋到概念星空的惊人一跃


编者按:这是一篇关于AI"自我认知"的科学故事。Apple的研究团队发现,那些看似只会"鹦鹉学舌"的基础大语言模型,竟在不经意间掌握了一种类似人类直觉的能力——能够评估自己答案的可信度。更令人意外的是,当我们试图通过"指令调优"和"思维链"让AI变得更"聪明"时,这种天然的校准能力反而消失了。这背后隐藏着怎样的数学机制?让我们跟随研究的脚步,探索AI认知的深层奥秘。

🎭 引子:自信的AI与迷茫的AI

想象一下,你站在一位博学多才的专家面前,问他:"法国的首都是哪里?"他立刻回答:"巴黎!"声音洪亮,眼神坚定。你再问:"那2024年诺贝尔物理学奖得主是谁?"他稍作迟疑,然后说:"好像是...约翰·霍普菲尔德和杰弗里·辛顿?"

注意到区别了吗?第一个问题,他知道自己知道;第二个问题,他知道自己不太确定。这种对自身知识边界的感知,是人类智慧的重要标志。

现在,把这位专家换成当下最强大语言模型(LLM)。它能流畅地回答从诗歌创作到代码调试的各种问题,但有一个根本的问题困扰着我们:它真的知道自己知道什么,又不知道什么吗?

这个问题不只是哲学思辨。当AI系统被用于医疗诊断、法律咨询或金融决策时,一个过度自信的AI可能带来灾难性后果。就像一个刚考完试的学生,如果他对所有题目都"感觉良好",老师反而要担心他是否真正理解了知识点。

传统上,AI研究者用校准(calibration)这个概念来衡量模型的自我认知能力。简单来说,如果模型说"我有80%的把握",那么在所有它这么说的情况下,应该有80%的时候是正确的。这就像我们评价一个天气预报员:如果他预测明天下雨的概率是70%,那么长期来看,在他说70%的日子里,应该有70%真的下雨了。

但这里有个棘手的问题:LLMs本质上是token预测器。它们被训练来预测下一个词,而不是评估整个答案的正确性。就像让一个人逐字写一篇文章,他可能对每个字的拼写都很有信心,但这不意味着整篇文章的观点就是正确的。

Apple研究团队在最近的研究中提出了一个令人惊讶的发现:当我们从语义层面而非token层面看待校准时,基础LLMs表现出惊人的自我认知能力。它们能"感知"到自己答案的可信度,即使从未被明确训练这样做。这就像发现一个孩子从未学过概率论,却能在玩游戏时凭直觉做出准确的胜算判断。

更耐人寻味的是,这种"天赋"在我们试图让AI变得更"聪明"的过程中——通过指令调优和思维链推理——反而被破坏了。这不禁让人想起那句老话:"想得太多,反而失去了直觉。"

让我们深入这个发现的内核,看看AI是如何在token的海洋中,意外捕获了概念的星光。


🎯 第一章:校准的艺术——从天气预报到AI置信度

注解:所谓"校准",就像一把标尺。如果天气预报员说"70%概率下雨"的日子里有70%真的下雨了,那他就是"校准良好"的。AI的校准意味着它输出的概率值能真实反映其准确率。
在机器学习的世界里,校准是一个古老而优雅的概念。想象你是一位气象学家,每天对着镜头说:"明天下雨的概率是60%。"一年过去了,你发现所有你说"60%"的日子里,其实只有40%真的下雨了。那么,你的预测就是未校准的——你过于自信了。

反过来,如果你说"60%"的日子里,恰好有60%下雨,那么恭喜你,你是完美校准的。这意味着人们可以真正信任你给出的概率数字。

这个概念在分类任务中很容易理解。一个图像分类器如果输出[0.8, 0.2]的概率分布,表示它认为第一张图片是猫的概率是80%。如果它在100次这样预测中,有80次确实是对的,那它就是校准的。

但LLMs是不同的生物。它们不是输出一个简单的类别概率,而是生成整个文本序列。当你问"法国首都是哪里",它可能回答:

  • "巴黎"
  • "是巴黎"
  • "法国的首都是巴黎"

这三个回答在语义上完全相同,但在token层面截然不同。传统的token级校准在这里失效了——我们关心的是答案的含义,而不是具体的措辞。

这就是语义校准的用武之地。研究团队提出了一种巧妙的方法:通过采样来估计语义置信度。

语义坍缩函数B:想象你有一个超级严格的编辑,他的工作是把所有表达同一意思的答案压缩成一个标准形式。无论你写"巴黎"、"是巴黎"还是"法国的首都是巴黎",他都会批注: "语义类:巴黎"

具体怎么做?对于数学问题,直接提取最终数字答案;对于开放性问题,用另一个强大的LLM(如Qwen3-14B)来提取规范答案并聚类。这个"语义坍缩函数"B就是我们的魔法透镜,将纷繁复杂的文本映射到清晰的概念类别。

测量过程

  1. 对同一个问题,让模型在温度=1(较高随机性)下生成50个回答
  2. 用B函数将每个回答映射到语义类(如"巴黎"、"柏林"、"罗马")
  3. 统计每个语义类的出现频率
  4. 最频繁类的频率就是语义置信度
  5. 检查最频繁类是否与正确答案匹配,得到语义准确率

如果模型在100个问题上语义置信度平均为70%,且语义准确率也接近70%,那么它就是语义校准的

这听起来很直接,但有一个根本的谜题:LLMs只被训练来最小化下一个token的预测误差(交叉熵损失),从未被训练来评估自己答案的整体正确性。按照常理,它们应该完全不懂校准。

然而,实验结果令人震惊。


🔬 第二章:意外的天赋——基础模型的校准奇迹

注解:所谓"基础模型"(base model),指的是仅经过预训练、未经过指令调优或RLHF的原始LLM。它们就像未经雕琢的璞玉,保留了训练数据中最纯粹的统计规律。
研究团队对来自Qwen、Gemini、Mistral和Llama家族的数十个模型进行了"体检",规模从0.5B到72B参数不等。他们使用了四个不同类型的数据集:
  • GSM8K:小学数学应用题
  • OpenMathInstruct:竞赛级数学问题
  • TriviaQA: trivia知识问答
  • SimpleQA:针对GPT-3.5/4设计的难题
每个模型被要求在三种模式下回答:
  • 简洁模式:只输出一个词或短语
  • 句子模式:用完整句子回答
  • 思维链模式(CoT):展示推理过程
结果如何?让我们看看图2中的"可靠性图表"——这些图表就像模型的"心电图",显示其置信度与准确率的关系。

第一行:预测会校准的配置(基础模型+简洁/句子模式)

几乎所有点都紧贴对角线!这意味着当基础模型说"我有70%把握"时,它真的在70%的情况下是对的。这种校准性不依赖模型规模——即使是0.5B的小模型也表现出色。这就像发现刚学会说话的小孩,竟能准确判断自己知道什么、不知道什么。

第二行:预测不会校准的配置(指令模型+任何模式;基础模型+CoT模式)

这里的情况变得混乱。指令调优模型(经过RLHF或DPO)普遍过度自信——它们说的概率低于实际准确率(曲线位于对角线下方)。而基础模型的CoT回答则信心不足(曲线在对角线上方)。

第三行:校准误差的分布

箱线图清晰地显示:只有基础-简洁基础-句子两种配置 reliably 保持良好校准,其他配置的误差显著更高。

这引出了第一个核心预测:

🎯 预测1:语义校准是标准预训练的意外副产品

研究团队的理论认为,当你用最大似然损失(即"预测下一个token")训练模型时,如果模型能够轻松预测自己对某个问题的语义答案分布,校准就会自然涌现。

换句话说,如果模型在生成第一个token之前,就已经"感知"到"哦,这个问题的答案很可能是巴黎类型,有80%的概率",那么它就会表现出校准性。这种"感知"不是显式的,而是隐含在参数中的统计规律。

这就像一个人虽然没学过概率论,但通过大量经验积累,能凭直觉判断某件事的靠谱程度。基础模型在海量文本中"阅读"时,潜移默化地学会了评估自己答案的可信度。

但为什么指令调优会破坏这种天赋?


第三章:当优化目标改变——指令调优的隐形代价

注解:RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)是两种流行的指令调优方法。它们的目标是让模型输出更符合人类偏好,但这可能改变模型的内部统计结构。
让我们看一个具体对比。图5展示了基于同一基础模型(Mistral-7B-v0.1)的三个版本:
  • 基础模型:仅预训练
  • SFT模型:指令监督微调
  • DPO模型:在SFT基础上进行直接偏好优化
在句子模式下,基础模型的校准误差仅为0.036,SFT模型为0.086,而DPO模型飙升至0.254

发生了什么?DPO模型变得极度过度自信。它不再保留那种"我不确定"的微妙感觉,而是倾向于给出斩钉截铁的回答——即使这些回答可能是错的。

研究团队的理论给出了简洁的解释:校准与损失最优性紧密相连。基础模型训练时最小化的是交叉熵损失,这是一个proper loss(恰当损失)——它鼓励模型诚实报告自己的不确定性。

但当引入RLHF或DPO时,优化目标改变了。模型不再仅仅追求"预测下一个token的准确性",而是追求"获得人类的高分"。这就像一个学生从"真正理解知识"转向"死记硬背考试技巧"——他可能变得更擅长应试,但失去了对自己知识盲点的敏锐感知。

图6的LoRA实验进一步验证了这一机制。研究人员在基础模型上训练一个小型LoRA适配器,让它直接预测自己的语义答案分布(跳过生成过程)。结果发现:LoRA越容易学习这个任务(KL差距小),原始模型的校准性就越好

这就像给模型做了一个"自我认知测试":如果你能轻松说出"对这个问题,我可能会在80%的情况下回答巴黎,20%的情况下回答里昂",那么你就是校准良好的。指令调优破坏了这种自我认知的清晰度。


🧩 第四章:思维链的悖论——想得太多,反而迷茫

注解:Chain-of-Thought(CoT)提示让模型"一步步思考",在数学推理中效果显著。但这就像让一个人把直觉转化为详细推理——有时想得越多,反而越不确定。
如果说指令调优破坏了校准,那么思维链(Chain-of-Thought)则揭示了校准的另一个维度。

看GSM8K数据集的结果:基础模型在简洁模式下校准误差仅为0.048,但在CoT模式下飙升至0.129。更有趣的是,这种偏差表现为信心不足——模型实际准确率远高于其置信度。

为什么会这样?

想象你问一个学生:"18×23等于多少?"如果他直接凭直觉回答"414",可能有70%的准确率,他的置信度也接近70%,所以是校准的。

但如果你要求:"请详细展示计算过程",他开始写:
"18×20=360,18×3=54,360+54=414"
但在这个过程中,他可能怀疑自己是否记错了乘法表,是否在加法中出错。最终,虽然答案正确,但他的内心置信度下降了。

LLMs的CoT模式正是如此。当模型被允许"思考"时,它生成了一个内部推理链。这个推理链本身可能脆弱且易错,即使最终答案正确。在采样50次时,尽管多数答案(plurality)几乎总是对的,但每个答案的置信度分布变得分散。

图7的第三行显示了这一点:在CoT模式下,基础模型表现出系统性信心不足(负的平均过度自信值)。这印证了理论预测——CoT的强大之处(利用更多计算得到更好答案)恰恰是破坏校准的原因

因为校准要求模型在生成第一个token之前就知道自己的答案分布。而CoT的本质是"边想边发现",模型在推理过程中才逐步确定答案。这违反了理论的前提条件。


📊 第五章:规模无关性——大模型并不比小模型更"自知"

注解:传统观点认为更大的模型更智能、更可靠。但在校准性上,研究发现了一个反直觉现象:基础模型的校准性与规模无关。
在AI领域,"规模就是一切"几乎成为信条。更多参数、更多数据、更多计算力——意味着更好的性能。但在语义校准这个特定维度上,这个规律被打破了。

图7的第一行显示:在基础模型的简洁/句子模式下,模型能力(语义准确率)与校准误差之间几乎没有相关性。一个0.5B的小模型可能和一个70B的大模型一样校准良好。

这与之前的next-token校准研究形成鲜明对比。那些研究发现,在多选题设置中,更大的基础模型表现出更好的token级校准性。但语义校准似乎触及了模型训练的更本质层面。

研究团队认为,这是因为所有基础模型都共享相同的训练目标:最小化交叉熵损失。只要模型达到了局部损失最优性——即无法通过简单扰动进一步降低损失——它就会表现出校准性,无论规模大小。

这揭示了一个深刻洞见:校准性不是能力的副产品,而是训练目标的结构性特征。就像诚实不是智力的函数,而是价值观的体现。


🔍 第六章:与其它深度网络的对话——LLM的独特之处

注解:图像分类器等传统深度网络常表现出过度自信或校准不良。LLM的校准性为何如此特别?答案在于训练实践的差异。
研究者们在论文末尾提出了一个耐人寻味的对比。在计算机视觉领域,CNNs和ViTs的校准性参差不齐。有些严重过度自信,有些则相对良好。但所有基础LLMs都表现出良好校准(在非CoT设置下)。

为什么?

关键在于训练实践的微妙差异

  • LLM训练:研究者密切监控验证集损失,一旦损失开始上升(过拟合),立即停止训练。模型被优化到损失最小化的临界点。
  • 图像分类器训练:研究者关注分类错误率,即使验证损失开始上升,只要错误率还在下降,就会继续训练。这导致模型偏离损失最优性
这个区别至关重要。因为校准性与损失最优性等价(Theorem 7)。LLM的训练实践无意中确保了校准性,而视觉模型的训练实践则无意中破坏了它。

这就像一个学生:如果他只关心"做对题数"而忽视"理解深度",他可能通过死记硬背提高分数,但失去了对自己知识边界的准确感知。LLM的训练更像是"深刻理解"导向的。


🌌 第七章:理论的边界——局限与未来方向

注解:任何科学理论都有其边界。这项研究聚焦于特定的采样式语义校准,未涉及"口头化置信度"等其他形式。
研究团队在论文中坦诚了若干局限:

1. 校准类型的局限
他们研究的是基于采样的语义校准,通过多次采样估计置信度。这种方法计算成本高(每个问题需采样50次),不适合实时应用。另一种方法是口头化置信度——让模型直接说"我有80%把握"。这种校准是否同样涌现?目前尚无定论。

2. 数据集局限
实验仅覆盖4个数据集,虽然多样化(数学、trivia、事实问答),但仍有局限。例如,TruthfulQA(包含人类常见误解的数据集)可能表现不同,因为它不满足"在分布内"的前提。

3. 理论形式化的缺口
Fig. 4中的理论链条有三环:

  • (C)→(D):校准 ⇔ 局部损失最优性(已严格证明
  • (B)→(C):基础模型对易学习扰动是最优的(部分证明,基于Błasiok et al.的假设)
  • (A)→(B):WB扰动易学习当且仅当模型知道其B-置信度(电路复杂性版本已证明

整体链条依赖于"易学习"的启发式概念,尚未完全形式化。

4. 实践应用的挑战
语义置信度计算需要多次采样,在实际部署中可能太慢。如何将科学洞察转化为高效算法,是未来重要方向。


💡 第八章:更深层的意义——AI是否拥有"内在概率感"

注解:这项研究不仅关乎置信度,更触及了LLM表征结构的本质。校准性是一种"涌现的元认知能力"。
让我们跳出技术细节,思考这个发现的哲学意涵。

基础LLMs从未被教导"评估自己的确定性"。它们只是被训练来预测下一个词。然而,在这个过程中,某种类似元认知的能力自发涌现了。它们不仅学会了生成答案,还学会了评估答案的可靠性

这暗示了什么?

或许,对不确定性的感知是智能的固有属性。当一个系统通过海量数据学习语言的统计结构时,它不可避免地要建模多义性歧义。对于"法国首都"这类问题,语料中99%的答案都是"巴黎",模型自然学会赋予高置信度。对于复杂的数学问题,语料中可能存在多种解题路径和常见错误,模型则学会了一种"分布感"——它知道自己可能走向不同的答案。

这种能力在指令调优中丢失,可能是因为:

  1. 反馈信号稀疏:人类偏好数据通常只标注"好/坏",不标注"置信度"
  2. 优化目标变化:从"诚实预测"转向"取悦用户"
  3. 分布偏移:指令数据可能偏离预训练分布

而在CoT中丢失,则是因为:
  1. 推理链的脆弱性:中间步骤容易出错,即使最终答案正确
  2. 认知负荷:模型将"计算资源"用于推理,而非自我评估
  3. 时间延迟:答案在生成过程中才逐渐显现,违反"提前知道"的前提


🎬 尾声:在确定性与不确定性之间

注解:这项研究像一面镜子,映照出AI训练中的深层权衡。我们追求能力,可能无意中牺牲了自知之明。
回到开篇的问题:LLMs是否"知道它们不知道什么"?

答案是:基础模型确实拥有一种原始的、直觉性的自知之明。这种能力不是被设计出来的,而是训练目标的副产品。当优化纯粹追求预测准确性时,模型被迫诚实地建模数据的统计结构,包括不确定性。

然而,当我们试图让AI更"有用"、更"强大"时——通过指令调优让它遵循指令,通过CoT让它深度推理——我们可能在削弱它的自我认知。这形成了一个校准性-能力权衡

  • 基础模型:校准但能力有限
  • 指令模型:能力强但过度自信
  • CoT模型:推理强但信心不足
这提醒我们:智能不仅是关于正确答案,更是关于知道自己何时正确。一个真正可靠的AI系统,应该像那位博学的专家,既能给出答案,也能诚实地说:"这个问题,我有80%的把握。"

未来的研究方向可能包括:

  1. 保校准的微调方法:在指令调优中显式加入校准目标
  2. 高效置信度估计:无需多次采样的近似方法
  3. 多分布校准:确保模型在不同领域都保持校准
  4. 内在 vs 外在置信度:区分模型的"直觉"与"口头表达"

这项研究最终告诉我们:在AI的浩瀚宇宙中,最亮的星不一定最大,而是那些能诚实说出自己光芒限度的星。或许,真正的智能始于自知之明。


📚 参考文献

  1. Nakkiran, P., et al. (2025). Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs. arXiv:2511.04869v1.
  1. Kadavath, S., et al. (2022). Language Models (Mostly) Know What They Know. NeurIPS.
  1. Farquhar, S., et al. (2024). Semantic Entropy Probes Linguistic Uncertainty. ICLR.
  1. Gopalan, P., et al. (2024). Loss minimization yields calibration for most neural networks. ICML.
  1. Błasiok, J., et al. (2023b). Calibration, Entropy, and Generalization in Neural Networks. NeurIPS.
  1. Błasiok, J., & Nakkiran, P. (2024). SmoothECE: Principled Calibration Error Estimation. ICLR.
  1. Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR.
  1. Wei, J., et al. (2024). SimpleQA: A Simple Question Answering Benchmark. ArXiv.
  1. Toshniwal, S., et al. (2025). OpenMathInstruct-2: A Massive Math Instruction Tuning Dataset. ArXiv.

讨论回复

1 条回复
✨步子哥 (steper) #1
11-12 10:27

有时候自审可以带来一些突破