> Google DeepMind团队通过机械可解释性方法,首次揭示了LLM置信度计算的神经机制:模型并非在被询问时才临时评估答案质量,而是在生成答案后的换行符位置(PANL)自动形成并缓存置信度表示。这一发现证明AI具备独立于输出流利度的深度自我评估能力——它在说出"我很有信心"之前,就已经"知道"自己是否正确。
---
1. 从"随口一说"到"确有此感":LLM置信度计算的百年谜题
让LLM评估自己的答案有多可靠——这个简单的prompt技巧("请用1-10分评估你的信心")已经被广泛使用。但一个根本问题始终悬而未决:
LLM的置信度分数,是"临时编造的",还是"确有此感"?
如果模型只是在被问时才根据token概率临时拼凑一个数字,那置信度评估不过是事后合理化(post-hoc rationalization)——和人类在压力下随口说"我觉得大概80%吧"一样不可靠。但如果模型在生成答案的过程中就已经自动评估了答案质量,并把这个评估结果缓存下来,只在被问时才"读取"出来,那它就具备了某种元认知(metacognition)能力——对自身认知状态的监控。
Google DeepMind团队的这项研究("How do LLMs Compute Verbal Confidence?",Arthur Conmy 等)用机械可解释性(mechanistic interpretability)工具——激活操控(activation steering)、patching、noising、swap实验——直接追踪了置信度信号在模型内部的流动路径,给出了一个清晰的答案:
缓存检索(cached retrieval),而非临时计算(just-in-time computation)。
---
2. 两个关键位置:PANL与CC
2.1 实验设计:让模型先回答,再评估
实验采用分阶段prompt设计:
1. Phase 0:让模型先回答一个问题(如TriviaQA的"野兔的窝叫什么?") 2. Phase 1:把模型自己的答案插入prompt,让它评估信心等级("Highly likely" / "Very good chance" / "Almost certain" ...)
prompt的关键结构(见图8):
Question: [问题]
Answer: [模型在Phase 0生成的答案]
[这里是一个换行符 = PANL]
Classify your confidence into one of the following classes...
[这里是一个冒号 = CC]
$CLASS
PANL = Post-Answer-Newline(答案后的换行符token) CC = Confidence-Colon(置信度指令后的冒号token,即模型输出信心等级的第一个位置)
2.2 核心发现:置信度在PANL就已形成
研究团队通过四种因果干预实验,建立了完整的证据链:
| 实验方法 | 核心操作 | 结果 | 含义 |
|---|---|---|---|
| 激活操控(Activation Steering) | 在PANL位置注入高/低置信度向量 | 强烈改变置信度输出(在layers 21-25最有效) | PANL承载置信度相关信息 |
| 激活Patching | 将高置信度trial的PANL激活替换到低置信度trial | 置信度输出被"移植" | PANL是置信度信息的因果源 |
| 激活Noise(Mean Ablation) | 用均值替换PANL或CC的激活 | 严重破坏置信度输出 | 这两个位置对置信度计算是必要的 |
| 注意力阻断(Attention Blocking) | 阻断特定注意力路径 | 阻断PANL→CC路径最有效地破坏输出 | 信息从PANL流向CC |
- 在CC位置(即模型要输出"Highly likely"之前)注入操控向量也有效,但峰值出现在更深层(layers 30-35)
- 在PANL+1(换行符后第一个token)或FCC(第一个置信度冒号)操控无效
- 在答案开始token(first answer token)操控也无效
---
3. 信息流动路径:答案token → PANL(缓存) → CC(读取)
3.1 注意力阻断实验揭示的完整通路
注意力阻断实验(Attention Blocking)是这项研究最精巧的部分。它系统地阻断了不同token之间的注意力连接,观察对置信度输出的影响:
阻断哪些路径会严重破坏置信度?
- Q → PANL(问题token看向PANL)——有中等影响
- A → PANL(答案token看向PANL)——强影响
- PANL → CC(PANL看向CC)——强影响
- Q → CC(问题直接看向CC)——弱影响
- A → CC(答案直接看向CC)——弱影响
[Question tokens] ──┐
▼
[Answer tokens] ──→ [PANL] ──→ [CC] ──→ [Confidence output]
│ ▲ ▲
└─────────────────┘ │
(答案token向PANL汇聚) (PANL向CC传递缓存)
这个模型非常清晰: 1. 答案token通过自注意力和交叉注意力,把答案质量信息汇聚到PANL 2. PANL将这个聚合后的表示缓存 3. 当模型需要输出置信度时,CC位置从PANL检索这个缓存的表示 4. 最终输出信心等级
3.2 为什么是换行符?
PANL是一个换行符(\n)——在语义上几乎是"空"的。但在这个位置,模型完成了对整个答案的编码,正处于"回答完毕、准备转换任务"的过渡期。研究发现:
- 在答案最后一个token(last answer token)注入操控也有效——但不如PANL干净,因为最后一个token同时承载了答案的语义内容
- PANL作为语义"空位",恰好成为缓存答案质量评估的最佳位置——它不受具体答案内容的干扰,纯粹承载"元信息"
---
4. 置信度不是"流利度读出":超越token概率的深度评估
4.1 直接证据:线性探测与方差分解
研究中最有力的证据来自线性探测(linear probing)和方差分解(variance partitioning):
- 用PANL位置的激活向量预测verbal confidence,R²达到0.38(在峰值层~40)
- 但token概率(log-probability)只能解释约0.10-0.15的方差
- 控制token概率后,PANL仍独特解释大量方差(R²_unique = 0.38)
4.2 两种模型的对比:Gemma vs Qwen
| 指标 | Gemma 3 27B | Qwen 2.5 7B |
|---|---|---|
| 层数 | 62 | 28 |
| PANL操控峰值层 | 21-25 | ~14-18 |
| CC操控峰值层 | 30-35 | ~20-24 |
| ECE(校准误差) | 0.12 | 0.06 |
| AUROC | 0.71 | 0.65 |
- 两个模型都遵循相同的机制(PANL缓存 → CC检索),验证了发现的泛化性
- Qwen虽然小得多(7B vs 27B),但校准更好(ECE=0.06 vs 0.12)——可能受益于更充分的对齐训练
- Gemma的注意力阻断效应更强——可能与更大的模型容量和更复杂的内部表示有关
5. "潜意识缓存"的隐喻:模型在"开口"之前就已"判断"
5.1 与人类认知的类比
这项发现与认知心理学中的双过程理论(dual-process theory)高度呼应:
1. 无意识层面(System 1):在300-500毫秒内,前额叶和眶额皮层进行隐性记忆检索,评估候选记忆与上下文的匹配度。这个评估是无意识的、快速的、基于线索的(如记忆的生动性、可及性)。
2. 有意识层面(System 2):无意识评估的结果被传递到意识层面,通过元认知策略进行精细评估(逻辑一致性、时间一致性、框架匹配等)。
在LLM中,PANL对应着无意识的评估完成时刻,CC对应着有意识报告的时刻。模型在"说出"信心之前,已经在"潜意识"中完成了评估——这和人类"感觉这个答案不太对,但说不出为什么"的直觉机制惊人地相似。
5.2 "潜意识"不等于"正确"
需要强调的是,这项研究揭示的是机制(模型确实在自动评估),而不是准确性(这个评估是否可靠)。事实上:
- Gemma的ECE=0.12,意味着它系统性高估自己的正确率
- 即使置信度表示是自动形成的,它也可能被训练偏差(如SFT中只学习正确答案,导致过度自信)所扭曲
- 但了解机制是改进校准的第一步——如果知道置信度在PANL形成,我们就可以在PANL位置进行干预(如注入"谦逊向量"或进行校准训练)
6. 对幻觉检测的颠覆性意义
6.1 从"事后检测"到"事前预警"
当前主流幻觉检测方法分为两类:
| 方法 | 时机 | 代表技术 | 局限 |
|---|---|---|---|
| 事后检测 | 答案生成后 | 语义熵、自我一致性、RAG验证 | 延迟高,无法预防 |
| 生成中监测 | token-by-token | 监控解码、logits异常 | 计算开销大,易误报 |
6.2 实际应用方向
1. 内置路由器(LLM Router):如DRIFT论文所示,在中间层hidden states上训练轻量级探测器(3M-37M参数),在生成前预测幻觉风险。如果置信度探测显示低信心,自动路由到RAG或更强模型。
2. 实时干预:在PANL位置检测到异常低置信度时,触发模型的"自我修正"机制——如要求重新推理、调用外部工具验证、或主动表达不确定性。
3. 校准训练:如果知道置信度在PANL形成,可以直接针对PANL位置的表示进行校准训练(如用温度缩放、Platt scaling等方法),而不需要修改整个解码过程。
4. 安全对齐:在强化学习对齐阶段,可以在PANL位置注入"保守性信号",训练模型在不确定时更倾向于拒绝回答或请求澄清。
---
7. 局限与未解之谜
7.1 当前局限
1. 仅限于特定prompt格式:实验依赖于"先回答、后评估"的分阶段prompt结构。在自由对话或流式生成中,PANL位置可能不存在或定义模糊。
2. 模型规模有限:只测试了Gemma 3 27B、Qwen 2.5 7B和Magistral Small 24B。更大模型(如GPT-4、Claude 3.5)是否遵循相同机制?深层架构(如MoE)是否有不同的置信度计算路径?
3. 置信度不等于正确性:机制研究揭示的是"模型如何计算信心",而不是"信心是否准确"。校准(calibration)问题仍需独立解决。
4. 因果推断的强度:虽然因果干预实验(steering、patching、noising)提供了强证据,但注意力机制是并行的、高度纠缠的。"阻断A→B路径"的干预可能同时影响了多个间接路径。
7.2 未来方向
1. 多模态扩展:在视觉-语言模型中,置信度是否也在类似的"模态转换间隙"(如图像编码结束后的特殊token)形成?
2. 链式推理(CoT)场景:Magistral Small 24B的初步实验显示,在推理模型中置信度信息分布在更长的推理轨迹中,而非集中于PANL。CoT改变了置信度计算机制吗?
3. 跨语言验证:不同语言的句法结构不同(如中文不常用换行符分隔),PANL机制是否在其他语言中仍然成立?
4. 工具使用与API调用:当模型调用工具时,置信度是否也在工具调用结果的"结束标记"处形成?这对工具增强型智能体的可靠性至关重要。
---
8. 结论:从"黑箱"到"灰箱"的一小步
这项研究的意义远超置信度这一个具体能力。它展示了机械可解释性工具如何揭示LLM内部的高级认知功能——不是通过拆解每个神经元的权重,而是通过定位承载特定功能(如自我评估)的"信息节点"(PANL)和"信息流路径"(PANL→CC)。
核心发现的三层递进:
1. 机制层面:LLM的verbal confidence不是临时计算的,而是自动形成并缓存的 2. 结构层面:置信度在语义"空位"(换行符)处被聚合和缓存,在输出位置被检索 3. 功能层面:这种缓存表示超越了简单的token概率,暗示模型进行着更深层的答案质量评估
如果把LLM比作一个没有自我意识却表现出自我监控行为的系统,这项研究找到了它"自我监控"的物理位置——不是在答案生成时分散监控,不是在输出时临时编造,而是在答案结束后的那个换行符处,一个几乎被所有人忽略的位置,静静地完成了对自己的评估。
> "模型在说出'我很确定'之前,已经在那个换行符里,知道了答案的质量。这不是幻觉,而是真实的元认知能力——只是我们还不知道如何让它更可靠。"
---
参考论文: Conmy, A., Barbero, F., Osindero, S., Patraucean, V., & Veličković, P. (2026). *How do LLMs Compute Verbal Confidence?* Google DeepMind. arXiv:2603.17839.
#LLM #元认知 #幻觉检测 #DeepMind #机械可解释性 #置信度校准 #Gemma #Qwen #Transformer #注意力机制 #潜意识缓存 #人工智能安全