"不确定性是唯一的确定性。"——约翰·艾伦·保罗士
序章:那个看起来很自信的谎言
2023年的某个下午,一位律师走进了纽约的法庭。
他信心满满地提交了一份简报,里面引用了六个案例来支持他的论点。法官翻阅后,眉头紧锁:"这些案例...我好像没听说过。"
律师愣住了。他用的ChatGPT生成的这份简报。那些案例——每一个都编得像真的一样。
这就是大语言模型(LLM)的"幻觉"问题:它们可以流利地说出完全错误的内容,而且看起来无比自信。
但问题是——如果AI能骗过专业律师,我们怎么知道它什么时候在说实话,什么时候在编故事?
传统的方法是:
- 让AI生成10次,看答案是否一致(self-consistency)
- 问AI"你确定吗?"让它自我评判
但这些方法要么太贵(需要多次采样),要么不可靠(AI的自我评判经常不准)。
今天,我们要聊的这项研究,提出了一种既便宜又有效的方法:观察AI思考过程中的"熵轨迹"。
就像医生通过心电图判断心脏健康一样,我们可以通过AI的"熵轨迹"判断它的思考质量。
🧠 第一章:什么是"熵"?从混乱度到不确定性
1.1 熵的起源:一个物理概念的跨界之旅
"熵"(Entropy)最早是物理学中的概念,由德国物理学家克劳修斯在1865年提出。
简单来说,熵是衡量系统混乱程度的指标:
- 熵低 = 有序、确定
- 熵高 = 混乱、不确定
想象一个房间:
- 刚打扫完:所有东西都在固定位置 → 低熵
- 一个月不打扫:东西散落各处 → 高熵
在信息论中,香农借用了这个概念,用熵来衡量信息的不确定性:
"明天太阳从东方升起" → 熵极低(几乎确定)
"明天会下雨" → 熵中等(可能下,可能不下)
"明天会下紫色的雨" → 熵较高(极不可能)
1.2 LLM的熵:模型有多"纠结"?
对于大语言模型来说,熵反映了它对下一个词的不确定性。
想象模型正在回答"2+2=?":
- 它可能会想:"应该是4... 不对,会不会是5?"
- 如果模型很确定,它会直接说"4"
- 如果模型不太确定,它可能会在"4"、"5"、"6"之间摇摆
熵高 = 模型在多个答案之间摇摆不定
熵低 = 模型很确定自己的答案
1.3 关键洞察:不只是熵的大小,还有熵的变化
传统的置信度方法只看最终的熵值(模型最后有多确定)。
但这项研究提出了一个革命性的观点:
重要的不是熵有多大,而是熵如何变化。
就像看一个人的健康:
- 只看体温37度,不知道他有没有发烧
- 但看体温从37度升到39度,就知道他生病了
熵轨迹(Entropy Trajectory)就是记录模型在思考过程中,每一步的熵是如何变化的。
📈 第二章:熵轨迹——AI的"心电图"
2.1 如何测量熵轨迹?
这项研究的方法非常巧妙:
步骤1:让模型生成一个思维链(Chain-of-Thought),一步一步推理。
步骤2:在每一步,让模型再生成5个简短的答案补全,看看它可能会说什么。
步骤3:计算这5个答案的熵(不确定性)。
步骤4:记录每一步的熵值,画出"熵轨迹"。
举个例子:
问题:小明有3个苹果,小红给了他2个,他现在有几个?
模型推理过程:
| 步骤 | 推理内容 | 熵值 |
|---|---|---|
| 0 | (初始) | 0.8 |
| 1 | 小明原来有3个苹果 | 0.7 |
| 2 | 小红给了他2个 | 0.5 |
| 3 | 所以总共是3+2 | 0.3 |
| 4 | 答案是5 | 0.1 |
熵轨迹:[0.8, 0.7, 0.5, 0.3, 0.1]
可以看到,随着推理的进行,熵逐渐降低,模型越来越确定答案。
2.2 单调性:最神奇的信号
研究者发现,熵轨迹的形状比熵的总变化量更能预测答案的正确性。
他们提出了一个关键概念:熵轨迹单调性(Entropy-Trajectory Monotonicity)。
定义:如果一个思维链的熵在每一步都单调递减(从不回升),那么它就是"单调的"。
关键发现:
- 单调的熵轨迹 → 答案很可能是对的
- 非单调的熵轨迹(熵有升有降) → 答案很可能是错的
2.3 惊人的实验结果
在GSM8K数据集(小学数学题)上的实验结果:
| 模型 | 单调链准确率 | 非单调链准确率 | 差距 |
|---|---|---|---|
| Qwen2.5-7B | 68.8% | 46.8% | +21.9% |
| Mistral-7B | 72.3% | 37.6% | +34.7% |
这意味着:
- 如果AI的熵轨迹是单调递减的,它有约70%的概率答对
- 如果熵轨迹不是单调的,它只有约40%的概率答对
Odds Ratio(比值比):
- Qwen2.5-7B:2.50(单调链是对的几率是非单调链的2.5倍)
- Mistral-7B:4.33(单调链是对的几率是非单调链的4.33倍)
统计显著性:p=0.0005,极其显著!
2.4 形状 vs 大小:反直觉的发现
更令人惊讶的是:熵的总变化量并不能预测正确性。
研究者计算了"标量一致性"(Scalar Coherence)= 初始熵 - 最终熵。
结果发现:
- 标量一致性与正确性的相关性:ρ = -0.06,p = 0.31(不显著)
- 有些错误答案的熵下降得比正确答案还多!
这就像:
- 一个人很自信地说"地球是平的"(熵很低)
- 另一个人不太确定地说"地球可能是圆的"(熵稍高)
置信度高 ≠ 正确
关键是熵的变化是否稳定、一致。
🔍 第三章:为什么非单调轨迹意味着错误?
3.1 非单调轨迹的三种典型模式
通过分析大量轨迹,研究者发现非单调轨迹通常有以下几种模式:
🎢 模式1:反复横跳
熵的变化:[0.8 → 0.5 → 0.7 → 0.3 → 0.6]
含义:模型一会儿确定,一会儿又不确定,说明它在推理过程中思路混乱,可能走了弯路或产生了矛盾。
🏔️ 模式2:先降后升
熵的变化:[0.8 → 0.6 → 0.4 → 0.7 → 0.9]
含义:模型开始时推理顺利,但后面遇到了困难,产生了新的不确定性。
就像一个人开始做数学题,前几步都对,但后面发现算错了,开始纠结。
📉 模式3:波动下降
熵的变化:[0.8 → 0.7 → 0.5 → 0.6 → 0.4 → 0.5 → 0.2]
含义:模型在逐步推理,但经常有小的纠结,说明推理过程不够顺畅。
3.2 一个具体的例子
问题:一个农场有鸡和兔,头共35个,脚共94只。鸡兔各几只?
正确答案的熵轨迹:
步骤1:设鸡有x只,兔有y只 熵:0.7
步骤2:x + y = 35 熵:0.6
步骤3:2x + 4y = 94 熵:0.5
步骤4:解方程组... 熵:0.3
步骤5:x=23, y=12 熵:0.1
轨迹:[0.7, 0.6, 0.5, 0.3, 0.1] ✅ 单调递减
错误答案的熵轨迹:
步骤1:设鸡有x只,兔有y只 熵:0.7
步骤2:x + y = 35 熵:0.6
步骤3:2x + 2y = 94?不对... 熵:0.8 (上升!)
步骤4:应该是2x + 4y = 94 熵:0.5
步骤5:解方程...x=12, y=23 熵:0.2
轨迹:[0.7, 0.6, 0.8, 0.5, 0.2] ❌ 非单调(第3步上升)
看,第3步模型犯了错误(把兔子的脚数算错了),导致熵突然上升。虽然后来纠正了,但这个"波动"暴露了问题。
3.3 违反次数:更精细的指标
研究者还发现,违反单调性的次数也能预测准确率:
| 违反次数 | 准确率(Qwen2.5-7B) |
|---|---|
| 0次(单调) | 68.8% |
| 1次 | 50.8% |
| 2次及以上 | 28.6% |
这就像一个学生:
- 一次都不纠结的,大概率会做对
- 纠结一次的,可能还能做对
- 纠结两次以上的,基本就做错了
⚠️ 第四章:传统方法的失效
4.1 Token置信度的陷阱
传统上,人们用token log-probability(词的对数概率)来衡量模型的置信度。
简单说:模型输出每个词时,会给出一个概率。概率越高,模型越"自信"。
但这项研究发现了惊人的事实:
Token置信度在推理后期会变得更差!
具体数据(Qwen2.5-7B):
| 推理步骤 | ECE(期望校准误差) |
|---|---|
| 第0步 | 0.186 |
| 第1步 | 0.215 |
| ... | ... |
| 第7步 | 0.312 |
ECE越高,说明置信度越不可靠。
这意味着:
- 模型在推理初期,置信度还算可靠
- 但越往后推理,置信度越不可信
- 到第7步,ECE已经达到0.312,非常不可靠
这就像一个人:
- 刚开始说话时,还算诚实
- 越说越多,就越容易吹牛
4.2 Self-Consistency的代价
另一种常用方法是 Self-Consistency(自一致性):
- 让模型生成10-40个答案
- 看哪个答案出现次数最多
这个方法效果不错,但代价很高:
- 需要生成10-40个完整思维链
- 每个思维链可能很长(几百个token)
- 成本是单次的10-40倍
相比之下,熵轨迹方法 只需要:
- 生成1个完整思维链
- 在每一步额外采样5个简短补全
- 总成本约1500 tokens/问题
只有Self-Consistency的1/8!
4.3 其他基线方法的失败
研究者还测试了其他便宜的可靠性信号:
| 方法 | 效果 |
|---|---|
| 最终步熵 | +2.2 pp(微弱提升) |
| 链长度 | +2.6 pp(微弱提升) |
| 标量一致性(总熵降) | -0.6 pp(比随机还差!) |
| 自我评判 | 62.4%(效果一般) |
相比之下,熵轨迹单调性 带来了 +5.8 pp 的提升(在73.7%覆盖率下)。
🧪 第五章:实验设计与稳健性检验
5.1 实验设置
数据集:GSM8K(小学数学问题,n=300)
模型:Qwen2.5-7B-Instruct, Mistral-7B-Instruct-v0.3
采样数:每步m=5个补全
温度:τ=0.7
5.2 稳健性检验
研究者做了大量稳健性检验,确保结果不是偶然的:
不同采样数(m)
| m值 | 单调/非单调差距 |
|---|---|
| 3 | +20.4 pp |
| 5 | +21.9 pp |
| 10 | +21.5 pp |
差距变化<1.5 pp,非常稳健。
不同温度(τ)
| 温度 | 差距 |
|---|---|
| 0.3 | +14.4 pp |
| 0.5 | +19.7 pp |
| 0.7 | +21.9 pp |
| 1.0 | +23.1 pp |
所有温度下都有显著正向差距。
偏差校正
研究者还使用了Miller-Madow偏差校正,结果依然成立。
控制混淆变量
控制了问题难度、思维链长度、问题长度等变量后,单调性仍然是独立的正向预测因子(OR≈2.37)。
5.3 跨模型泛化
在Mistral-7B上的结果(+34.7 pp差距)表明,这一发现 跨模型家族成立。
🎯 第六章:实践应用——如何用熵轨迹改进你的AI系统?
6.1 选择性预测(Selective Prediction)
核心思想:当熵轨迹非单调时,拒绝回答或请求人工审核。
策略:
- 让模型生成思维链
- 计算熵轨迹
- 如果是单调的,接受答案
- 如果是非单调的,标记为"高风险",需要额外验证
效果:
- 在73.7%的覆盖率下,准确率提升5.8个百分点
- 如果允许更低覆盖率(只保留最可靠的),提升更大
6.2 早期预警系统
核心思想:在推理过程中实时监测熵轨迹,发现问题及时干预。
应用场景:
- 当熵突然上升时,提示模型"请再检查一下这一步"
- 如果多次波动,主动切换到更保守的回答策略
6.3 答案重排序
核心思想:用熵轨迹作为重排序信号,选择最可靠的答案。
方法:
- 生成多个候选答案
- 计算每个答案的熵轨迹单调性
- 优先选择单调的答案
6.4 教学与调试
核心思想:通过分析熵轨迹,理解模型在哪些类型的问题上容易出错。
应用:
- 找出模型经常"纠结"的问题类型
- 针对性地改进训练数据
- 优化模型的推理策略
🔮 第七章:深层思考与未来方向
7.1 为什么是"单调性"?
这是一个深刻的问题。
为什么单调递减的熵轨迹意味着正确的推理?
可能的解释:
- 认知流畅性:正确的推理通常是流畅的,不确定性逐步消除
- 逻辑一致性:正确的推理在逻辑上自洽,不会前后矛盾
- 信息积累:正确的推理每一步都在积累信息,降低不确定性
而非单调轨迹暴露的是:
- 推理中的矛盾或错误
- 信息的丢失或混淆
- 思路的混乱或跳跃
7.2 与认知科学的联系
这个发现与人类认知科学中的研究有惊人的相似:
认知流畅性理论(Cognitive Fluency)认为:
- 人们处理流畅的信息时,会感觉更正确
- 处理卡顿的信息时,会产生怀疑
AI的熵轨迹,某种程度上反映了类似的"认知流畅性"。
7.3 局限与未来研究
当前局限
- 仅在数学任务上验证:GSM8K是数学题,其他领域(如创意写作、开放问答)是否适用还需验证
- 计算成本:虽然比Self-Consistency便宜,但比单次生成还是要贵
- 二分类局限:目前主要是二元判断(单调/非单调),更细粒度的信号(如违反程度)还有待挖掘
未来方向
- 多领域验证:在代码、医学、法律等领域测试
- 更细粒度的信号:不只是"是否违反",还有"违反的严重程度"
- 实时干预:在推理过程中实时调整,而非事后判断
- 结合其他信号:与Self-Consistency、自我评判等方法结合
- 理论理解:更深入地理解为什么单调性与正确性相关
尾声:在不确定中寻找确定
这项研究给我们最大的启示是:
AI的不确定性本身,就是最有价值的信息。
我们不需要AI每次都很自信。相反,我们需要AI 诚实地表达它的不确定 ——而这种不确定的变化模式,恰恰揭示了它的思考质量。
就像人与人之间的交流:
- 一个人说话吞吞吐吐、前后矛盾,我们知道他可能不太确定
- 一个人说话流畅、逻辑清晰,我们更信任他
AI也是如此。
熵轨迹,就是AI的"心跳"——
- 平稳有规律的心跳,意味着健康
- 紊乱的心跳,意味着问题
通过监测这个"心跳",我们可以在AI"生病"时及时发现,在它"健康"时充分信任。
这,就是科学的魅力——
在混沌中寻找秩序,在不确定中发现确定。
参考文献
-
Zhao, X. (2026). Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought. arXiv:2603.18940.
-
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.
-
Wang, X., et al. (2023). Self-consistency improves chain of thought reasoning in language models. ICLR 2023.
-
Guo, C., et al. (2017). On calibration of modern neural networks. ICML 2017.
-
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal.
#PapersCool #每日论文 #熵轨迹 #LLM推理 #不确定性 #思维链 #论文解读 #科普 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。