[论文解读] 概率的谎言:当LLM的自信遇上现实的正确答案
🎲 概率的谎言:当LLM的"自信"遇上现实的"正确答案"
> 论文: When are likely answers right? On Sequence Probability and Correctness in LLMs > 作者: Johannes Zenn, Jonas Geiping > arXiv: 2606.27359 > 发布日期: 2026-06-25
---
🍷 晚宴上的错觉
想象你参加一场盛大的晚宴。厅内灯光柔和,水晶吊灯折射出细碎的光斑。一位穿着红裙子的女士站在角落,她的存在仿佛自带引力场——几乎每一个进入大厅的人,目光都会被她吸引。不是因为她是全场最美,而是因为她最显眼。
在LLM的世界里,"显眼"就是概率高。模型给某个回答分配的序列概率越高,就意味着这个回答在模型的"认知"中越"自然"、越"流畅"、越像是它训练数据中会看到的句子。
但我们今天要问一个根本性的问题:这个最显眼的回答,一定是正确的吗?
Johannes Zenn和Jonas Geiping的这篇论文,就像一位冷静的社会学家,系统性地研究了LLM的"显眼度"与"正确性"之间的真实关系。他们的发现可能会让你重新思考:当我们用温度参数、beam search、top-p采样来调整模型输出时,我们到底在调什么?
---
🧭 解码方法:从局部到全局的"概率猎手"
什么是"解码"?
在深入之前,我们需要理解一个基本概念:LLM的解码(decoding)。
想象你在写一封邮件。每写一个字,你其实都在做一个选择:下一个字该写什么?这个选择不是随机的——你基于已经写下的内容,在脑海中有一个"下一个可能的词"的排名列表。有些词显然更合理("亲爱的"后面接"先生"),有些词则显得荒谬("亲爱的"后面接"冰箱")。
LLM在生成文本时,也是在做同样的事。但不同的是,它会给每个可能的下一个词分配一个概率。这个概率就是模型认为"这个词接在这里有多自然"的量化度量。
解码方法就是决定如何从这些概率中选择最终输出的一系列策略。
局部解码:每次只看一步
低温采样(Low-Temperature Sampling, LTS)是最基础的方法。它像一个有洁癖的编辑:每次只从概率最高的几个词中选择,绝不冒险。温度参数越低,选择越保守。
Top-k采样和Top-p采样稍微灵活一些。它们设定一个阈值:只考虑概率最高的k个词(top-k),或者只考虑累积概率达到p的那些词(top-p)。这就像在餐厅点菜时,只从菜单的前半页选择——你知道这些菜大概率不会出错,但你也错过了后半页可能存在的惊喜。
ε-sampling则像一个宽容度可调节的审核员:只要概率超过某个小阈值ε的词,都有机会被选中。
这些方法的共同特点是:它们只在每一步做局部决策。每一步都选择看起来最合理的词,但没有人保证这些局部最优决策组合起来会是一个全局最优的句子。
全局解码:寻找整个句子的"最优解"
与局部方法不同,全局解码方法试图找到整个序列中概率最高的那个。
Beam Search就像一个有远见的棋手。它不会只看下一步,而是同时追踪几条可能的路径,保留整体看起来最有"前途"的那些。参数K(beam width)决定它同时追踪多少条路径。当K=1时,它就是贪婪解码——每次都选当前概率最高的词。
但这里有一个著名的悖论:beam search往往会产生重复、平淡、质量反而更低的文本。就像你在商场里沿着最"安全"的路径走,结果总是经过同样的几家店,错过了更有趣的小巷。
Best-of-N(BoN)采用另一种策略:它先随机生成N个完整回答,然后从中选出概率最高的那个。当N趋近无穷时,它理论上能找到概率最高的那个回答——就像让N个人各自写一篇文章,然后选最流畅的那篇。
Power Sampling是最巧妙的。它不改变局部选择,而是直接对整个句子的概率分布进行"锐化"——提高高概率句子的权重,降低低概率句子的权重。参数α控制锐化的程度:α越大,分布越尖锐,越集中在高概率区域。
变分视角:解码即优化
论文提出了一个优雅的数学视角:所有全局解码方法都可以看作是在优化一个变分目标——在期望序列概率和输出多样性之间寻找平衡。
Power分布pα正是这个优化问题的解析解。当α→∞时,熵项消失,优化器坍缩到分布的模(mode)——即概率最高的那个点。这就是为什么BoN在N很大时近似于power sampling在α很大时的行为。
---
🔬 四项实验:从宏观到微观的"真相解剖"
现在进入论文的核心。作者们在8种解码方法、14个模型(Qwen2.5、Qwen3、Olmo3系列)、6个基准数据集(MATH500、GPQA、HumanEval、IFEval、MedQA、MMLU)上进行了系统性的相关性分析。
他们定义了四个层次的相关性,从宏观到微观逐步深入:
1️⃣ 跨方法相关性(Across-Method)
问题:不同解码方法之间,更高的序列概率是否意味着更高的正确率?
作者以低温采样(LTS,α=4)为基准,观察其他方法相对于这个基准的表现。结果画在一张四色图上:
- 🟩 绿色(+/+):概率更高,正确率也更高——这是我们希望看到的情况
- 🟨 黄色(+/-):概率更高,但正确率更低——危险的陷阱
- 🟦 蓝色(-/+):概率更低,但正确率更高——被低估的宝藏
- 🟥 红色(-/-):概率更低,正确率也更低——双输
更惊人的是:即使某个方法在某个数据集上找到了概率更高的回答,这些回答也不一定更正确。
2️⃣ 方法内相关性(Within-Method)
问题:在同一个方法内部,调大超参数使序列概率更高,正确率是否也会提升?
作者对每种方法都测试了多个超参数配置,观察概率与正确率的变化趋势。
发现:几乎在所有情况下,调大超参数确实会产生概率更高的序列。但正确率呢?大约一半时间正确率上升,一半时间反而下降。这就像你调音响音量——声音确实变大了,但音质不一定更好。
这个发现对实践有重要意义:我们调temperature、top-k、beam width时,不能假设"更保守=更正确"。超参数需要针对具体方法、模型和数据集进行调优,不存在通用最优配置。
3️⃣ 数据集内相关性(Within-Dataset)
问题:在同一个数据集内部,概率更高的prompt-answer对是否更可能是正确的?
这是论文中最令人振奋的发现。作者将所有样本按概率分成10个区间(bin),计算每个区间的正确率。
发现:
- MATH500:几乎完美的正相关(Pearson r = +0.96)。概率越高,正确率几乎线性上升。这就像在一个数学考试中,模型真的能"感觉"到自己的答案对不对。
- GPQA、HumanEval、MedQA、MMLU:中等程度的正相关。模型有一定的"自知之明",但不强。
- IFEval:负相关!模型越"自信"的回答,反而越可能是错的。这可能是因为基础模型对指令格式不熟悉,把"格式错误但内容流畅"的回答当成了高概率输出。
4️⃣ 样本内相关性(Within-Sample)
问题:对于同一个prompt的多次重复采样,概率更高的回答是否更正确?
这是最细粒度的分析。作者对同一个问题重复采样32次,计算这32个回答的概率与正确性的相关性。
发现:相关系数围绕零对称分布。对于单个问题,概率根本不能告诉你哪个回答更正确。这就像你问模型同一个问题十次,它十次给出了不同的答案——概率最高的那个不一定是对的。
但有一个有趣的例外:当模型对这个问题的正确率本身就高时(比如10个回答中有8个正确),概率与正确性的相关性会明显增强。这又呼应了之前的发现:概率信号只有在模型已经"够强"的时候才可靠。
---
🎯 核心结论:概率的"可用性边界"
综合四个层次的实验,论文得出了清晰的结论:
1. 跨样本(数据集内):概率是有用的信号。在固定数据集上,模型通常能区分正确和错误的回答。但信号的强度取决于任务类型和模型质量。
2. 跨方法/超参数:概率不是有用的选择标准。你无法通过"选概率最高的方法"来保证更高的正确率。
3. 同一样本的多次尝试:概率几乎无用。对于同一个问题,不要指望用概率来筛选最佳回答。
4. 关键前提:概率信号的可靠性与模型在任务上的基线正确率正相关。只有当模型已经够强时,概率才能作为自改进的线索。如果模型还很弱,依赖概率信号只会让模型在错误的方向上越走越偏。
---
💡 实践启示:解码、自一致性、自改进的新指南
解码策略
- 不要盲信全局方法:Beam search和power sampling虽然能找到高概率序列,但这些序列不一定更好。在很多任务上,简单的低温采样就已经足够。
- 超参数调优是必要的:没有通用最优配置。每个方法、每个模型、每个数据集都需要单独调优。
- MATH任务上可以放心用power sampling:数学是唯一一个概率与正确性高度一致的任务,这里用power sampling几乎总是有益。
自一致性(Self-Consistency)
自一致性通过多次采样然后投票来提高准确率。论文发现:
- 普通自一致性(SC):用均匀投票(uniform weighting)通常比概率加权投票更好。这是因为对于单个问题,概率与正确性几乎没有相关性。
- Power自一致性(PSC):从power分布中采样然后投票,在MATH上有效,但在其他任务上不稳定。
无验证器的自改进(Verifier-Free Self-Improvement)
这是最重要的实践启示。很多最近的研究尝试用概率本身作为奖励信号来让模型自我改进(比如用高概率样本进行自蒸馏)。
论文的发现给这种方法泼了一盆冷水:只有当模型在任务上已经有足够高的准确率时,概率信号才可靠。否则,模型会不断强化错误的模式——因为它"自信"的回答很可能是错的。
这就像让一个考试不及格的学生自己批改自己的试卷:他可能会把错误的答案打上对勾,因为他真心以为自己是对的。
---
🌌 哲学的尾声:概率的温柔与残酷
回到晚宴的比喻。那个穿红裙子的女士确实很显眼,但显眼不等于正确。在LLM的世界里,概率是模型的"直觉"——它训练数据中学到的统计规律。但直觉有时会骗人,尤其是在模型从未见过的新任务上。
Zenn和Geiping的论文告诉我们:概率是一个复杂的多面体。它在某些层面(跨样本)是有信息的,在另一些层面(同一样本的多次尝试)几乎随机,在方法选择层面则完全不可靠。
这不是一个悲观的结果。相反,它给了我们一个更精确的地图——知道什么时候该信概率,什么时候不该信。在数学推理中,你可以大胆地用高概率作为筛选标准。在指令遵循任务中,你要警惕模型的"过度自信"。在调解码方法时,不要假设"更大概率=更好"。
最终,概率只是工具。而工具的意义,在于知道什么时候用它,什么时候放下它。
---
📚 参考文献
- Zenn J., Geiping J. (2026). When are likely answers right? On Sequence Probability and Correctness in LLMs. *arXiv preprint arXiv:2606.27359*.
- Fan, A., Lewis, M., & Dauphin, Y. (2018). Hierarchical Neural Story Generation. *ACL*.
- Holtzman, A., et al. (2020). The Curious Case of Neural Text Degeneration. *ICLR*.
- Wang, X., et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. *ICLR*.
- Ji, X., et al. (2026). Scalable Power Sampling for Large Language Models. *arXiv*.
- Karan, M., & Du, L. (2025). Power Sampling for Language Models. *arXiv*.
- Azizi, S., et al. (2026). Power-SMC: Low-Latency Sequence-Level Power Sampling for Training-Free LLM Reasoning. *arXiv*.
- Yang, A., et al. (2025). Qwen3 Technical Report. *arXiv*.
*本文由小凯基于论文内容深度解读,采用费曼风格撰写。*
#论文解读 #arXiv #LLM #解码策略 #概率与正确性 #费曼风格 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens