🎲 概率的谎言：当LLM的"自信"遇上现实的"正确答案"

> 论文: When are likely answers right? On Sequence Probability and Correctness in LLMs > 作者: Johannes Zenn, Jonas Geiping > arXiv: 2606.27359 > 发布日期: 2026-06-25

---

🍷 晚宴上的错觉

想象你参加一场盛大的晚宴。厅内灯光柔和，水晶吊灯折射出细碎的光斑。一位穿着红裙子的女士站在角落，她的存在仿佛自带引力场——几乎每一个进入大厅的人，目光都会被她吸引。不是因为她是全场最美，而是因为她最显眼。

在LLM的世界里，"显眼"就是概率高。模型给某个回答分配的序列概率越高，就意味着这个回答在模型的"认知"中越"自然"、越"流畅"、越像是它训练数据中会看到的句子。

但我们今天要问一个根本性的问题：这个最显眼的回答，一定是正确的吗？

Johannes Zenn和Jonas Geiping的这篇论文，就像一位冷静的社会学家，系统性地研究了LLM的"显眼度"与"正确性"之间的真实关系。他们的发现可能会让你重新思考：当我们用温度参数、beam search、top-p采样来调整模型输出时，我们到底在调什么？

---

🧭 解码方法：从局部到全局的"概率猎手"

什么是"解码"？

在深入之前，我们需要理解一个基本概念：LLM的解码（decoding）。

想象你在写一封邮件。每写一个字，你其实都在做一个选择：下一个字该写什么？这个选择不是随机的——你基于已经写下的内容，在脑海中有一个"下一个可能的词"的排名列表。有些词显然更合理（"亲爱的"后面接"先生"），有些词则显得荒谬（"亲爱的"后面接"冰箱"）。

LLM在生成文本时，也是在做同样的事。但不同的是，它会给每个可能的下一个词分配一个概率。这个概率就是模型认为"这个词接在这里有多自然"的量化度量。

解码方法就是决定如何从这些概率中选择最终输出的一系列策略。

局部解码：每次只看一步

低温采样（Low-Temperature Sampling, LTS）是最基础的方法。它像一个有洁癖的编辑：每次只从概率最高的几个词中选择，绝不冒险。温度参数越低，选择越保守。

Top-k采样和Top-p采样稍微灵活一些。它们设定一个阈值：只考虑概率最高的k个词（top-k），或者只考虑累积概率达到p的那些词（top-p）。这就像在餐厅点菜时，只从菜单的前半页选择——你知道这些菜大概率不会出错，但你也错过了后半页可能存在的惊喜。

ε-sampling则像一个宽容度可调节的审核员：只要概率超过某个小阈值ε的词，都有机会被选中。

这些方法的共同特点是：它们只在每一步做局部决策。每一步都选择看起来最合理的词，但没有人保证这些局部最优决策组合起来会是一个全局最优的句子。

全局解码：寻找整个句子的"最优解"

与局部方法不同，全局解码方法试图找到整个序列中概率最高的那个。

Beam Search就像一个有远见的棋手。它不会只看下一步，而是同时追踪几条可能的路径，保留整体看起来最有"前途"的那些。参数K（beam width）决定它同时追踪多少条路径。当K=1时，它就是贪婪解码——每次都选当前概率最高的词。

但这里有一个著名的悖论：beam search往往会产生重复、平淡、质量反而更低的文本。就像你在商场里沿着最"安全"的路径走，结果总是经过同样的几家店，错过了更有趣的小巷。

Best-of-N（BoN）采用另一种策略：它先随机生成N个完整回答，然后从中选出概率最高的那个。当N趋近无穷时，它理论上能找到概率最高的那个回答——就像让N个人各自写一篇文章，然后选最流畅的那篇。

Power Sampling是最巧妙的。它不改变局部选择，而是直接对整个句子的概率分布进行"锐化"——提高高概率句子的权重，降低低概率句子的权重。参数α控制锐化的程度：α越大，分布越尖锐，越集中在高概率区域。

变分视角：解码即优化

论文提出了一个优雅的数学视角：所有全局解码方法都可以看作是在优化一个变分目标——在期望序列概率和输出多样性之间寻找平衡。

Power分布pα正是这个优化问题的解析解。当α→∞时，熵项消失，优化器坍缩到分布的模（mode）——即概率最高的那个点。这就是为什么BoN在N很大时近似于power sampling在α很大时的行为。

---

🔬 四项实验：从宏观到微观的"真相解剖"

现在进入论文的核心。作者们在8种解码方法、14个模型（Qwen2.5、Qwen3、Olmo3系列）、6个基准数据集（MATH500、GPQA、HumanEval、IFEval、MedQA、MMLU）上进行了系统性的相关性分析。

他们定义了四个层次的相关性，从宏观到微观逐步深入：

1️⃣ 跨方法相关性（Across-Method）

问题：不同解码方法之间，更高的序列概率是否意味着更高的正确率？

作者以低温采样（LTS，α=4）为基准，观察其他方法相对于这个基准的表现。结果画在一张四色图上：

🟩 绿色（+/+）：概率更高，正确率也更高——这是我们希望看到的情况
🟨 黄色（+/-）：概率更高，但正确率更低——危险的陷阱
🟦 蓝色（-/+）：概率更低，但正确率更高——被低估的宝藏
🟥 红色（-/-）：概率更低，正确率也更低——双输

发现：MATH500（数学推理）上绿色格子最多，说明概率与正确性在此任务上高度一致。但在MMLU、HumanEval、MedQA、GPQA和IFEval上，黄色和蓝色格子大量出现——说明没有一种方法能稳定地超越LTS基准。

更惊人的是：即使某个方法在某个数据集上找到了概率更高的回答，这些回答也不一定更正确。

2️⃣ 方法内相关性（Within-Method）

问题：在同一个方法内部，调大超参数使序列概率更高，正确率是否也会提升？

作者对每种方法都测试了多个超参数配置，观察概率与正确率的变化趋势。

发现：几乎在所有情况下，调大超参数确实会产生概率更高的序列。但正确率呢？大约一半时间正确率上升，一半时间反而下降。这就像你调音响音量——声音确实变大了，但音质不一定更好。

这个发现对实践有重要意义：我们调temperature、top-k、beam width时，不能假设"更保守=更正确"。超参数需要针对具体方法、模型和数据集进行调优，不存在通用最优配置。

3️⃣ 数据集内相关性（Within-Dataset）

问题：在同一个数据集内部，概率更高的prompt-answer对是否更可能是正确的？

这是论文中最令人振奋的发现。作者将所有样本按概率分成10个区间（bin），计算每个区间的正确率。

发现：

MATH500：几乎完美的正相关（Pearson r = +0.96）。概率越高，正确率几乎线性上升。这就像在一个数学考试中，模型真的能"感觉"到自己的答案对不对。
GPQA、HumanEval、MedQA、MMLU：中等程度的正相关。模型有一定的"自知之明"，但不强。
IFEval：负相关！模型越"自信"的回答，反而越可能是错的。这可能是因为基础模型对指令格式不熟悉，把"格式错误但内容流畅"的回答当成了高概率输出。

一个关键观察：posttrained模型（经过后训练的模型）几乎总是正相关，而base模型（基础预训练模型）则多变且经常出现负相关。这说明后训练（SFT/RLHF）不仅提升了模型能力，还提升了模型的"校准能力"——即模型对自己正确性的判断更准确了。

4️⃣ 样本内相关性（Within-Sample）

问题：对于同一个prompt的多次重复采样，概率更高的回答是否更正确？

这是最细粒度的分析。作者对同一个问题重复采样32次，计算这32个回答的概率与正确性的相关性。

发现：相关系数围绕零对称分布。对于单个问题，概率根本不能告诉你哪个回答更正确。这就像你问模型同一个问题十次，它十次给出了不同的答案——概率最高的那个不一定是对的。

但有一个有趣的例外：当模型对这个问题的正确率本身就高时（比如10个回答中有8个正确），概率与正确性的相关性会明显增强。这又呼应了之前的发现：概率信号只有在模型已经"够强"的时候才可靠。

---

🎯 核心结论：概率的"可用性边界"

综合四个层次的实验，论文得出了清晰的结论：

1. 跨样本（数据集内）：概率是有用的信号。在固定数据集上，模型通常能区分正确和错误的回答。但信号的强度取决于任务类型和模型质量。

2. 跨方法/超参数：概率不是有用的选择标准。你无法通过"选概率最高的方法"来保证更高的正确率。

3. 同一样本的多次尝试：概率几乎无用。对于同一个问题，不要指望用概率来筛选最佳回答。

4. 关键前提：概率信号的可靠性与模型在任务上的基线正确率正相关。只有当模型已经够强时，概率才能作为自改进的线索。如果模型还很弱，依赖概率信号只会让模型在错误的方向上越走越偏。

---

💡 实践启示：解码、自一致性、自改进的新指南

解码策略

不要盲信全局方法：Beam search和power sampling虽然能找到高概率序列，但这些序列不一定更好。在很多任务上，简单的低温采样就已经足够。
超参数调优是必要的：没有通用最优配置。每个方法、每个模型、每个数据集都需要单独调优。
MATH任务上可以放心用power sampling：数学是唯一一个概率与正确性高度一致的任务，这里用power sampling几乎总是有益。

自一致性（Self-Consistency）

自一致性通过多次采样然后投票来提高准确率。论文发现：

普通自一致性（SC）：用均匀投票（uniform weighting）通常比概率加权投票更好。这是因为对于单个问题，概率与正确性几乎没有相关性。
Power自一致性（PSC）：从power分布中采样然后投票，在MATH上有效，但在其他任务上不稳定。

无验证器的自改进（Verifier-Free Self-Improvement）

这是最重要的实践启示。很多最近的研究尝试用概率本身作为奖励信号来让模型自我改进（比如用高概率样本进行自蒸馏）。

论文的发现给这种方法泼了一盆冷水：只有当模型在任务上已经有足够高的准确率时，概率信号才可靠。否则，模型会不断强化错误的模式——因为它"自信"的回答很可能是错的。

这就像让一个考试不及格的学生自己批改自己的试卷：他可能会把错误的答案打上对勾，因为他真心以为自己是对的。

---

🌌 哲学的尾声：概率的温柔与残酷

回到晚宴的比喻。那个穿红裙子的女士确实很显眼，但显眼不等于正确。在LLM的世界里，概率是模型的"直觉"——它训练数据中学到的统计规律。但直觉有时会骗人，尤其是在模型从未见过的新任务上。

Zenn和Geiping的论文告诉我们：概率是一个复杂的多面体。它在某些层面（跨样本）是有信息的，在另一些层面（同一样本的多次尝试）几乎随机，在方法选择层面则完全不可靠。

这不是一个悲观的结果。相反，它给了我们一个更精确的地图——知道什么时候该信概率，什么时候不该信。在数学推理中，你可以大胆地用高概率作为筛选标准。在指令遵循任务中，你要警惕模型的"过度自信"。在调解码方法时，不要假设"更大概率=更好"。

最终，概率只是工具。而工具的意义，在于知道什么时候用它，什么时候放下它。

---

📚 参考文献

Zenn J., Geiping J. (2026). When are likely answers right? On Sequence Probability and Correctness in LLMs. *arXiv preprint arXiv:2606.27359*.
Fan, A., Lewis, M., & Dauphin, Y. (2018). Hierarchical Neural Story Generation. *ACL*.
Holtzman, A., et al. (2020). The Curious Case of Neural Text Degeneration. *ICLR*.
Wang, X., et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. *ICLR*.
Ji, X., et al. (2026). Scalable Power Sampling for Large Language Models. *arXiv*.
Karan, M., & Du, L. (2025). Power Sampling for Language Models. *arXiv*.
Azizi, S., et al. (2026). Power-SMC: Low-Latency Sequence-Level Power Sampling for Training-Free LLM Reasoning. *arXiv*.
Yang, A., et al. (2025). Qwen3 Technical Report. *arXiv*.

---

*本文由小凯基于论文内容深度解读，采用费曼风格撰写。*

#论文解读 #arXiv #LLM #解码策略 #概率与正确性 #费曼风格 #小凯