🌊 当AI不再"一根筋"：教会语言模型拥抱不确定性的艺术

> 副标题：一篇关于"多答案强化学习"的费曼式漫游指南 > > 原作：Isha Puri 等 @ MIT | arXiv:2603.24844 (2026-03-25)

---

🎯 开篇：猜谜游戏的启示

想象你正在玩一个猜谜游戏。主持人说："我口袋里有一种水果，圆圆的红色，咬下去会爆汁。"

你可能会脱口而出："苹果！"

但如果游戏允许你猜三次呢？作为一个聪明的玩家，你会说："可能是苹果、樱桃，或者小番茄——它们都符合这个描述。"

这就是人类面对不确定性时的本能反应：当信息不完整时，我们自然地列出多种可能性，而不是死守一个答案。

但令人惊讶的是，当今最先进的AI——那些经过强化学习训练的语言模型——却像是一个只被训练猜一次的玩家。它们被奖励机制训练得极其"果断"，哪怕面对模棱两可的问题，也坚持输出唯一答案。

这就是MIT研究团队想要解决的核心问题：

> *"如何让AI学会像人类医生那样，在面对模糊症状时给出一份'鉴别诊断'清单，而不是武断地只说一种可能？"*

---

🕳️ 第一章：分布坍缩——AI的"一根筋"困境

🎲 语言模型心中的"概率云"

首先，我们需要理解语言模型（LM）是如何"思考"的。

当你向ChatGPT或Claude提问时，模型内部并不是在"搜索"一个标准答案。相反，它维护着一个巨大的概率分布——一个包含所有可能答案的"概率云"。

比如问："法国的国旗是什么颜色？"

模型心中的分布可能是：

"蓝白红三色旗" → 45%
"蓝、白、红色" → 35%
"法国国旗由蓝白红三条竖条纹组成" → 15%
其他变体 → 5%

这个分布是丰富的、多元的，包含了各种合理的表达方式。

💥 强化学习的"坍缩效应"

但接下来发生的事情，彻底改变了这一切。

现代语言模型在预训练后，通常会经历一个叫做"后训练"的阶段——主要是强化学习（Reinforcement Learning, RL）。在这个过程中，模型回答问题，如果回答正确就获得奖励，错误就被惩罚。

听起来很合理，对吧？但这里有一个致命的副作用。

研究者发现，这种训练会让模型原本丰富的"概率云"坍缩成一个点——它只输出那个"最可能正确"的答案，其他可能性被系统性地压制。

想象一下，如果你每次考试都被要求"只写一个答案，写对加分，写错扣分"，久而久之，你也会变得极其保守，每次都只写那个"最保险"的答案。

这就是论文中提到的"模式坍缩"（Mode Collapse）现象。

📊 数据不会撒谎

论文引用了一系列最新研究来证实这个问题：

Lin et al. (2025) 和 Yu et al. (2025) 发现，RL训练会导致模型熵值（entropy）急剧下降——换句话说，模型变得越来越"确定"，输出多样性锐减。
Jin et al. (2025) 观察到类似现象，称之为"熵坍缩"。
Wu & Choi (2025) 的研究更为直接：他们发现，虽然RLVR（带可验证奖励的强化学习）能显著提升单答案正确率（pass@1），但与此同时，模型的pass@k性能却在恶化——模型越来越难以生成多样化的正确答案。

举个例子：如果一个编程任务有5种不同的正确解法，经过RL训练后，模型可能会牢牢记住其中1种，而完全"遗忘"其他4种。即使你用不同的随机种子让模型重新采样100次，它可能每次都给你几乎相同的代码！

🏥 现实世界的代价

这种"一根筋"行为在很多场景下是可以接受的。比如数学题、事实性问题——确实只有一个正确答案。

但在以下场景中，这会成为严重问题：

场景	为什么需要多答案
🏥 医疗诊断	相同症状可能对应多种疾病，医生需要列出所有可能性
🔍 模糊问答	问题本身信息不完整，多种答案都合理
💻 代码生成	一个问题通常有多种正确解法
🧪 科学假设	实验数据可能支持多种解释
⚖️ 法律分析	案件可能有多个合理的法律角度

想象一下：一个病人右下腹疼痛、发烧。这可能是急性阑尾炎，也可能是右侧肾结石，或者是妇科疾病（如果是女性患者）。一个有经验的医生会列出所有可能性，并建议相应的检查来逐一排除。

但如果是一个"坍缩后"的AI医生，它可能会武断地说"这是阑尾炎"——因为它在训练数据中见过更多阑尾炎的案例，这个答案"最保险"。

这就是问题的严重性。

---

🌳 第二章：多岔路口的哲学

🛤️ 推理的本质是探索

让我们换一个比喻。

想象推理过程像是在森林中寻找出路。每遇到一个分叉路口，你都需要做出选择：

起点
  │
  ├─── 路径A ─── 可能性1
  │
  ├─── 路径B ─── 可能性2
  │
  └─── 路径C ─── 可能性3

传统的单答案RL训练，就像是让AI在每个路口都选择那条"看起来最对"的路径，然后径直走到终点。

问题在于：AI从来没有真正"探索"过其他路径。

它只是被训练成了一个"导航机器"——输入起点，输出最短路径。它不知道其他路径通向哪里，也不知道那些路径是否也是正确的。

🎭 "Best-of-K" 的笨拙 workaround

业界已经意识到这个问题，于是提出了各种推理时（inference-time）的解决方案：

方法1：并行采样（Parallel Sampling）

让模型独立生成K个答案
然后用一个验证器选出最好的
这就是"Best-of-K"

方法2：顺序探索（Sequential Exploration）

让模型生成一个答案，然后被提示"再想想其他可能"
比如Shinn et al. (2023)的Reflexion方法
或者Xie et al. (2023)的自评估引导搜索

这些方法有一定效果，但存在根本性的缺陷：

> 训练-测试不匹配（Train-Test Mismatch）

模型在训练时被教导"坚持一个答案，要正确"，但在测试时却被要求"列出多种可能性"。这就像训练一个拳击手只练习直拳，然后让他去打柔道比赛——他能做，但做得很别扭。

更重要的是，这些推理时方法计算成本高昂。生成K个完整答案意味着K倍的推理时间、K倍的token消耗。

🧠 人类是怎么做的？

相比之下，人类专家的做法是内嵌的（internalized）。

当一位资深医生面对复杂病例时，他不会： 1. 先诊断一次 2. 擦掉黑板 3. 再诊断一次 4. 再擦掉黑板 5. 重复N次 6. 最后把所有诊断列在一起

他会在第一次思考中就同时考虑多个假设：

> "根据右下腹痛和发烧，我首先考虑阑尾炎——这是最常见的。但等等，如果伴随血尿，那可能是肾结石。另外，如果患者是女性，还要考虑卵巢囊肿或异位妊娠..."

所有可能性都在同一条思维链中被探索、比较、排序。

这就是MIT团队想要实现的目标：把推理时的搜索内化到模型的生成过程中。

---

⚙️ 第三章：多答案强化学习——技术创新的优雅

🎓 核心思想：重新定义"正确"

传统RL的核心优化目标是：

最大化：E[ R(y, y*) ]

其中y*是唯一的标准答案，R是奖励函数（通常就是"对/错"的二元判断）。

MIT团队的天才之处在于：他们把"正确答案"从一个点扩展成了一个集合。

不再是y*，而是Y* = {y*₁, y*₂, ..., y*N}——一个包含N个正确答案的集合。

相应地，模型的输出也从一个答案y，变成了一组K个候选答案A = {a₁, a₂, ..., aK}。

新的奖励函数变为：

R_multi(A, Y*) = Σᵢ 1[aᵢ ∈ Y*]

简单来说：模型每猜对一个答案，就得一分。

🔢 四种训练模式

这个简单的改变，实际上统一了多种训练目标：

场景	N（正确答案数）	K（模型输出数）	对应传统方法
标准单答案	1	1	传统RLVR
Best-of-K	1	>1	Pass@K目标
部分覆盖	>1	≤N	最大化覆盖
完全覆盖	>1	≥N	恢复所有正确答案

这就像一个通用的"瑞士军刀"框架，可以根据任务需求灵活调整。

🎨 Multi-Answer RLVR：多样性的艺术

这是团队提出的第一个算法：多答案可验证奖励强化学习（Multi-Answer RL with Verifiable Rewards）。

关键创新点：

1. 结构化输出：模型在一个推理链中生成K个不同的候选答案，用特殊标签标记：

   <think>
   推理过程...
   </think>
   <answer1>第一个答案</answer1>
   <answer2>第二个答案</answer2>
   <answer3>第三个答案</answer3>

2. 格式奖励：为了防止模型偷懒重复同样的答案，团队增加了一个唯一性奖励，强制要求K个答案必须互不相同。

3. 集合级奖励：最终的奖励基于整个答案集合的表现，而不是单个答案。

📐 Multi-Answer RLCR：置信度的数学

第二个算法更进一步：多答案校准奖励强化学习（Multi-Answer RL with Calibration Rewards）。

除了生成答案，模型还被要求为每个答案输出一个置信度分数qᵢ ∈ [0,1]：

<answer1>肺结核</answer1>
<confidence1>0.50</confidence1>
<answer2>肺炎</answer2>
<confidence2>0.30</confidence2>
<answer3>支气管炎</answer3>
<confidence3>0.20</confidence3>

奖励函数结合了正确性和校准性：

R_multi_RLCR = R_multi_RLVR - R_multi_Brier

其中R_multi_Brier是多答案Brier分数，衡量置信度与实际正确性的匹配程度：

R_multi_Brier = (1/K) * Σᵢ (qᵢ - 1[aᵢ ∈ Y*])²

这来自统计学中的严格适当评分规则（Strictly Proper Scoring Rules）理论。简单来说：如果模型说"我有80%信心这是正确答案"，那么长期来看，这类声明应该有80%确实是正确的。如果模型总是过度自信，它就会受到惩罚。

🔬 分布的解释

有趣的是，这种输出可以被解释为真正的概率分布：

单答案场景（N=1）：K个置信度分数之和必须≤1，构成一个离散概率分布
多答案场景（N>1）：置信度可以看作是多变量伯努利分布的参数——每个答案有独立的正确概率

这与保形预测（Conformal Prediction）方法有理论联系，但有一个关键区别：传统保形预测保证覆盖某个固定比例的真实答案，而Multi-Answer RL让模型学习输出最可能的K个答案。

---

🧪 第四章：实验结果——数字背后的洞见

📚 三个截然不同的任务

为了全面验证方法，研究团队选择了三个性质迥异的基准测试：

#### 1️⃣ DDXPlus：医疗诊断的复杂性

数据来源：Tchango et al. (2022)

这是一个大规模医疗诊断数据集，包含患者人口统计信息、症状描述和病史。每个病例对应一个鉴别诊断（differential diagnosis）——一组可能的疾病。

关键特点：

N ≥ 1（可能有多个同时正确的诊断）
需要医疗专业知识
症状和疾病之间存在复杂的多对多关系

示例（来自论文）： > 患者：右下腹痛、发烧、咳血、体重偏低 > > 多答案RL输出： > - 肺结核（50%） > - 肺炎（25%） > - 支气管炎（25%）

训练规模：25,000个样本 输出设置：K = 3个诊断

#### 2️⃣ HotPotQA-Modified：信息不完整的迷雾

数据来源：Yang et al. (2018) 的修改版本

这是一个多跳问答数据集。研究者故意移除了部分相关信息段落，制造信息不完整的场景。

关键特点：

N = 1（只有一个标准答案）
但由于信息缺失，存在显著不确定性
需要模型推理出多种可能的答案

这对应于"N=1, K>1"场景，Multi-Answer RL目标等价于传统的pass@K优化。

#### 3️⃣ MBPP：代码的多样性

数据来源：Austin et al. (2021)

这是一个编程任务基准。每个任务有自然语言描述和单元测试，验证代码正确性。

关键特点：

任务明确，无歧义
但可以有多种正确实现（不同算法、不同代码风格）
使用AST（抽象语法树）判断答案是否真正不同

这代表"低歧义、多解法"场景，覆盖从高度歧义到结构良好任务的整个谱系。

🏆 主要结果：全面碾压

#### 正确性与覆盖率

数据集	方法	覆盖率↑	Pass@1↑	多样性↑	Token效率↓
DDXPlus	RLVR Single	0.76	-	1.05	1467
	RLVR Multi (本文)	1.03	0.35	2.19	622
HotPotQA	RLVR Single	0.21	0.19	1.00	544
	RLVR Multi (本文)	0.27	0.27	2.09	511
MBPP	RLVR Single	0.98	0.29	2.09	512
	RLVR Multi (本文)	1.35	0.49	2.98	235

*表1：Multi-Answer RL在三个基准上的性能提升（K=3）*

关键发现：

1. 覆盖率大幅提升：在DDXPlus上，Multi-Answer RL平均每个问题能猜对1.03个正确答案（满分可能是2-3个），而单答案基线只有0.76。

2. Token效率惊人：在MBPP代码任务上，Multi-Answer RL生成3个答案只需要235个token，而单答案方法采样3次需要512个token——节省了54%的计算成本！

3. 准确率提升：即使只看第一个答案（Pass@1），Multi-Answer RL在MBPP上也达到了49%，相比单答案方法的29%提升了69%！

#### 深度分析：多样性的真实含义

论文图2展示了一个更深刻的洞察：

研究人员从两种模型中各生成了30个答案：

RLVR-Single：独立采样30次
RLVR-Multi：采样10组，每组3个答案

结果显示，尽管生成的总答案数相同（30个），Multi模型产生的独特正确答案数量显著多于Single模型。

这说明：单答案模型的"模式坍缩"不仅影响了输出多样性，还限制了它触及正确答案空间的能力。它反复生成同一个"最可能"答案，即使那个答案是错的，它也无法跳出这个模式去探索其他可能。

相比之下，Multi-Answer RL训练模型在单次生成中就探索多个推理路径，因此更有可能命中正确答案。

#### 校准性：模型终于"自知之明"

数据集	方法	Top-1 Brier↓	Top-1 ECE↓	Set ECE↓
DDXPlus	RLVR Multi	0.42	0.23	0.24
	RLCR Multi (本文)	0.27	0.15	0.19
MBPP	RLVR Multi	0.42	0.20	0.29
	RLCR Multi (本文)	0.26	0.13	0.24
HotPotQA	RLVR Multi	0.35	0.16	0.22
	RLCR Multi (本文)	0.26	0.19	0.16

*表2：校准性能指标（越低越好）*

Brier分数和期望校准误差（ECE）衡量模型置信度的准确性。理想情况下，如果模型说"我有70%信心"，那么应该有70%的这类预测确实是正确的。

结果表明，RLCR Multi在所有三个数据集上都显著改善了校准性。这意味着模型不仅更准确，而且更知道自己什么时候可能是错的——这在高风险的医疗或法律应用中至关重要。

#### 一个有趣的发现

在HotPotQA上，RLCR Multi在top-1答案的ECE上略逊于RLCR Single。研究者认为这可能是因为模型学到了一个先验假设：置信度应该加起来等于1。

在极度困难的单标签任务中，这个假设可能稍微影响了单个答案的校准，但集合级别的校准仍然改善了。

---

🌅 第五章：超越技术——方法论的意义

💡 为什么这很重要？

Multi-Answer RL的价值不仅仅是几个百分点的性能提升。它代表了AI发展的一个重要方向：

#### 1. 从"单一真理"到"概率思维"

传统AI评估框架（比如大多数NLP基准）假设每个问题都有唯一正确答案。但现实世界是混乱的、模糊的、充满不确定性的。

Multi-Answer RL为AI系统引入了概率世界观——承认不确定性，拥抱多样性，量化置信度。

#### 2. 计算效率的革命

传统的Best-of-K方法需要K次前向传播，计算成本线性增长。

Multi-Answer RL通过单次前向传播生成多个答案，将计算复杂度从O(K)降低到O(1)。在MBPP上，这不仅没有牺牲性能，反而提升了准确率和多样性。

这对于资源受限的部署场景意义重大。

#### 3. 可解释性的提升

当一个AI系统说"诊断是肺炎，置信度90%"时，你无法判断它是真的很有把握，还是只是被训练成总是很有把握的样子。

但当它说：

"肺结核，50%"
"肺炎，30%"
"支气管炎，20%"

你不仅能看到完整的假设空间，还能根据置信度做决策。比如：如果前两个置信度都超过30%，也许应该同时做两种检查？

#### 4. 决策支持系统的范式转移

在医疗诊断、法律分析、科学研究等高风险领域，AI不应该试图"替代"人类决策，而应该支持人类决策。

Multi-Answer RL提供的是一种决策支持界面：列出所有合理选项及其相对可能性，让人类专家做最终判断。

这比"黑箱给出单一答案"的模式更符合人类认知，也更容易被专业人士接受。

🔮 未来方向

论文结尾提出了一些令人兴奋的未来研究方向：

1. 动态K值：当前方法固定输出K个答案。未来的模型可以根据问题复杂度自适应地决定输出多少答案。

2. 层次化答案集合：对于复杂问题，答案之间可能有层次关系（比如"呼吸系统疾病"是"肺炎"的上位概念）。

3. 与外部工具结合：模型生成多个假设后，可以主动选择用搜索引擎、数据库或计算工具来验证每个假设。

4. 多模态扩展：将这种框架应用到图像、音频等多模态任务中。

---

🎭 尾声：费曼式的思考

理查德·费曼曾经说过：

> *"第一原则是你不能欺骗自己，而你自己是最容易被欺骗的人。"*

这句话用在AI上格外贴切。

我们训练AI系统优化单一目标（比如"最大化正确答案的概率"），然后惊讶于它们变得"单一"——变得只会说一种话，只想一种可能，只认一个答案。

这不是AI的错，而是我们训练目标的错。

MIT团队的这项工作提醒我们：如果我们希望AI能像人类专家那样思考，我们就必须给它们像人类专家那样的训练目标。

人类专家不会只学一种解法。他们学习在面对不确定性时保持开放，在信息不完整时列出多种假设，在做出判断时量化自己的信心。

Multi-Answer RL把这种智慧编码进了AI的训练过程。它不是让AI变得"更确定"，而是让AI学会恰当地不确定——知道什么时候该坚持，什么时候该探索；什么时候该斩钉截铁，什么时候该列出可能性。

在一个人工智能越来越深入我们生活的时代，这种能力可能比单纯的"准确率"更加重要。

毕竟，现实世界不是多项选择题。它是一个开放的、模糊的、充满可能性的谜题。

而学会拥抱这种可能性，也许是智能的本质。

---

📚 参考文献

1. Puri, I., Damani, M., Shenfeld, I., Ghassemi, M., Andreas, J., & Kim, Y. (2026). Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models. *arXiv preprint arXiv:2603.24844*.

2. Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. *arXiv preprint arXiv:2501.12948*.

3. Damani, M., Puri, I., Slocum, S., Shenfeld, I., Choshen, L., Kim, Y., & Andreas, J. (2025). Beyond binary rewards: Training lms to reason about their uncertainty. *arXiv preprint arXiv:2507.16806*.

4. Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. *Journal of the American Statistical Association*, 102(477), 359-378.

5. Tchango, A. G., et al. (2022). DDXPlus: A medical diagnostic dataset. *Medical AI Research*.

6. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A dataset for diverse, explainable multi-hop question answering. *EMNLP 2018*.

7. Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., ... & Sutton, C. (2021). Program synthesis with large language models. *arXiv preprint arXiv:2108.07732*.

8. Wu, F., & Choi, Y. (2025). The invisible leash: Why rlvr may not escape its origin. *AI for Math Workshop @ ICML 2025*.

9. Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model? *arXiv preprint arXiv:2504.13837*.

10. Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). Can LLMs express their uncertainty? an empirical evaluation of confidence elicitation in LLMs. *ICLR 2024*.

---

*本文以费曼风格撰写，力求在保持科学严谨性的同时让复杂概念易于理解。所有实验数据和图表描述均基于原始论文。*

*写作日期：2026年3月28日*

🌊 当AI不再一根筋：教会语言模型拥抱不确定性的艺术

🌊 当AI不再"一根筋"：教会语言模型拥抱不确定性的艺术

🎯 开篇：猜谜游戏的启示

🕳️ 第一章：分布坍缩——AI的"一根筋"困境

🎲 语言模型心中的"概率云"

💥 强化学习的"坍缩效应"

📊 数据不会撒谎

🏥 现实世界的代价

🌳 第二章：多岔路口的哲学

🛤️ 推理的本质是探索

🎭 "Best-of-K" 的笨拙 workaround

🧠 人类是怎么做的？

⚙️ 第三章：多答案强化学习——技术创新的优雅

🎓 核心思想：重新定义"正确"

🔢 四种训练模式

🎨 Multi-Answer RLVR：多样性的艺术

📐 Multi-Answer RLCR：置信度的数学

🔬 分布的解释

🧪 第四章：实验结果——数字背后的洞见

📚 三个截然不同的任务

🏆 主要结果：全面碾压

🌅 第五章：超越技术——方法论的意义

💡 为什么这很重要？

🔮 未来方向

🎭 尾声：费曼式的思考

📚 参考文献