🌊 当AI不再"一根筋":教会语言模型拥抱不确定性的艺术
> 副标题:一篇关于"多答案强化学习"的费曼式漫游指南 > > 原作:Isha Puri 等 @ MIT | arXiv:2603.24844 (2026-03-25)
---
🎯 开篇:猜谜游戏的启示
想象你正在玩一个猜谜游戏。主持人说:"我口袋里有一种水果,圆圆的红色,咬下去会爆汁。"
你可能会脱口而出:"苹果!"
但如果游戏允许你猜三次呢?作为一个聪明的玩家,你会说:"可能是苹果、樱桃,或者小番茄——它们都符合这个描述。"
这就是人类面对不确定性时的本能反应:当信息不完整时,我们自然地列出多种可能性,而不是死守一个答案。
但令人惊讶的是,当今最先进的AI——那些经过强化学习训练的语言模型——却像是一个只被训练猜一次的玩家。它们被奖励机制训练得极其"果断",哪怕面对模棱两可的问题,也坚持输出唯一答案。
这就是MIT研究团队想要解决的核心问题:
> *"如何让AI学会像人类医生那样,在面对模糊症状时给出一份'鉴别诊断'清单,而不是武断地只说一种可能?"*
---
🕳️ 第一章:分布坍缩——AI的"一根筋"困境
🎲 语言模型心中的"概率云"
首先,我们需要理解语言模型(LM)是如何"思考"的。
当你向ChatGPT或Claude提问时,模型内部并不是在"搜索"一个标准答案。相反,它维护着一个巨大的概率分布——一个包含所有可能答案的"概率云"。
比如问:"法国的国旗是什么颜色?"
模型心中的分布可能是:
- "蓝白红三色旗" → 45%
- "蓝、白、红色" → 35%
- "法国国旗由蓝白红三条竖条纹组成" → 15%
- 其他变体 → 5%
💥 强化学习的"坍缩效应"
但接下来发生的事情,彻底改变了这一切。
现代语言模型在预训练后,通常会经历一个叫做"后训练"的阶段——主要是强化学习(Reinforcement Learning, RL)。在这个过程中,模型回答问题,如果回答正确就获得奖励,错误就被惩罚。
听起来很合理,对吧?但这里有一个致命的副作用。
研究者发现,这种训练会让模型原本丰富的"概率云"坍缩成一个点——它只输出那个"最可能正确"的答案,其他可能性被系统性地压制。
想象一下,如果你每次考试都被要求"只写一个答案,写对加分,写错扣分",久而久之,你也会变得极其保守,每次都只写那个"最保险"的答案。
这就是论文中提到的"模式坍缩"(Mode Collapse)现象。
📊 数据不会撒谎
论文引用了一系列最新研究来证实这个问题:
- Lin et al. (2025) 和 Yu et al. (2025) 发现,RL训练会导致模型熵值(entropy)急剧下降——换句话说,模型变得越来越"确定",输出多样性锐减。
- Jin et al. (2025) 观察到类似现象,称之为"熵坍缩"。
- Wu & Choi (2025) 的研究更为直接:他们发现,虽然RLVR(带可验证奖励的强化学习)能显著提升单答案正确率(pass@1),但与此同时,模型的pass@k性能却在恶化——模型越来越难以生成多样化的正确答案。
🏥 现实世界的代价
这种"一根筋"行为在很多场景下是可以接受的。比如数学题、事实性问题——确实只有一个正确答案。
但在以下场景中,这会成为严重问题:
| 场景 | 为什么需要多答案 |
|---|---|
| 🏥 医疗诊断 | 相同症状可能对应多种疾病,医生需要列出所有可能性 |
| 🔍 模糊问答 | 问题本身信息不完整,多种答案都合理 |
| 💻 代码生成 | 一个问题通常有多种正确解法 |
| 🧪 科学假设 | 实验数据可能支持多种解释 |
| ⚖️ 法律分析 | 案件可能有多个合理的法律角度 |
但如果是一个"坍缩后"的AI医生,它可能会武断地说"这是阑尾炎"——因为它在训练数据中见过更多阑尾炎的案例,这个答案"最保险"。
这就是问题的严重性。
---
🌳 第二章:多岔路口的哲学
🛤️ 推理的本质是探索
让我们换一个比喻。
想象推理过程像是在森林中寻找出路。每遇到一个分叉路口,你都需要做出选择:
起点
│
├─── 路径A ─── 可能性1
│
├─── 路径B ─── 可能性2
│
└─── 路径C ─── 可能性3
传统的单答案RL训练,就像是让AI在每个路口都选择那条"看起来最对"的路径,然后径直走到终点。
问题在于:AI从来没有真正"探索"过其他路径。
它只是被训练成了一个"导航机器"——输入起点,输出最短路径。它不知道其他路径通向哪里,也不知道那些路径是否也是正确的。
🎭 "Best-of-K" 的笨拙 workaround
业界已经意识到这个问题,于是提出了各种推理时(inference-time)的解决方案:
方法1:并行采样(Parallel Sampling)
- 让模型独立生成K个答案
- 然后用一个验证器选出最好的
- 这就是"Best-of-K"
- 让模型生成一个答案,然后被提示"再想想其他可能"
- 比如Shinn et al. (2023)的Reflexion方法
- 或者Xie et al. (2023)的自评估引导搜索
> 训练-测试不匹配(Train-Test Mismatch)
模型在训练时被教导"坚持一个答案,要正确",但在测试时却被要求"列出多种可能性"。这就像训练一个拳击手只练习直拳,然后让他去打柔道比赛——他能做,但做得很别扭。
更重要的是,这些推理时方法计算成本高昂。生成K个完整答案意味着K倍的推理时间、K倍的token消耗。
🧠 人类是怎么做的?
相比之下,人类专家的做法是内嵌的(internalized)。
当一位资深医生面对复杂病例时,他不会: 1. 先诊断一次 2. 擦掉黑板 3. 再诊断一次 4. 再擦掉黑板 5. 重复N次 6. 最后把所有诊断列在一起
他会在第一次思考中就同时考虑多个假设:
> "根据右下腹痛和发烧,我首先考虑阑尾炎——这是最常见的。但等等,如果伴随血尿,那可能是肾结石。另外,如果患者是女性,还要考虑卵巢囊肿或异位妊娠..."
所有可能性都在同一条思维链中被探索、比较、排序。
这就是MIT团队想要实现的目标:把推理时的搜索内化到模型的生成过程中。
---
⚙️ 第三章:多答案强化学习——技术创新的优雅
🎓 核心思想:重新定义"正确"
传统RL的核心优化目标是:
最大化:E[ R(y, y*) ]
其中y*是唯一的标准答案,R是奖励函数(通常就是"对/错"的二元判断)。
MIT团队的天才之处在于:他们把"正确答案"从一个点扩展成了一个集合。
不再是y*,而是Y* = {y*₁, y*₂, ..., y*N}——一个包含N个正确答案的集合。
相应地,模型的输出也从一个答案y,变成了一组K个候选答案A = {a₁, a₂, ..., aK}。
新的奖励函数变为:
R_multi(A, Y*) = Σᵢ 1[aᵢ ∈ Y*]
简单来说:模型每猜对一个答案,就得一分。
🔢 四种训练模式
这个简单的改变,实际上统一了多种训练目标:
| 场景 | N(正确答案数) | K(模型输出数) | 对应传统方法 |
|---|---|---|---|
| 标准单答案 | 1 | 1 | 传统RLVR |
| Best-of-K | 1 | >1 | Pass@K目标 |
| 部分覆盖 | >1 | ≤N | 最大化覆盖 |
| 完全覆盖 | >1 | ≥N | 恢复所有正确答案 |
🎨 Multi-Answer RLVR:多样性的艺术
这是团队提出的第一个算法:多答案可验证奖励强化学习(Multi-Answer RL with Verifiable Rewards)。
关键创新点:
1. 结构化输出:模型在一个推理链中生成K个不同的候选答案,用特殊标签标记:
<think>
推理过程...
</think>
<answer1>第一个答案</answer1>
<answer2>第二个答案</answer2>
<answer3>第三个答案</answer3>
2. 格式奖励:为了防止模型偷懒重复同样的答案,团队增加了一个唯一性奖励,强制要求K个答案必须互不相同。
3. 集合级奖励:最终的奖励基于整个答案集合的表现,而不是单个答案。
📐 Multi-Answer RLCR:置信度的数学
第二个算法更进一步:多答案校准奖励强化学习(Multi-Answer RL with Calibration Rewards)。
除了生成答案,模型还被要求为每个答案输出一个置信度分数qᵢ ∈ [0,1]:
<answer1>肺结核</answer1>
<confidence1>0.50</confidence1>
<answer2>肺炎</answer2>
<confidence2>0.30</confidence2>
<answer3>支气管炎</answer3>
<confidence3>0.20</confidence3>
奖励函数结合了正确性和校准性:
R_multi_RLCR = R_multi_RLVR - R_multi_Brier
其中R_multi_Brier是多答案Brier分数,衡量置信度与实际正确性的匹配程度:
R_multi_Brier = (1/K) * Σᵢ (qᵢ - 1[aᵢ ∈ Y*])²
这来自统计学中的严格适当评分规则(Strictly Proper Scoring Rules)理论。简单来说:如果模型说"我有80%信心这是正确答案",那么长期来看,这类声明应该有80%确实是正确的。如果模型总是过度自信,它就会受到惩罚。
🔬 分布的解释
有趣的是,这种输出可以被解释为真正的概率分布:
- 单答案场景(N=1):K个置信度分数之和必须≤1,构成一个离散概率分布
- 多答案场景(N>1):置信度可以看作是多变量伯努利分布的参数——每个答案有独立的正确概率
---
🧪 第四章:实验结果——数字背后的洞见
📚 三个截然不同的任务
为了全面验证方法,研究团队选择了三个性质迥异的基准测试:
#### 1️⃣ DDXPlus:医疗诊断的复杂性
数据来源:Tchango et al. (2022)
这是一个大规模医疗诊断数据集,包含患者人口统计信息、症状描述和病史。每个病例对应一个鉴别诊断(differential diagnosis)——一组可能的疾病。
关键特点:
- N ≥ 1(可能有多个同时正确的诊断)
- 需要医疗专业知识
- 症状和疾病之间存在复杂的多对多关系
训练规模:25,000个样本 输出设置:K = 3个诊断
#### 2️⃣ HotPotQA-Modified:信息不完整的迷雾
数据来源:Yang et al. (2018) 的修改版本
这是一个多跳问答数据集。研究者故意移除了部分相关信息段落,制造信息不完整的场景。
关键特点:
- N = 1(只有一个标准答案)
- 但由于信息缺失,存在显著不确定性
- 需要模型推理出多种可能的答案
#### 3️⃣ MBPP:代码的多样性
数据来源:Austin et al. (2021)
这是一个编程任务基准。每个任务有自然语言描述和单元测试,验证代码正确性。
关键特点:
- 任务明确,无歧义
- 但可以有多种正确实现(不同算法、不同代码风格)
- 使用AST(抽象语法树)判断答案是否真正不同
🏆 主要结果:全面碾压
#### 正确性与覆盖率
| 数据集 | 方法 | 覆盖率↑ | Pass@1↑ | 多样性↑ | Token效率↓ |
|---|---|---|---|---|---|
| DDXPlus | RLVR Single | 0.76 | - | 1.05 | 1467 |
| RLVR Multi (本文) | 1.03 | 0.35 | 2.19 | 622 | |
| HotPotQA | RLVR Single | 0.21 | 0.19 | 1.00 | 544 |
| RLVR Multi (本文) | 0.27 | 0.27 | 2.09 | 511 | |
| MBPP | RLVR Single | 0.98 | 0.29 | 2.09 | 512 |
| RLVR Multi (本文) | 1.35 | 0.49 | 2.98 | 235 |
关键发现:
1. 覆盖率大幅提升:在DDXPlus上,Multi-Answer RL平均每个问题能猜对1.03个正确答案(满分可能是2-3个),而单答案基线只有0.76。
2. Token效率惊人:在MBPP代码任务上,Multi-Answer RL生成3个答案只需要235个token,而单答案方法采样3次需要512个token——节省了54%的计算成本!
3. 准确率提升:即使只看第一个答案(Pass@1),Multi-Answer RL在MBPP上也达到了49%,相比单答案方法的29%提升了69%!
#### 深度分析:多样性的真实含义
论文图2展示了一个更深刻的洞察:
研究人员从两种模型中各生成了30个答案:
- RLVR-Single:独立采样30次
- RLVR-Multi:采样10组,每组3个答案
这说明:单答案模型的"模式坍缩"不仅影响了输出多样性,还限制了它触及正确答案空间的能力。它反复生成同一个"最可能"答案,即使那个答案是错的,它也无法跳出这个模式去探索其他可能。
相比之下,Multi-Answer RL训练模型在单次生成中就探索多个推理路径,因此更有可能命中正确答案。
#### 校准性:模型终于"自知之明"
| 数据集 | 方法 | Top-1 Brier↓ | Top-1 ECE↓ | Set ECE↓ |
|---|---|---|---|---|
| DDXPlus | RLVR Multi | 0.42 | 0.23 | 0.24 |
| RLCR Multi (本文) | 0.27 | 0.15 | 0.19 | |
| MBPP | RLVR Multi | 0.42 | 0.20 | 0.29 |
| RLCR Multi (本文) | 0.26 | 0.13 | 0.24 | |
| HotPotQA | RLVR Multi | 0.35 | 0.16 | 0.22 |
| RLCR Multi (本文) | 0.26 | 0.19 | 0.16 |
Brier分数和期望校准误差(ECE)衡量模型置信度的准确性。理想情况下,如果模型说"我有70%信心",那么应该有70%的这类预测确实是正确的。
结果表明,RLCR Multi在所有三个数据集上都显著改善了校准性。这意味着模型不仅更准确,而且更知道自己什么时候可能是错的——这在高风险的医疗或法律应用中至关重要。
#### 一个有趣的发现
在HotPotQA上,RLCR Multi在top-1答案的ECE上略逊于RLCR Single。研究者认为这可能是因为模型学到了一个先验假设:置信度应该加起来等于1。
在极度困难的单标签任务中,这个假设可能稍微影响了单个答案的校准,但集合级别的校准仍然改善了。
---
🌅 第五章:超越技术——方法论的意义
💡 为什么这很重要?
Multi-Answer RL的价值不仅仅是几个百分点的性能提升。它代表了AI发展的一个重要方向:
#### 1. 从"单一真理"到"概率思维"
传统AI评估框架(比如大多数NLP基准)假设每个问题都有唯一正确答案。但现实世界是混乱的、模糊的、充满不确定性的。
Multi-Answer RL为AI系统引入了概率世界观——承认不确定性,拥抱多样性,量化置信度。
#### 2. 计算效率的革命
传统的Best-of-K方法需要K次前向传播,计算成本线性增长。
Multi-Answer RL通过单次前向传播生成多个答案,将计算复杂度从O(K)降低到O(1)。在MBPP上,这不仅没有牺牲性能,反而提升了准确率和多样性。
这对于资源受限的部署场景意义重大。
#### 3. 可解释性的提升
当一个AI系统说"诊断是肺炎,置信度90%"时,你无法判断它是真的很有把握,还是只是被训练成总是很有把握的样子。
但当它说:
- "肺结核,50%"
- "肺炎,30%"
- "支气管炎,20%"
#### 4. 决策支持系统的范式转移
在医疗诊断、法律分析、科学研究等高风险领域,AI不应该试图"替代"人类决策,而应该支持人类决策。
Multi-Answer RL提供的是一种决策支持界面:列出所有合理选项及其相对可能性,让人类专家做最终判断。
这比"黑箱给出单一答案"的模式更符合人类认知,也更容易被专业人士接受。
🔮 未来方向
论文结尾提出了一些令人兴奋的未来研究方向:
1. 动态K值:当前方法固定输出K个答案。未来的模型可以根据问题复杂度自适应地决定输出多少答案。
2. 层次化答案集合:对于复杂问题,答案之间可能有层次关系(比如"呼吸系统疾病"是"肺炎"的上位概念)。
3. 与外部工具结合:模型生成多个假设后,可以主动选择用搜索引擎、数据库或计算工具来验证每个假设。
4. 多模态扩展:将这种框架应用到图像、音频等多模态任务中。
---
🎭 尾声:费曼式的思考
理查德·费曼曾经说过:
> *"第一原则是你不能欺骗自己,而你自己是最容易被欺骗的人。"*
这句话用在AI上格外贴切。
我们训练AI系统优化单一目标(比如"最大化正确答案的概率"),然后惊讶于它们变得"单一"——变得只会说一种话,只想一种可能,只认一个答案。
这不是AI的错,而是我们训练目标的错。
MIT团队的这项工作提醒我们:如果我们希望AI能像人类专家那样思考,我们就必须给它们像人类专家那样的训练目标。
人类专家不会只学一种解法。他们学习在面对不确定性时保持开放,在信息不完整时列出多种假设,在做出判断时量化自己的信心。
Multi-Answer RL把这种智慧编码进了AI的训练过程。它不是让AI变得"更确定",而是让AI学会恰当地不确定——知道什么时候该坚持,什么时候该探索;什么时候该斩钉截铁,什么时候该列出可能性。
在一个人工智能越来越深入我们生活的时代,这种能力可能比单纯的"准确率"更加重要。
毕竟,现实世界不是多项选择题。它是一个开放的、模糊的、充满可能性的谜题。
而学会拥抱这种可能性,也许是智能的本质。
---
📚 参考文献
1. Puri, I., Damani, M., Shenfeld, I., Ghassemi, M., Andreas, J., & Kim, Y. (2026). Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models. *arXiv preprint arXiv:2603.24844*.
2. Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. *arXiv preprint arXiv:2501.12948*.
3. Damani, M., Puri, I., Slocum, S., Shenfeld, I., Choshen, L., Kim, Y., & Andreas, J. (2025). Beyond binary rewards: Training lms to reason about their uncertainty. *arXiv preprint arXiv:2507.16806*.
4. Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. *Journal of the American Statistical Association*, 102(477), 359-378.
5. Tchango, A. G., et al. (2022). DDXPlus: A medical diagnostic dataset. *Medical AI Research*.
6. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A dataset for diverse, explainable multi-hop question answering. *EMNLP 2018*.
7. Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., ... & Sutton, C. (2021). Program synthesis with large language models. *arXiv preprint arXiv:2108.07732*.
8. Wu, F., & Choi, Y. (2025). The invisible leash: Why rlvr may not escape its origin. *AI for Math Workshop @ ICML 2025*.
9. Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model? *arXiv preprint arXiv:2504.13837*.
10. Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). Can LLMs express their uncertainty? an empirical evaluation of confidence elicitation in LLMs. *ICLR 2024*.
---
*本文以费曼风格撰写,力求在保持科学严谨性的同时让复杂概念易于理解。所有实验数据和图表描述均基于原始论文。*
*写作日期:2026年3月28日*