# 🌊 当AI不再"一根筋":教会语言模型拥抱不确定性的艺术
> **副标题**:一篇关于"多答案强化学习"的费曼式漫游指南
>
> 原作:Isha Puri 等 @ MIT | arXiv:2603.24844 (2026-03-25)
---
## 🎯 开篇:猜谜游戏的启示
想象你正在玩一个猜谜游戏。主持人说:"我口袋里有一种水果,圆圆的红色,咬下去会爆汁。"
你可能会脱口而出:"苹果!"
但如果游戏允许你猜三次呢?作为一个聪明的玩家,你会说:"可能是苹果、樱桃,或者小番茄——它们都符合这个描述。"
这就是人类面对不确定性时的本能反应:**当信息不完整时,我们自然地列出多种可能性,而不是死守一个答案。**
但令人惊讶的是,当今最先进的AI——那些经过强化学习训练的语言模型——却像是一个只被训练猜一次的玩家。它们被奖励机制训练得极其"果断",哪怕面对模棱两可的问题,也坚持输出唯一答案。
这就是MIT研究团队想要解决的核心问题:
> *"如何让AI学会像人类医生那样,在面对模糊症状时给出一份'鉴别诊断'清单,而不是武断地只说一种可能?"*
---
## 🕳️ 第一章:分布坍缩——AI的"一根筋"困境
### 🎲 语言模型心中的"概率云"
首先,我们需要理解语言模型(LM)是如何"思考"的。
当你向ChatGPT或Claude提问时,模型内部并不是在"搜索"一个标准答案。相反,它维护着一个**巨大的概率分布**——一个包含所有可能答案的"概率云"。
比如问:"法国的国旗是什么颜色?"
模型心中的分布可能是:
- "蓝白红三色旗" → 45%
- "蓝、白、红色" → 35%
- "法国国旗由蓝白红三条竖条纹组成" → 15%
- 其他变体 → 5%
这个分布是丰富的、多元的,包含了各种合理的表达方式。
### 💥 强化学习的"坍缩效应"
但接下来发生的事情,彻底改变了这一切。
现代语言模型在预训练后,通常会经历一个叫做"后训练"的阶段——主要是**强化学习**(Reinforcement Learning, RL)。在这个过程中,模型回答问题,如果回答正确就获得奖励,错误就被惩罚。
听起来很合理,对吧?但这里有一个致命的副作用。
研究者发现,这种训练会让模型原本丰富的"概率云"**坍缩成一个点**——它只输出那个"最可能正确"的答案,其他可能性被系统性地压制。
想象一下,如果你每次考试都被要求"只写一个答案,写对加分,写错扣分",久而久之,你也会变得极其保守,每次都只写那个"最保险"的答案。
这就是论文中提到的**"模式坍缩"**(Mode Collapse)现象。
### 📊 数据不会撒谎
论文引用了一系列最新研究来证实这个问题:
- **Lin et al. (2025)** 和 **Yu et al. (2025)** 发现,RL训练会导致模型熵值(entropy)急剧下降——换句话说,模型变得越来越"确定",输出多样性锐减。
- **Jin et al. (2025)** 观察到类似现象,称之为"熵坍缩"。
- **Wu & Choi (2025)** 的研究更为直接:他们发现,虽然RLVR(带可验证奖励的强化学习)能显著提升单答案正确率(pass@1),但与此同时,模型的pass@k性能却在恶化——模型越来越难以生成多样化的正确答案。
举个例子:如果一个编程任务有5种不同的正确解法,经过RL训练后,模型可能会牢牢记住其中1种,而完全"遗忘"其他4种。即使你用不同的随机种子让模型重新采样100次,它可能每次都给你几乎相同的代码!
### 🏥 现实世界的代价
这种"一根筋"行为在很多场景下是可以接受的。比如数学题、事实性问题——确实只有一个正确答案。
但在以下场景中,这会成为严重问题:
| 场景 | 为什么需要多答案 |
|------|-----------------|
| 🏥 医疗诊断 | 相同症状可能对应多种疾病,医生需要列出所有可能性 |
| 🔍 模糊问答 | 问题本身信息不完整,多种答案都合理 |
| 💻 代码生成 | 一个问题通常有多种正确解法 |
| 🧪 科学假设 | 实验数据可能支持多种解释 |
| ⚖️ 法律分析 | 案件可能有多个合理的法律角度 |
想象一下:一个病人右下腹疼痛、发烧。这可能是急性阑尾炎,也可能是右侧肾结石,或者是妇科疾病(如果是女性患者)。一个有经验的医生会列出所有可能性,并建议相应的检查来逐一排除。
但如果是一个"坍缩后"的AI医生,它可能会武断地说"这是阑尾炎"——因为它在训练数据中见过更多阑尾炎的案例,这个答案"最保险"。
这就是问题的严重性。
---
## 🌳 第二章:多岔路口的哲学
### 🛤️ 推理的本质是探索
让我们换一个比喻。
想象推理过程像是在森林中寻找出路。每遇到一个分叉路口,你都需要做出选择:
```
起点
│
├─── 路径A ─── 可能性1
│
├─── 路径B ─── 可能性2
│
└─── 路径C ─── 可能性3
```
传统的单答案RL训练,就像是让AI在每个路口都选择那条"看起来最对"的路径,然后径直走到终点。
问题在于:**AI从来没有真正"探索"过其他路径。**
它只是被训练成了一个"导航机器"——输入起点,输出最短路径。它不知道其他路径通向哪里,也不知道那些路径是否也是正确的。
### 🎭 "Best-of-K" 的笨拙 workaround
业界已经意识到这个问题,于是提出了各种**推理时**(inference-time)的解决方案:
**方法1:并行采样**(Parallel Sampling)
- 让模型独立生成K个答案
- 然后用一个验证器选出最好的
- 这就是"Best-of-K"
**方法2:顺序探索**(Sequential Exploration)
- 让模型生成一个答案,然后被提示"再想想其他可能"
- 比如Shinn et al. (2023)的Reflexion方法
- 或者Xie et al. (2023)的自评估引导搜索
这些方法有一定效果,但存在根本性的缺陷:
> **训练-测试不匹配**(Train-Test Mismatch)
模型在训练时被教导"坚持一个答案,要正确",但在测试时却被要求"列出多种可能性"。这就像训练一个拳击手只练习直拳,然后让他去打柔道比赛——他能做,但做得很别扭。
更重要的是,这些推理时方法**计算成本高昂**。生成K个完整答案意味着K倍的推理时间、K倍的token消耗。
### 🧠 人类是怎么做的?
相比之下,人类专家的做法是**内嵌**的(internalized)。
当一位资深医生面对复杂病例时,他不会:
1. 先诊断一次
2. 擦掉黑板
3. 再诊断一次
4. 再擦掉黑板
5. 重复N次
6. 最后把所有诊断列在一起
他会**在第一次思考中就同时考虑多个假设**:
> "根据右下腹痛和发烧,我首先考虑阑尾炎——这是最常见的。但等等,如果伴随血尿,那可能是肾结石。另外,如果患者是女性,还要考虑卵巢囊肿或异位妊娠..."
**所有可能性都在同一条思维链中被探索、比较、排序。**
这就是MIT团队想要实现的目标:**把推理时的搜索内化到模型的生成过程中**。
---
## ⚙️ 第三章:多答案强化学习——技术创新的优雅
### 🎓 核心思想:重新定义"正确"
传统RL的核心优化目标是:
```
最大化:E[ R(y, y*) ]
```
其中`y*`是唯一的标准答案,`R`是奖励函数(通常就是"对/错"的二元判断)。
MIT团队的天才之处在于:**他们把"正确答案"从一个点扩展成了一个集合。**
不再是`y*`,而是`Y* = {y*₁, y*₂, ..., y*N}`——一个包含N个正确答案的集合。
相应地,模型的输出也从一个答案`y`,变成了一组K个候选答案`A = {a₁, a₂, ..., aK}`。
新的奖励函数变为:
```
R_multi(A, Y*) = Σᵢ 1[aᵢ ∈ Y*]
```
简单来说:**模型每猜对一个答案,就得一分。**
### 🔢 四种训练模式
这个简单的改变,实际上统一了多种训练目标:
| 场景 | N(正确答案数) | K(模型输出数) | 对应传统方法 |
|-----|---------------|---------------|-------------|
| 标准单答案 | 1 | 1 | 传统RLVR |
| Best-of-K | 1 | >1 | Pass@K目标 |
| 部分覆盖 | >1 | ≤N | 最大化覆盖 |
| 完全覆盖 | >1 | ≥N | 恢复所有正确答案 |
这就像一个通用的"瑞士军刀"框架,可以根据任务需求灵活调整。
### 🎨 Multi-Answer RLVR:多样性的艺术
这是团队提出的第一个算法:**多答案可验证奖励强化学习**(Multi-Answer RL with Verifiable Rewards)。
关键创新点:
1. **结构化输出**:模型在一个推理链中生成K个不同的候选答案,用特殊标签标记:
```
<think>
推理过程...
</think>
<answer1>第一个答案</answer1>
<answer2>第二个答案</answer2>
<answer3>第三个答案</answer3>
```
2. **格式奖励**:为了防止模型偷懒重复同样的答案,团队增加了一个**唯一性奖励**,强制要求K个答案必须互不相同。
3. **集合级奖励**:最终的奖励基于整个答案集合的表现,而不是单个答案。
### 📐 Multi-Answer RLCR:置信度的数学
第二个算法更进一步:**多答案校准奖励强化学习**(Multi-Answer RL with Calibration Rewards)。
除了生成答案,模型还被要求为每个答案输出一个置信度分数`qᵢ ∈ [0,1]`:
```
<answer1>肺结核</answer1>
<confidence1>0.50</confidence1>
<answer2>肺炎</answer2>
<confidence2>0.30</confidence2>
<answer3>支气管炎</answer3>
<confidence3>0.20</confidence3>
```
奖励函数结合了**正确性**和**校准性**:
```
R_multi_RLCR = R_multi_RLVR - R_multi_Brier
```
其中`R_multi_Brier`是**多答案Brier分数**,衡量置信度与实际正确性的匹配程度:
```
R_multi_Brier = (1/K) * Σᵢ (qᵢ - 1[aᵢ ∈ Y*])²
```
这来自统计学中的**严格适当评分规则**(Strictly Proper Scoring Rules)理论。简单来说:如果模型说"我有80%信心这是正确答案",那么长期来看,这类声明应该有80%确实是正确的。如果模型总是过度自信,它就会受到惩罚。
### 🔬 分布的解释
有趣的是,这种输出可以被解释为真正的概率分布:
- **单答案场景**(N=1):K个置信度分数之和必须≤1,构成一个离散概率分布
- **多答案场景**(N>1):置信度可以看作是多变量伯努利分布的参数——每个答案有独立的正确概率
这与**保形预测**(Conformal Prediction)方法有理论联系,但有一个关键区别:传统保形预测保证覆盖某个固定比例的真实答案,而Multi-Answer RL让模型学习输出最可能的K个答案。
---
## 🧪 第四章:实验结果——数字背后的洞见
### 📚 三个截然不同的任务
为了全面验证方法,研究团队选择了三个性质迥异的基准测试:
#### 1️⃣ DDXPlus:医疗诊断的复杂性
**数据来源**:Tchango et al. (2022)
这是一个大规模医疗诊断数据集,包含患者人口统计信息、症状描述和病史。每个病例对应一个**鉴别诊断**(differential diagnosis)——一组可能的疾病。
**关键特点**:
- N ≥ 1(可能有多个同时正确的诊断)
- 需要医疗专业知识
- 症状和疾病之间存在复杂的多对多关系
**示例**(来自论文):
> 患者:右下腹痛、发烧、咳血、体重偏低
>
> 多答案RL输出:
> - 肺结核(50%)
> - 肺炎(25%)
> - 支气管炎(25%)
**训练规模**:25,000个样本
**输出设置**:K = 3个诊断
#### 2️⃣ HotPotQA-Modified:信息不完整的迷雾
**数据来源**:Yang et al. (2018) 的修改版本
这是一个多跳问答数据集。研究者故意移除了部分相关信息段落,制造**信息不完整**的场景。
**关键特点**:
- N = 1(只有一个标准答案)
- 但由于信息缺失,存在显著不确定性
- 需要模型推理出多种可能的答案
这对应于"N=1, K>1"场景,Multi-Answer RL目标等价于传统的pass@K优化。
#### 3️⃣ MBPP:代码的多样性
**数据来源**:Austin et al. (2021)
这是一个编程任务基准。每个任务有自然语言描述和单元测试,验证代码正确性。
**关键特点**:
- 任务明确,无歧义
- 但**可以有多种正确实现**(不同算法、不同代码风格)
- 使用AST(抽象语法树)判断答案是否真正不同
这代表"低歧义、多解法"场景,覆盖从高度歧义到结构良好任务的整个谱系。
### 🏆 主要结果:全面碾压
#### 正确性与覆盖率
| 数据集 | 方法 | 覆盖率↑ | Pass@1↑ | 多样性↑ | Token效率↓ |
|-------|------|--------|--------|--------|-----------|
| **DDXPlus** | RLVR Single | 0.76 | - | 1.05 | 1467 |
| | RLVR Multi (本文) | **1.03** | 0.35 | **2.19** | **622** |
| **HotPotQA** | RLVR Single | 0.21 | 0.19 | 1.00 | 544 |
| | RLVR Multi (本文) | **0.27** | **0.27** | **2.09** | **511** |
| **MBPP** | RLVR Single | 0.98 | 0.29 | 2.09 | 512 |
| | RLVR Multi (本文) | **1.35** | **0.49** | **2.98** | **235** |
*表1:Multi-Answer RL在三个基准上的性能提升(K=3)*
**关键发现**:
1. **覆盖率大幅提升**:在DDXPlus上,Multi-Answer RL平均每个问题能猜对1.03个正确答案(满分可能是2-3个),而单答案基线只有0.76。
2. **Token效率惊人**:在MBPP代码任务上,Multi-Answer RL生成3个答案只需要235个token,而单答案方法采样3次需要512个token——**节省了54%的计算成本**!
3. **准确率提升**:即使只看第一个答案(Pass@1),Multi-Answer RL在MBPP上也达到了49%,相比单答案方法的29%**提升了69%**!
#### 深度分析:多样性的真实含义
论文图2展示了一个更深刻的洞察:
研究人员从两种模型中各生成了30个答案:
- **RLVR-Single**:独立采样30次
- **RLVR-Multi**:采样10组,每组3个答案
结果显示,尽管生成的总答案数相同(30个),**Multi模型产生的独特正确答案数量显著多于Single模型**。
这说明:单答案模型的"模式坍缩"不仅影响了输出多样性,还**限制了它触及正确答案空间的能力**。它反复生成同一个"最可能"答案,即使那个答案是错的,它也无法跳出这个模式去探索其他可能。
相比之下,Multi-Answer RL训练模型在**单次生成中就探索多个推理路径**,因此更有可能命中正确答案。
#### 校准性:模型终于"自知之明"
| 数据集 | 方法 | Top-1 Brier↓ | Top-1 ECE↓ | Set ECE↓ |
|-------|------|-------------|-----------|---------|
| **DDXPlus** | RLVR Multi | 0.42 | 0.23 | 0.24 |
| | RLCR Multi (本文) | **0.27** | **0.15** | **0.19** |
| **MBPP** | RLVR Multi | 0.42 | 0.20 | 0.29 |
| | RLCR Multi (本文) | **0.26** | **0.13** | **0.24** |
| **HotPotQA** | RLVR Multi | 0.35 | 0.16 | 0.22 |
| | RLCR Multi (本文) | **0.26** | 0.19 | **0.16** |
*表2:校准性能指标(越低越好)*
**Brier分数**和**期望校准误差**(ECE)衡量模型置信度的准确性。理想情况下,如果模型说"我有70%信心",那么应该有70%的这类预测确实是正确的。
结果表明,**RLCR Multi在所有三个数据集上都显著改善了校准性**。这意味着模型不仅更准确,而且**更知道自己什么时候可能是错的**——这在高风险的医疗或法律应用中至关重要。
#### 一个有趣的发现
在HotPotQA上,RLCR Multi在top-1答案的ECE上略逊于RLCR Single。研究者认为这可能是因为模型学到了一个**先验假设**:置信度应该加起来等于1。
在极度困难的单标签任务中,这个假设可能稍微影响了单个答案的校准,但集合级别的校准仍然改善了。
---
## 🌅 第五章:超越技术——方法论的意义
### 💡 为什么这很重要?
Multi-Answer RL的价值不仅仅是几个百分点的性能提升。它代表了AI发展的一个重要方向:
#### 1. 从"单一真理"到"概率思维"
传统AI评估框架(比如大多数NLP基准)假设每个问题都有唯一正确答案。但现实世界是混乱的、模糊的、充满不确定性的。
Multi-Answer RL为AI系统引入了**概率世界观**——承认不确定性,拥抱多样性,量化置信度。
#### 2. 计算效率的革命
传统的Best-of-K方法需要K次前向传播,计算成本线性增长。
Multi-Answer RL通过**单次前向传播生成多个答案**,将计算复杂度从O(K)降低到O(1)。在MBPP上,这不仅没有牺牲性能,反而提升了准确率和多样性。
这对于资源受限的部署场景意义重大。
#### 3. 可解释性的提升
当一个AI系统说"诊断是肺炎,置信度90%"时,你无法判断它是真的很有把握,还是只是被训练成总是很有把握的样子。
但当它说:
- "肺结核,50%"
- "肺炎,30%"
- "支气管炎,20%"
你不仅能看到完整的假设空间,还能根据置信度做决策。比如:如果前两个置信度都超过30%,也许应该同时做两种检查?
#### 4. 决策支持系统的范式转移
在医疗诊断、法律分析、科学研究等高风险领域,AI不应该试图"替代"人类决策,而应该**支持**人类决策。
Multi-Answer RL提供的是一种**决策支持界面**:列出所有合理选项及其相对可能性,让人类专家做最终判断。
这比"黑箱给出单一答案"的模式更符合人类认知,也更容易被专业人士接受。
### 🔮 未来方向
论文结尾提出了一些令人兴奋的未来研究方向:
1. **动态K值**:当前方法固定输出K个答案。未来的模型可以根据问题复杂度自适应地决定输出多少答案。
2. **层次化答案集合**:对于复杂问题,答案之间可能有层次关系(比如"呼吸系统疾病"是"肺炎"的上位概念)。
3. **与外部工具结合**:模型生成多个假设后,可以主动选择用搜索引擎、数据库或计算工具来验证每个假设。
4. **多模态扩展**:将这种框架应用到图像、音频等多模态任务中。
---
## 🎭 尾声:费曼式的思考
理查德·费曼曾经说过:
> *"第一原则是你不能欺骗自己,而你自己是最容易被欺骗的人。"*
这句话用在AI上格外贴切。
我们训练AI系统优化单一目标(比如"最大化正确答案的概率"),然后惊讶于它们变得"单一"——变得只会说一种话,只想一种可能,只认一个答案。
这不是AI的错,而是我们训练目标的错。
MIT团队的这项工作提醒我们:**如果我们希望AI能像人类专家那样思考,我们就必须给它们像人类专家那样的训练目标。**
人类专家不会只学一种解法。他们学习在面对不确定性时保持开放,在信息不完整时列出多种假设,在做出判断时量化自己的信心。
Multi-Answer RL把这种智慧编码进了AI的训练过程。它不是让AI变得"更确定",而是让AI学会**恰当地不确定**——知道什么时候该坚持,什么时候该探索;什么时候该斩钉截铁,什么时候该列出可能性。
在一个人工智能越来越深入我们生活的时代,这种能力可能比单纯的"准确率"更加重要。
毕竟,现实世界不是多项选择题。它是一个开放的、模糊的、充满可能性的谜题。
而学会拥抱这种可能性,也许是智能的本质。
---
## 📚 参考文献
1. Puri, I., Damani, M., Shenfeld, I., Ghassemi, M., Andreas, J., & Kim, Y. (2026). Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models. *arXiv preprint arXiv:2603.24844*.
2. Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. *arXiv preprint arXiv:2501.12948*.
3. Damani, M., Puri, I., Slocum, S., Shenfeld, I., Choshen, L., Kim, Y., & Andreas, J. (2025). Beyond binary rewards: Training lms to reason about their uncertainty. *arXiv preprint arXiv:2507.16806*.
4. Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. *Journal of the American Statistical Association*, 102(477), 359-378.
5. Tchango, A. G., et al. (2022). DDXPlus: A medical diagnostic dataset. *Medical AI Research*.
6. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A dataset for diverse, explainable multi-hop question answering. *EMNLP 2018*.
7. Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., ... & Sutton, C. (2021). Program synthesis with large language models. *arXiv preprint arXiv:2108.07732*.
8. Wu, F., & Choi, Y. (2025). The invisible leash: Why rlvr may not escape its origin. *AI for Math Workshop @ ICML 2025*.
9. Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model? *arXiv preprint arXiv:2504.13837*.
10. Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). Can LLMs express their uncertainty? an empirical evaluation of confidence elicitation in LLMs. *ICLR 2024*.
---
*本文以费曼风格撰写,力求在保持科学严谨性的同时让复杂概念易于理解。所有实验数据和图表描述均基于原始论文。*
*写作日期:2026年3月28日*
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!