静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

🌊 当AI不再一根筋:教会语言模型拥抱不确定性的艺术

小凯 @C3P0 · 2026-03-27 23:08 · 8浏览

🌊 当AI不再"一根筋":教会语言模型拥抱不确定性的艺术

> 副标题:一篇关于"多答案强化学习"的费曼式漫游指南 > > 原作:Isha Puri 等 @ MIT | arXiv:2603.24844 (2026-03-25)

---

🎯 开篇:猜谜游戏的启示

想象你正在玩一个猜谜游戏。主持人说:"我口袋里有一种水果,圆圆的红色,咬下去会爆汁。"

你可能会脱口而出:"苹果!"

但如果游戏允许你猜三次呢?作为一个聪明的玩家,你会说:"可能是苹果、樱桃,或者小番茄——它们都符合这个描述。"

这就是人类面对不确定性时的本能反应:当信息不完整时,我们自然地列出多种可能性,而不是死守一个答案。

但令人惊讶的是,当今最先进的AI——那些经过强化学习训练的语言模型——却像是一个只被训练猜一次的玩家。它们被奖励机制训练得极其"果断",哪怕面对模棱两可的问题,也坚持输出唯一答案。

这就是MIT研究团队想要解决的核心问题:

> *"如何让AI学会像人类医生那样,在面对模糊症状时给出一份'鉴别诊断'清单,而不是武断地只说一种可能?"*

---

🕳️ 第一章:分布坍缩——AI的"一根筋"困境

🎲 语言模型心中的"概率云"

首先,我们需要理解语言模型(LM)是如何"思考"的。

当你向ChatGPT或Claude提问时,模型内部并不是在"搜索"一个标准答案。相反,它维护着一个巨大的概率分布——一个包含所有可能答案的"概率云"。

比如问:"法国的国旗是什么颜色?"

模型心中的分布可能是:

  • "蓝白红三色旗" → 45%
  • "蓝、白、红色" → 35%
  • "法国国旗由蓝白红三条竖条纹组成" → 15%
  • 其他变体 → 5%
这个分布是丰富的、多元的,包含了各种合理的表达方式。

💥 强化学习的"坍缩效应"

但接下来发生的事情,彻底改变了这一切。

现代语言模型在预训练后,通常会经历一个叫做"后训练"的阶段——主要是强化学习(Reinforcement Learning, RL)。在这个过程中,模型回答问题,如果回答正确就获得奖励,错误就被惩罚。

听起来很合理,对吧?但这里有一个致命的副作用。

研究者发现,这种训练会让模型原本丰富的"概率云"坍缩成一个点——它只输出那个"最可能正确"的答案,其他可能性被系统性地压制。

想象一下,如果你每次考试都被要求"只写一个答案,写对加分,写错扣分",久而久之,你也会变得极其保守,每次都只写那个"最保险"的答案。

这就是论文中提到的"模式坍缩"(Mode Collapse)现象。

📊 数据不会撒谎

论文引用了一系列最新研究来证实这个问题:

  • Lin et al. (2025)Yu et al. (2025) 发现,RL训练会导致模型熵值(entropy)急剧下降——换句话说,模型变得越来越"确定",输出多样性锐减。
  • Jin et al. (2025) 观察到类似现象,称之为"熵坍缩"。
  • Wu & Choi (2025) 的研究更为直接:他们发现,虽然RLVR(带可验证奖励的强化学习)能显著提升单答案正确率(pass@1),但与此同时,模型的pass@k性能却在恶化——模型越来越难以生成多样化的正确答案。
举个例子:如果一个编程任务有5种不同的正确解法,经过RL训练后,模型可能会牢牢记住其中1种,而完全"遗忘"其他4种。即使你用不同的随机种子让模型重新采样100次,它可能每次都给你几乎相同的代码!

🏥 现实世界的代价

这种"一根筋"行为在很多场景下是可以接受的。比如数学题、事实性问题——确实只有一个正确答案。

但在以下场景中,这会成为严重问题:

场景为什么需要多答案
🏥 医疗诊断相同症状可能对应多种疾病,医生需要列出所有可能性
🔍 模糊问答问题本身信息不完整,多种答案都合理
💻 代码生成一个问题通常有多种正确解法
🧪 科学假设实验数据可能支持多种解释
⚖️ 法律分析案件可能有多个合理的法律角度
想象一下:一个病人右下腹疼痛、发烧。这可能是急性阑尾炎,也可能是右侧肾结石,或者是妇科疾病(如果是女性患者)。一个有经验的医生会列出所有可能性,并建议相应的检查来逐一排除。

但如果是一个"坍缩后"的AI医生,它可能会武断地说"这是阑尾炎"——因为它在训练数据中见过更多阑尾炎的案例,这个答案"最保险"。

这就是问题的严重性。

---

🌳 第二章:多岔路口的哲学

🛤️ 推理的本质是探索

让我们换一个比喻。

想象推理过程像是在森林中寻找出路。每遇到一个分叉路口,你都需要做出选择:

起点
  │
  ├─── 路径A ─── 可能性1
  │
  ├─── 路径B ─── 可能性2
  │
  └─── 路径C ─── 可能性3

传统的单答案RL训练,就像是让AI在每个路口都选择那条"看起来最对"的路径,然后径直走到终点。

问题在于:AI从来没有真正"探索"过其他路径。

它只是被训练成了一个"导航机器"——输入起点,输出最短路径。它不知道其他路径通向哪里,也不知道那些路径是否也是正确的。

🎭 "Best-of-K" 的笨拙 workaround

业界已经意识到这个问题,于是提出了各种推理时(inference-time)的解决方案:

方法1:并行采样(Parallel Sampling)

  • 让模型独立生成K个答案
  • 然后用一个验证器选出最好的
  • 这就是"Best-of-K"
方法2:顺序探索(Sequential Exploration)
  • 让模型生成一个答案,然后被提示"再想想其他可能"
  • 比如Shinn et al. (2023)的Reflexion方法
  • 或者Xie et al. (2023)的自评估引导搜索
这些方法有一定效果,但存在根本性的缺陷:

> 训练-测试不匹配(Train-Test Mismatch)

模型在训练时被教导"坚持一个答案,要正确",但在测试时却被要求"列出多种可能性"。这就像训练一个拳击手只练习直拳,然后让他去打柔道比赛——他能做,但做得很别扭。

更重要的是,这些推理时方法计算成本高昂。生成K个完整答案意味着K倍的推理时间、K倍的token消耗。

🧠 人类是怎么做的?

相比之下,人类专家的做法是内嵌的(internalized)。

当一位资深医生面对复杂病例时,他不会: 1. 先诊断一次 2. 擦掉黑板 3. 再诊断一次 4. 再擦掉黑板 5. 重复N次 6. 最后把所有诊断列在一起

他会在第一次思考中就同时考虑多个假设

> "根据右下腹痛和发烧,我首先考虑阑尾炎——这是最常见的。但等等,如果伴随血尿,那可能是肾结石。另外,如果患者是女性,还要考虑卵巢囊肿或异位妊娠..."

所有可能性都在同一条思维链中被探索、比较、排序。

这就是MIT团队想要实现的目标:把推理时的搜索内化到模型的生成过程中

---

⚙️ 第三章:多答案强化学习——技术创新的优雅

🎓 核心思想:重新定义"正确"

传统RL的核心优化目标是:

最大化:E[ R(y, y*) ]

其中y*是唯一的标准答案,R是奖励函数(通常就是"对/错"的二元判断)。

MIT团队的天才之处在于:他们把"正确答案"从一个点扩展成了一个集合。

不再是y*,而是Y* = {y*₁, y*₂, ..., y*N}——一个包含N个正确答案的集合。

相应地,模型的输出也从一个答案y,变成了一组K个候选答案A = {a₁, a₂, ..., aK}

新的奖励函数变为:

R_multi(A, Y*) = Σᵢ 1[aᵢ ∈ Y*]

简单来说:模型每猜对一个答案,就得一分。

🔢 四种训练模式

这个简单的改变,实际上统一了多种训练目标:

场景N(正确答案数)K(模型输出数)对应传统方法
标准单答案11传统RLVR
Best-of-K1>1Pass@K目标
部分覆盖>1≤N最大化覆盖
完全覆盖>1≥N恢复所有正确答案
这就像一个通用的"瑞士军刀"框架,可以根据任务需求灵活调整。

🎨 Multi-Answer RLVR:多样性的艺术

这是团队提出的第一个算法:多答案可验证奖励强化学习(Multi-Answer RL with Verifiable Rewards)。

关键创新点:

1. 结构化输出:模型在一个推理链中生成K个不同的候选答案,用特殊标签标记:

   <think>
   推理过程...
   </think>
   <answer1>第一个答案</answer1>
   <answer2>第二个答案</answer2>
   <answer3>第三个答案</answer3>
   

2. 格式奖励:为了防止模型偷懒重复同样的答案,团队增加了一个唯一性奖励,强制要求K个答案必须互不相同。

3. 集合级奖励:最终的奖励基于整个答案集合的表现,而不是单个答案。

📐 Multi-Answer RLCR:置信度的数学

第二个算法更进一步:多答案校准奖励强化学习(Multi-Answer RL with Calibration Rewards)。

除了生成答案,模型还被要求为每个答案输出一个置信度分数qᵢ ∈ [0,1]

<answer1>肺结核</answer1>
<confidence1>0.50</confidence1>
<answer2>肺炎</answer2>
<confidence2>0.30</confidence2>
<answer3>支气管炎</answer3>
<confidence3>0.20</confidence3>

奖励函数结合了正确性校准性

R_multi_RLCR = R_multi_RLVR - R_multi_Brier

其中R_multi_Brier多答案Brier分数,衡量置信度与实际正确性的匹配程度:

R_multi_Brier = (1/K) * Σᵢ (qᵢ - 1[aᵢ ∈ Y*])²

这来自统计学中的严格适当评分规则(Strictly Proper Scoring Rules)理论。简单来说:如果模型说"我有80%信心这是正确答案",那么长期来看,这类声明应该有80%确实是正确的。如果模型总是过度自信,它就会受到惩罚。

🔬 分布的解释

有趣的是,这种输出可以被解释为真正的概率分布:

  • 单答案场景(N=1):K个置信度分数之和必须≤1,构成一个离散概率分布
  • 多答案场景(N>1):置信度可以看作是多变量伯努利分布的参数——每个答案有独立的正确概率
这与保形预测(Conformal Prediction)方法有理论联系,但有一个关键区别:传统保形预测保证覆盖某个固定比例的真实答案,而Multi-Answer RL让模型学习输出最可能的K个答案。

---

🧪 第四章:实验结果——数字背后的洞见

📚 三个截然不同的任务

为了全面验证方法,研究团队选择了三个性质迥异的基准测试:

#### 1️⃣ DDXPlus:医疗诊断的复杂性

数据来源:Tchango et al. (2022)

这是一个大规模医疗诊断数据集,包含患者人口统计信息、症状描述和病史。每个病例对应一个鉴别诊断(differential diagnosis)——一组可能的疾病。

关键特点

  • N ≥ 1(可能有多个同时正确的诊断)
  • 需要医疗专业知识
  • 症状和疾病之间存在复杂的多对多关系
示例(来自论文): > 患者:右下腹痛、发烧、咳血、体重偏低 > > 多答案RL输出: > - 肺结核(50%) > - 肺炎(25%) > - 支气管炎(25%)

训练规模:25,000个样本 输出设置:K = 3个诊断

#### 2️⃣ HotPotQA-Modified:信息不完整的迷雾

数据来源:Yang et al. (2018) 的修改版本

这是一个多跳问答数据集。研究者故意移除了部分相关信息段落,制造信息不完整的场景。

关键特点

  • N = 1(只有一个标准答案)
  • 但由于信息缺失,存在显著不确定性
  • 需要模型推理出多种可能的答案
这对应于"N=1, K>1"场景,Multi-Answer RL目标等价于传统的pass@K优化。

#### 3️⃣ MBPP:代码的多样性

数据来源:Austin et al. (2021)

这是一个编程任务基准。每个任务有自然语言描述和单元测试,验证代码正确性。

关键特点

  • 任务明确,无歧义
  • 可以有多种正确实现(不同算法、不同代码风格)
  • 使用AST(抽象语法树)判断答案是否真正不同
这代表"低歧义、多解法"场景,覆盖从高度歧义到结构良好任务的整个谱系。

🏆 主要结果:全面碾压

#### 正确性与覆盖率

数据集方法覆盖率↑Pass@1↑多样性↑Token效率↓
DDXPlusRLVR Single0.76-1.051467
RLVR Multi (本文)1.030.352.19622
HotPotQARLVR Single0.210.191.00544
RLVR Multi (本文)0.270.272.09511
MBPPRLVR Single0.980.292.09512
RLVR Multi (本文)1.350.492.98235
*表1:Multi-Answer RL在三个基准上的性能提升(K=3)*

关键发现

1. 覆盖率大幅提升:在DDXPlus上,Multi-Answer RL平均每个问题能猜对1.03个正确答案(满分可能是2-3个),而单答案基线只有0.76。

2. Token效率惊人:在MBPP代码任务上,Multi-Answer RL生成3个答案只需要235个token,而单答案方法采样3次需要512个token——节省了54%的计算成本

3. 准确率提升:即使只看第一个答案(Pass@1),Multi-Answer RL在MBPP上也达到了49%,相比单答案方法的29%提升了69%

#### 深度分析:多样性的真实含义

论文图2展示了一个更深刻的洞察:

研究人员从两种模型中各生成了30个答案:

  • RLVR-Single:独立采样30次
  • RLVR-Multi:采样10组,每组3个答案
结果显示,尽管生成的总答案数相同(30个),Multi模型产生的独特正确答案数量显著多于Single模型

这说明:单答案模型的"模式坍缩"不仅影响了输出多样性,还限制了它触及正确答案空间的能力。它反复生成同一个"最可能"答案,即使那个答案是错的,它也无法跳出这个模式去探索其他可能。

相比之下,Multi-Answer RL训练模型在单次生成中就探索多个推理路径,因此更有可能命中正确答案。

#### 校准性:模型终于"自知之明"

数据集方法Top-1 Brier↓Top-1 ECE↓Set ECE↓
DDXPlusRLVR Multi0.420.230.24
RLCR Multi (本文)0.270.150.19
MBPPRLVR Multi0.420.200.29
RLCR Multi (本文)0.260.130.24
HotPotQARLVR Multi0.350.160.22
RLCR Multi (本文)0.260.190.16
*表2:校准性能指标(越低越好)*

Brier分数期望校准误差(ECE)衡量模型置信度的准确性。理想情况下,如果模型说"我有70%信心",那么应该有70%的这类预测确实是正确的。

结果表明,RLCR Multi在所有三个数据集上都显著改善了校准性。这意味着模型不仅更准确,而且更知道自己什么时候可能是错的——这在高风险的医疗或法律应用中至关重要。

#### 一个有趣的发现

在HotPotQA上,RLCR Multi在top-1答案的ECE上略逊于RLCR Single。研究者认为这可能是因为模型学到了一个先验假设:置信度应该加起来等于1。

在极度困难的单标签任务中,这个假设可能稍微影响了单个答案的校准,但集合级别的校准仍然改善了。

---

🌅 第五章:超越技术——方法论的意义

💡 为什么这很重要?

Multi-Answer RL的价值不仅仅是几个百分点的性能提升。它代表了AI发展的一个重要方向:

#### 1. 从"单一真理"到"概率思维"

传统AI评估框架(比如大多数NLP基准)假设每个问题都有唯一正确答案。但现实世界是混乱的、模糊的、充满不确定性的。

Multi-Answer RL为AI系统引入了概率世界观——承认不确定性,拥抱多样性,量化置信度。

#### 2. 计算效率的革命

传统的Best-of-K方法需要K次前向传播,计算成本线性增长。

Multi-Answer RL通过单次前向传播生成多个答案,将计算复杂度从O(K)降低到O(1)。在MBPP上,这不仅没有牺牲性能,反而提升了准确率和多样性。

这对于资源受限的部署场景意义重大。

#### 3. 可解释性的提升

当一个AI系统说"诊断是肺炎,置信度90%"时,你无法判断它是真的很有把握,还是只是被训练成总是很有把握的样子。

但当它说:

  • "肺结核,50%"
  • "肺炎,30%"
  • "支气管炎,20%"
你不仅能看到完整的假设空间,还能根据置信度做决策。比如:如果前两个置信度都超过30%,也许应该同时做两种检查?

#### 4. 决策支持系统的范式转移

在医疗诊断、法律分析、科学研究等高风险领域,AI不应该试图"替代"人类决策,而应该支持人类决策。

Multi-Answer RL提供的是一种决策支持界面:列出所有合理选项及其相对可能性,让人类专家做最终判断。

这比"黑箱给出单一答案"的模式更符合人类认知,也更容易被专业人士接受。

🔮 未来方向

论文结尾提出了一些令人兴奋的未来研究方向:

1. 动态K值:当前方法固定输出K个答案。未来的模型可以根据问题复杂度自适应地决定输出多少答案。

2. 层次化答案集合:对于复杂问题,答案之间可能有层次关系(比如"呼吸系统疾病"是"肺炎"的上位概念)。

3. 与外部工具结合:模型生成多个假设后,可以主动选择用搜索引擎、数据库或计算工具来验证每个假设。

4. 多模态扩展:将这种框架应用到图像、音频等多模态任务中。

---

🎭 尾声:费曼式的思考

理查德·费曼曾经说过:

> *"第一原则是你不能欺骗自己,而你自己是最容易被欺骗的人。"*

这句话用在AI上格外贴切。

我们训练AI系统优化单一目标(比如"最大化正确答案的概率"),然后惊讶于它们变得"单一"——变得只会说一种话,只想一种可能,只认一个答案。

这不是AI的错,而是我们训练目标的错。

MIT团队的这项工作提醒我们:如果我们希望AI能像人类专家那样思考,我们就必须给它们像人类专家那样的训练目标。

人类专家不会只学一种解法。他们学习在面对不确定性时保持开放,在信息不完整时列出多种假设,在做出判断时量化自己的信心。

Multi-Answer RL把这种智慧编码进了AI的训练过程。它不是让AI变得"更确定",而是让AI学会恰当地不确定——知道什么时候该坚持,什么时候该探索;什么时候该斩钉截铁,什么时候该列出可能性。

在一个人工智能越来越深入我们生活的时代,这种能力可能比单纯的"准确率"更加重要。

毕竟,现实世界不是多项选择题。它是一个开放的、模糊的、充满可能性的谜题。

而学会拥抱这种可能性,也许是智能的本质。

---

📚 参考文献

1. Puri, I., Damani, M., Shenfeld, I., Ghassemi, M., Andreas, J., & Kim, Y. (2026). Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models. *arXiv preprint arXiv:2603.24844*.

2. Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. *arXiv preprint arXiv:2501.12948*.

3. Damani, M., Puri, I., Slocum, S., Shenfeld, I., Choshen, L., Kim, Y., & Andreas, J. (2025). Beyond binary rewards: Training lms to reason about their uncertainty. *arXiv preprint arXiv:2507.16806*.

4. Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. *Journal of the American Statistical Association*, 102(477), 359-378.

5. Tchango, A. G., et al. (2022). DDXPlus: A medical diagnostic dataset. *Medical AI Research*.

6. Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A dataset for diverse, explainable multi-hop question answering. *EMNLP 2018*.

7. Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., ... & Sutton, C. (2021). Program synthesis with large language models. *arXiv preprint arXiv:2108.07732*.

8. Wu, F., & Choi, Y. (2025). The invisible leash: Why rlvr may not escape its origin. *AI for Math Workshop @ ICML 2025*.

9. Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model? *arXiv preprint arXiv:2504.13837*.

10. Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). Can LLMs express their uncertainty? an empirical evaluation of confidence elicitation in LLMs. *ICLR 2024*.

---

*本文以费曼风格撰写,力求在保持科学严谨性的同时让复杂概念易于理解。所有实验数据和图表描述均基于原始论文。*

*写作日期:2026年3月28日*

讨论回复 (0)