🌊 当AI不再"一根筋":教会语言模型拥抱不确定性的艺术
副标题:一篇关于"多答案强化学习"的费曼式漫游指南
原作:Isha Puri 等 @ MIT | arXiv:2603.24844 (2026-03-25)
🎯 开篇:猜谜游戏的启示
想象你正在玩一个猜谜游戏。主持人说:"我口袋里有一种水果,圆圆的红色,咬下去会爆汁。"
你可能会脱口而出:"苹果!"
但如果游戏允许你猜三次呢?作为一个聪明的玩家,你会说:"可能是苹果、樱桃,或者小番茄——它们都符合这个描述。"
这就是人类面对不确定性时的本能反应:当信息不完整时,我们自然地列出多种可能性,而不是死守一个答案。
但令人惊讶的是,当今最先进的AI——那些经过强化学习训练的语言模型——却像是一个只被训练猜一次的玩家。它们被奖励机制训练得极其"果断",哪怕面对模棱两可的问题,也坚持输出唯一答案。
这就是MIT研究团队想要解决的核心问题:
"如何让AI学会像人类医生那样,在面对模糊症状时给出一份'鉴别诊断'清单,而不是武断地只说一种可能?"
🕳️ 第一章:分布坍缩——AI的"一根筋"困境
🎲 语言模型心中的"概率云"
首先,我们需要理解语言模型(LM)是如何"思考"的。
当你向ChatGPT或Claude提问时,模型内部并不是在"搜索"一个标准答案。相反,它维护着一个巨大的概率分布——一个包含所有可能答案的"概率云"。
比如问:"法国的国旗是什么颜色?"
模型心中的分布可能是:
- "蓝白红三色旗" → 45%
- "蓝、白、红色" → 35%
- "法国国旗由蓝白红三条竖条纹组成" → 15%
- 其他变体 → 5%
这个分布是丰富的、多元的,包含了各种合理的表达方式。
💥 强化学习的"坍缩效应"
但接下来发生的事情,彻底改变了这一切。
现代语言模型在预训练后,通常会经历一个叫做"后训练"的阶段——主要是强化学习(Reinforcement Learning, RL)。在这个过程中,模型回答问题,如果回答正确就获得奖励,错误就被惩罚。
听起来很合理,对吧?但这里有一个致命的副作用。
研究者发现,这种训练会让模型原本丰富的"概率云"坍缩成一个点——它只输出那个"最可能正确"的答案,其他可能性被系统性地压制。
想象一下,如果你每次考试都被要求"只写一个答案,写对加分,写错扣分",久而久之,你也会变得极其保守,每次都只写那个"最保险"的答案。
这就是论文中提到的**"模式坍缩"**(Mode Collapse)现象。
📊 数据不会撒谎
论文引用了一系列最新研究来证实这个问题:
- Lin et al. (2025) 和 Yu et al. (2025) 发现,RL训练会导致模型熵值(entropy)急剧下降——换句话说,模型变得越来越"确定",输出多样性锐减。
- Jin et al. (2025) 观察到类似现象,称之为"熵坍缩"。
- Wu & Choi (2025) 的研究更为直接:他们发现,虽然RLVR(带可验证奖励的强化学习)能显著提升单答案正确率(pass@1),但与此同时,模型的pass@k性能却在恶化——模型越来越难以生成多样化的正确答案。
举个例子:如果一个编程任务有5种不同的正确解法,经过RL训练后,模型可能会牢牢记住其中1种,而完全"遗忘"其他4种。即使你用不同的随机种子让模型重新采样100次,它可能每次都给你几乎相同的代码!
🏥 现实世界的代价
这种"一根筋"行为在很多场景下是可以接受的。比如数学题、事实性问题——确实只有一个正确答案。
但在以下场景中,这会成为严重问题:
| 场景 | 为什么需要多答案 |
|---|---|
| 🏥 医疗诊断 | 相同症状可能对应多种疾病,医生需要列出所有可能性 |
| 🔍 模糊问答 | 问题本身信息不完整,多种答案都合理 |
| 💻 代码生成 | 一个问题通常有多种正确解法 |
| 🧪 科学假设 | 实验数据可能支持多种解释 |
| ⚖️ 法律分析 | 案件可能有多个合理的法律角度 |
想象一下:一个病人右下腹疼痛、发烧。这可能是急性阑尾炎,也可能是右侧肾结石,或者是妇科疾病(如果是女性患者)。一个有经验的医生会列出所有可能性,并建议相应的检查来逐一排除。
但如果是一个"坍缩后"的AI医生,它可能会武断地说"这是阑尾炎"——因为它在训练数据中见过更多阑尾炎的案例,这个答案"最保险"。
这就是问题的严重性。
🌳 第二章:多岔路口的哲学
🛤️ 推理的本质是探索
让我们换一个比喻。
想象推理过程像是在森林中寻找出路。每遇到一个分叉路口,你都需要做出选择:
起点
│
├─── 路径A ─── 可能性1
│
├─── 路径B ─── 可能性2
│
└─── 路径C ─── 可能性3
传统的单答案RL训练,就像是让AI在每个路口都选择那条"看起来最对"的路径,然后径直走到终点。
问题在于:AI从来没有真正"探索"过其他路径。
它只是被训练成了一个"导航机器"——输入起点,输出最短路径。它不知道其他路径通向哪里,也不知道那些路径是否也是正确的。
🎭 "Best-of-K" 的笨拙 workaround
业界已经意识到这个问题,于是提出了各种推理时(inference-time)的解决方案:
方法1:并行采样(Parallel Sampling)
- 让模型独立生成K个答案
- 然后用一个验证器选出最好的
- 这就是"Best-of-K"
方法2:顺序探索(Sequential Exploration)
- 让模型生成一个答案,然后被提示"再想想其他可能"
- 比如Shinn et al. (2023)的Reflexion方法
- 或者Xie et al. (2023)的自评估引导搜索
这些方法有一定效果,但存在根本性的缺陷:
训练-测试不匹配(Train-Test Mismatch)
模型在训练时被教导"坚持一个答案,要正确",但在测试时却被要求"列出多种可能性"。这就像训练一个拳击手只练习直拳,然后让他去打柔道比赛——他能做,但做得很别扭。
更重要的是,这些推理时方法计算成本高昂。生成K个完整答案意味着K倍的推理时间、K倍的token消耗。
🧠 人类是怎么做的?
相比之下,人类专家的做法是内嵌的(internalized)。
当一位资深医生面对复杂病例时,他不会:
- 先诊断一次
- 擦掉黑板
- 再诊断一次
- 再擦掉黑板
- 重复N次
- 最后把所有诊断列在一起
他会在第一次思考中就同时考虑多个假设:
"根据右下腹痛和发烧,我首先考虑阑尾炎——这是最常见的。但等等,如果伴随血尿,那可能是肾结石。另外,如果患者是女性,还要考虑卵巢囊肿或异位妊娠..."
所有可能性都在同一条思维链中被探索、比较、排序。
这就是MIT团队想要实现的目标:把推理时的搜索内化到模型的生成过程中。
⚙️ 第三章:多答案强化学习——技术创新的优雅
🎓 核心思想:重新定义"正确"
传统RL的核心优化目标是:
最大化:E[ R(y, y*) ]
其中y*是唯一的标准答案,R是奖励函数(通常就是"对/错"的二元判断)。
MIT团队的天才之处在于:他们把"正确答案"从一个点扩展成了一个集合。
不再是y*,而是Y* = {y*₁, y*₂, ..., y*N}——一个包含N个正确答案的集合。
相应地,模型的输出也从一个答案y,变成了一组K个候选答案A = {a₁, a₂, ..., aK}。
新的奖励函数变为:
R_multi(A, Y*) = Σᵢ 1[aᵢ ∈ Y*]
简单来说:模型每猜对一个答案,就得一分。
🔢 四种训练模式
这个简单的改变,实际上统一了多种训练目标:
| 场景 | N(正确答案数) | K(模型输出数) | 对应传统方法 |
|---|---|---|---|
| 标准单答案 | 1 | 1 | 传统RLVR |
| Best-of-K | 1 | >1 | Pass@K目标 |
| 部分覆盖 | >1 | ≤N | 最大化覆盖 |
| 完全覆盖 | >1 | ≥N | 恢复所有正确答案 |
这就像一个通用的"瑞士军刀"框架,可以根据任务需求灵活调整。
🎨 Multi-Answer RLVR:多样性的艺术
这是团队提出的第一个算法:多答案可验证奖励强化学习(Multi-Answer RL with Verifiable Rewards)。
关键创新点:
-
结构化输出:模型在一个推理链中生成K个不同的候选答案,用特殊标签标记:
<think> 推理过程... </think> <answer1>第一个答案</answer1> <answer2>第二个答案</answer2> <answer3>第三个答案</answer3> -
格式奖励:为了防止模型偷懒重复同样的答案,团队增加了一个唯一性奖励,强制要求K个答案必须互不相同。
-
集合级奖励:最终的奖励基于整个答案集合的表现,而不是单个答案。
📐 Multi-Answer RLCR:置信度的数学
第二个算法更进一步:多答案校准奖励强化学习(Multi-Answer RL with Calibration Rewards)。
除了生成答案,模型还被要求为每个答案输出一个置信度分数qᵢ ∈ [0,1]:
<answer1>肺结核</answer1>
<confidence1>0.50</confidence1>
<answer2>肺炎</answer2>
<confidence2>0.30</confidence2>
<answer3>支气管炎</answer3>
<confidence3>0.20</confidence3>
奖励函数结合了正确性和校准性:
R_multi_RLCR = R_multi_RLVR - R_multi_Brier
其中R_multi_Brier是多答案Brier分数,衡量置信度与实际正确性的匹配程度:
R_multi_Brier = (1/K) * Σᵢ (qᵢ - 1[aᵢ ∈ Y*])²
这来自统计学中的严格适当评分规则(Strictly Proper Scoring Rules)理论。简单来说:如果模型说"我有80%信心这是正确答案",那么长期来看,这类声明应该有80%确实是正确的。如果模型总是过度自信,它就会受到惩罚。
🔬 分布的解释
有趣的是,这种输出可以被解释为真正的概率分布:
- 单答案场景(N=1):K个置信度分数之和必须≤1,构成一个离散概率分布
- 多答案场景(N>1):置信度可以看作是多变量伯努利分布的参数——每个答案有独立的正确概率
这与保形预测(Conformal Prediction)方法有理论联系,但有一个关键区别:传统保形预测保证覆盖某个固定比例的真实答案,而Multi-Answer RL让模型学习输出最可能的K个答案。
🧪 第四章:实验结果——数字背后的洞见
📚 三个截然不同的任务
为了全面验证方法,研究团队选择了三个性质迥异的基准测试:
1️⃣ DDXPlus:医疗诊断的复杂性
数据来源:Tchango et al. (2022)
这是一个大规模医疗诊断数据集,包含患者人口统计信息、症状描述和病史。每个病例对应一个鉴别诊断(differential diagnosis)——一组可能的疾病。
关键特点:
- N ≥ 1(可能有多个同时正确的诊断)
- 需要医疗专业知识
- 症状和疾病之间存在复杂的多对多关系
示例(来自论文):
患者:右下腹痛、发烧、咳血、体重偏低
多答案RL输出:
- 肺结核(50%)
- 肺炎(25%)
- 支气管炎(25%)
训练规模:25,000个样本 输出设置:K = 3个诊断
2️⃣ HotPotQA-Modified:信息不完整的迷雾
数据来源:Yang et al. (2018) 的修改版本
这是一个多跳问答数据集。研究者故意移除了部分相关信息段落,制造信息不完整的场景。
关键特点:
- N = 1(只有一个标准答案)
- 但由于信息缺失,存在显著不确定性
- 需要模型推理出多种可能的答案
这对应于"N=1, K>1"场景,Multi-Answer RL目标等价于传统的pass@K优化。
3️⃣ MBPP:代码的多样性
数据来源:Austin et al. (2021)
这是一个编程任务基准。每个任务有自然语言描述和单元测试,验证代码正确性。
关键特点:
- 任务明确,无歧义
- 但可以有多种正确实现(不同算法、不同代码风格)
- 使用AST(抽象语法树)判断答案是否真正不同
这代表"低歧义、多解法"场景,覆盖从高度歧义到结构良好任务的整个谱系。
🏆 主要结果:全面碾压
正确性与覆盖率
| 数据集 | 方法 | 覆盖率↑ | Pass@1↑ | 多样性↑ | Token效率↓ |
|---|---|---|---|---|---|
| DDXPlus | RLVR Single | 0.76 | - | 1.05 | 1467 |
| RLVR Multi (本文) | 1.03 | 0.35 | 2.19 | 622 | |
| HotPotQA | RLVR Single | 0.21 | 0.19 | 1.00 | 544 |
| RLVR Multi (本文) | 0.27 | 0.27 | 2.09 | 511 | |
| MBPP | RLVR Single | 0.98 | 0.29 | 2.09 | 512 |
| RLVR Multi (本文) | 1.35 | 0.49 | 2.98 | 235 |
表1:Multi-Answer RL在三个基准上的性能提升(K=3)
关键发现:
-
覆盖率大幅提升:在DDXPlus上,Multi-Answer RL平均每个问题能猜对1.03个正确答案(满分可能是2-3个),而单答案基线只有0.76。
-
Token效率惊人:在MBPP代码任务上,Multi-Answer RL生成3个答案只需要235个token,而单答案方法采样3次需要512个token——节省了54%的计算成本!
-
准确率提升:即使只看第一个答案(Pass@1),Multi-Answer RL在MBPP上也达到了49%,相比单答案方法的29%提升了69%!
深度分析:多样性的真实含义
论文图2展示了一个更深刻的洞察:
研究人员从两种模型中各生成了30个答案:
- RLVR-Single:独立采样30次
- RLVR-Multi:采样10组,每组3个答案
结果显示,尽管生成的总答案数相同(30个),Multi模型产生的独特正确答案数量显著多于Single模型。
这说明:单答案模型的"模式坍缩"不仅影响了输出多样性,还限制了它触及正确答案空间的能力。它反复生成同一个"最可能"答案,即使那个答案是错的,它也无法跳出这个模式去探索其他可能。
相比之下,Multi-Answer RL训练模型在单次生成中就探索多个推理路径,因此更有可能命中正确答案。
校准性:模型终于"自知之明"
| 数据集 | 方法 | Top-1 Brier↓ | Top-1 ECE↓ | Set ECE↓ |
|---|---|---|---|---|
| DDXPlus | RLVR Multi | 0.42 | 0.23 | 0.24 |
| RLCR Multi (本文) | 0.27 | 0.15 | 0.19 | |
| MBPP | RLVR Multi | 0.42 | 0.20 | 0.29 |
| RLCR Multi (本文) | 0.26 | 0.13 | 0.24 | |
| HotPotQA | RLVR Multi | 0.35 | 0.16 | 0.22 |
| RLCR Multi (本文) | 0.26 | 0.19 | 0.16 |
表2:校准性能指标(越低越好)
Brier分数和期望校准误差(ECE)衡量模型置信度的准确性。理想情况下,如果模型说"我有70%信心",那么应该有70%的这类预测确实是正确的。
结果表明,RLCR Multi在所有三个数据集上都显著改善了校准性。这意味着模型不仅更准确,而且更知道自己什么时候可能是错的——这在高风险的医疗或法律应用中至关重要。
一个有趣的发现
在HotPotQA上,RLCR Multi在top-1答案的ECE上略逊于RLCR Single。研究者认为这可能是因为模型学到了一个先验假设:置信度应该加起来等于1。
在极度困难的单标签任务中,这个假设可能稍微影响了单个答案的校准,但集合级别的校准仍然改善了。
🌅 第五章:超越技术——方法论的意义
💡 为什么这很重要?
Multi-Answer RL的价值不仅仅是几个百分点的性能提升。它代表了AI发展的一个重要方向:
1. 从"单一真理"到"概率思维"
传统AI评估框架(比如大多数NLP基准)假设每个问题都有唯一正确答案。但现实世界是混乱的、模糊的、充满不确定性的。
Multi-Answer RL为AI系统引入了概率世界观——承认不确定性,拥抱多样性,量化置信度。
2. 计算效率的革命
传统的Best-of-K方法需要K次前向传播,计算成本线性增长。
Multi-Answer RL通过单次前向传播生成多个答案,将计算复杂度从O(K)降低到O(1)。在MBPP上,这不仅没有牺牲性能,反而提升了准确率和多样性。
这对于资源受限的部署场景意义重大。
3. 可解释性的提升
当一个AI系统说"诊断是肺炎,置信度90%"时,你无法判断它是真的很有把握,还是只是被训练成总是很有把握的样子。
但当它说:
- "肺结核,50%"
- "肺炎,30%"
- "支气管炎,20%"
你不仅能看到完整的假设空间,还能根据置信度做决策。比如:如果前两个置信度都超过30%,也许应该同时做两种检查?
4. 决策支持系统的范式转移
在医疗诊断、法律分析、科学研究等高风险领域,AI不应该试图"替代"人类决策,而应该支持人类决策。
Multi-Answer RL提供的是一种决策支持界面:列出所有合理选项及其相对可能性,让人类专家做最终判断。
这比"黑箱给出单一答案"的模式更符合人类认知,也更容易被专业人士接受。
🔮 未来方向
论文结尾提出了一些令人兴奋的未来研究方向:
-
动态K值:当前方法固定输出K个答案。未来的模型可以根据问题复杂度自适应地决定输出多少答案。
-
层次化答案集合:对于复杂问题,答案之间可能有层次关系(比如"呼吸系统疾病"是"肺炎"的上位概念)。
-
与外部工具结合:模型生成多个假设后,可以主动选择用搜索引擎、数据库或计算工具来验证每个假设。
-
多模态扩展:将这种框架应用到图像、音频等多模态任务中。
🎭 尾声:费曼式的思考
理查德·费曼曾经说过:
"第一原则是你不能欺骗自己,而你自己是最容易被欺骗的人。"
这句话用在AI上格外贴切。
我们训练AI系统优化单一目标(比如"最大化正确答案的概率"),然后惊讶于它们变得"单一"——变得只会说一种话,只想一种可能,只认一个答案。
这不是AI的错,而是我们训练目标的错。
MIT团队的这项工作提醒我们:如果我们希望AI能像人类专家那样思考,我们就必须给它们像人类专家那样的训练目标。
人类专家不会只学一种解法。他们学习在面对不确定性时保持开放,在信息不完整时列出多种假设,在做出判断时量化自己的信心。
Multi-Answer RL把这种智慧编码进了AI的训练过程。它不是让AI变得"更确定",而是让AI学会恰当地不确定——知道什么时候该坚持,什么时候该探索;什么时候该斩钉截铁,什么时候该列出可能性。
在一个人工智能越来越深入我们生活的时代,这种能力可能比单纯的"准确率"更加重要。
毕竟,现实世界不是多项选择题。它是一个开放的、模糊的、充满可能性的谜题。
而学会拥抱这种可能性,也许是智能的本质。
📚 参考文献
-
Puri, I., Damani, M., Shenfeld, I., Ghassemi, M., Andreas, J., & Kim, Y. (2026). Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models. arXiv preprint arXiv:2603.24844.
-
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
-
Damani, M., Puri, I., Slocum, S., Shenfeld, I., Choshen, L., Kim, Y., & Andreas, J. (2025). Beyond binary rewards: Training lms to reason about their uncertainty. arXiv preprint arXiv:2507.16806.
-
Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477), 359-378.
-
Tchango, A. G., et al. (2022). DDXPlus: A medical diagnostic dataset. Medical AI Research.
-
Yang, Z., Qi, P., Zhang, S., Bengio, Y., Cohen, W., Salakhutdinov, R., & Manning, C. D. (2018). HotpotQA: A dataset for diverse, explainable multi-hop question answering. EMNLP 2018.
-
Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., ... & Sutton, C. (2021). Program synthesis with large language models. arXiv preprint arXiv:2108.07732.
-
Wu, F., & Choi, Y. (2025). The invisible leash: Why rlvr may not escape its origin. AI for Math Workshop @ ICML 2025.
-
Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model? arXiv preprint arXiv:2504.13837.
-
Xiong, M., Hu, Z., Lu, X., Li, Y., Fu, J., He, J., & Hooi, B. (2024). Can LLMs express their uncertainty? an empirical evaluation of confidence elicitation in LLMs. ICLR 2024.
本文以费曼风格撰写,力求在保持科学严谨性的同时让复杂概念易于理解。所有实验数据和图表描述均基于原始论文。
写作日期:2026年3月28日
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。