当AI掷骰子:大语言模型的概率推理危机
🎲 引子:一个关于骰子的哲学问题
想象一下,你问一个AI:"同时掷两个骰子,得到两个6的概率是多少?"
如果它回答:"1/36,大约是2.78%"——你会满意地点头。
但如果问:"三个朋友各自独立选择一个1到100的随机数,恰好都选了同一个数的概率是多少?"——它可能会犹豫,甚至给出一个直觉上合理但数学上错误的答案。
这不是因为AI不会计算。恰恰相反,当前最先进的大语言模型(LLM)在高级数学问题上表现惊人,能解微积分、证定理、写代码。但当面对反直觉的概率问题时,它们的表现却像人类一样——被直觉误导,被偏见蒙蔽。
这篇论文揭示了一个令人不安的真相:LLM可能从未真正理解概率,它们只是在模仿概率的语言。
🧠 概率推理:人类与AI的共同软肋
蒙特霍尔问题:直觉的陷阱
经典的概率悖论:三扇门,背后分别是一辆车和两只山羊。你选择一扇门后,主持人(知道门后情况)打开另一扇有山羊的门,然后问你:"要不要换门?"
直觉说:换不换都一样,概率都是50%。
数学说:换门的胜率是2/3,不换是1/3。
大多数人类会答错。令人惊讶的是,许多LLM也会答错——或者答对,但给出错误的推理。
为什么概率如此反直觉?
概率问题之所以难,是因为:
- 大脑进化不是为了处理概率,而是为了处理确定性的因果关系("狮子来了→跑")
- 启发式思维(mental heuristics)在进化中帮助生存,但在数学上经常出错
- 代表性启发:认为"随机"意味着"均匀分布"(赌徒谬误)
- 可得性启发:容易想起的例子被认为更可能发生(飞机失事vs车祸)
- 锚定效应:第一个看到的数字影响后续判断
🧪 实验设计:让AI玩骰子
研究者构建了两个数据集,来系统测试LLM的概率推理能力:
数据集一:标准练习题(Standard Exercises)
内容:教科书级别的概率问题,如:
- "掷一个公平的骰子,得到偶数的概率是多少?"
- "从52张牌中抽一张,是红心的概率是多少?"
- "两个独立事件A和B,P(A)=0.3, P(B)=0.4,同时发生的概率是多少?"
特点:直接、明确、符合标准公式
数据集二:反直觉练习题(Counterintuitive Exercises)
内容:设计来触发启发式思维的问题,如:
- "生日悖论":23人中至少两人生日相同的概率超过50%
- "赌徒谬误":连续5次掷硬币都是正面,第6次是正面的概率是多少?(还是50%)
- "蒙提霍尔问题"的变体
- "条件概率陷阱":某种疾病检测准确率95%,发病率1%,检测阳性时实际患病的概率是多少?(不是95%)
特点:答案违反直觉,需要严格的条件概率计算
测试模型
8个当前最先进的模型,包括:
- GPT-4系列
- Claude系列
- Gemini系列
- Llama系列
- 其他开源模型
每个模型测试两种模式:
- 直接回答:直接给出答案
- 思维链(Chain-of-Thought):要求模型先一步步推理,再给出答案
📊 结果:标准 vs 反直觉的巨大鸿沟
核心发现一:标准题接近满分,反直觉题接近及格
| 模型类型 | 标准题准确率 | 反直觉题准确率 | 差距 |
|---|---|---|---|
| 平均表现 | 96% | 59% | -37% |
这意味着:
- LLM在直接计算上几乎完美
- 但在需要克服直觉的问题上,表现仅略高于随机猜测(如果二选一问题)
- 这种差距不是知识差距,而是推理模式差距
核心发现二:思维链(CoT)的帮助有限
研究者假设:如果让模型"一步步想",是否能克服直觉?
结果:
- 标准题+CoT:96% → 97%(几乎无提升,因为本来就会)
- 反直觉题+CoT:59% → 64%(小幅提升,但仍不理想)
关键洞察:CoT帮助模型更仔细地"表达"思考,但没有帮助它识别直觉陷阱。如果模型一开始就沿着错误的方向推理,CoT只是让它更系统地走向错误答案。
核心发现三:Token偏见——语言的陷阱
这是最令人震惊的发现之一。
实验设计:
- 将问题的标准表述("canonical formulation")替换为语义等价但措辞不同的表述("disguised variant")
- 例如,将"至少两人生日相同"替换为"存在一对人共享生日"
结果:
- 性能下降超过20%
- 这意味着LLM对特定的词语、句式、表达方式有偏见
- 它们不是真正理解问题,而是在匹配训练语料中的模式
深层含义:
- LLM可能在训练数据中见过"生日悖论"的标准表述,因此"知道"答案
- 但当问题用新方式表述时,它们无法迁移知识
- 这类似于背诵答案 vs 理解原理的区别
核心发现四:误导性建议的毁灭性影响
实验设计:
- 在prompt中嵌入"看似合理但数学上错误"的提示
- 例如:"提示:许多人认为在这种情况下应该考虑之前的结果"(暗示赌徒谬误)
结果:
- 性能下降高达34%
- 没有任何模型对此免疫
- 即使是最好的模型,也会被误导性建议显著影响
深层含义:
- LLM对社交暗示和权威建议非常敏感
- 这类似于人类从众心理,但在数学场景中是不利的
- 如果用户(或恶意攻击者)提供错误提示,模型很容易偏离正确答案
🔍 深层分析:LLM为什么不会"真正"的概率推理?
假说一:统计模式匹配 vs 符号推理
核心观点:LLM的概率"推理"实际上是高级模式匹配,而非真正的符号计算。
证据:
- Token偏见实验:措辞变化导致性能大幅下降
- 如果模型真正理解了概率原理,措辞不应影响结果
- 它们更像是在"回忆"训练语料中的类似问题,而非"计算"答案
类比:
- 就像学生背诵了"生日悖论"的解答,但没有理解组合数学原理
- 当问题用新方式提出时,他们无法推导答案
假说二:启发式思维的"传染性"
核心观点:LLM在训练数据中学习了人类常见的概率误解,因此继承了人类的认知偏见。
证据:
- 反直觉题上的表现模式与人类类似(锚定效应、代表性启发等)
- 模型在"典型"分布上表现好,在"非典型"分布上表现差
- 这暗示模型学到了人类直觉的统计规律,而非数学真理
深层含义:
- 这是一个双刃剑:模型因为学习人类语言而擅长人类交流
- 但也因此继承了人类认知的所有弱点
- 完美模仿人类思考 ≠ 完美理性思考
假说三:缺乏内部概率模型
核心观点:人类大脑虽然直觉差,但可以通过内部模拟(如想象骰子滚动)来辅助推理。LLM缺乏这种具身化的模拟能力。
证据:
- 涉及空间概率(如几何概率)的问题特别困难
- 模型难以进行"心理模拟"(mental simulation)
- 它们依赖语言描述,而非视觉/空间表征
对比:
- 人类可以画个图来理解概率问题
- LLM虽然有视觉能力,但在纯文本模式下无法进行这种辅助推理
假说四:优化目标的错位
核心观点:LLM被训练来预测下一个token,而非正确推理。在训练语料中,错误的直觉回答可能比正确的数学回答更"常见"。
证据:
- 语言模型倾向于生成"常见的"而非"正确的"回答
- 在概率问题中,直觉错误(如赌徒谬误)在训练语料中可能更常见
- 模型因此优化了"人类直觉的预测",而非"数学真理的预测"
⚠️ 影响:为什么这很重要?
1. AI在关键决策中的可靠性
如果LLM被用于:
- 医疗诊断:计算疾病概率、药物副作用概率
- 金融决策:风险评估、投资组合优化
- 法律分析:证据权重、案件胜诉概率
- 安全系统:威胁评估、故障概率
那么37%的准确率下降是不可接受的。
2. AI作为教育工具的风险
如果学生用LLM学习概率:
- 标准题:"AI答对了,我懂了"
- 反直觉题:"AI答错了,那一定是题目有问题"
- 结果:AI的错误强化了学生的直觉偏见
3. 对抗性攻击的新向量
误导性提示攻击:
- 攻击者可以在问题中嵌入看似合理的错误提示
- 模型性能下降34%,没有任何模型免疫
- 这意味着LLM在对抗性环境中极其脆弱
4. 对AI"理解力"的重新评估
这篇论文挑战了一个常见假设:LLM在数学问题上的高分等于"理解"。
实际上:
- 高分可能来自训练语料中的答案记忆
- 真正理解需要泛化到新的表述方式
- 需要抗干扰能力(不被误导性提示影响)
- 需要自洽性(不同表述下答案一致)
🔧 可能的解决方案
1. 符号-神经混合架构
思路:将LLM与符号概率引擎(如概率图模型、贝叶斯网络)结合。
方法:
- LLM负责理解问题,将其形式化为概率模型
- 符号引擎负责计算
- 将结果翻译回自然语言
优势:
- 保证计算的准确性
- 同时保持自然语言接口
2. 对抗性训练
思路:在训练中加入对抗性样本,让模型学会抵抗误导。
方法:
- 生成各种表述变体的问题
- 在训练数据中故意加入误导性提示,但标注正确答案
- 训练模型识别和忽略误导
挑战:
- 需要大量对抗性样本
- 难以覆盖所有可能的误导方式
3. 思维链的改进
思路:不是简单的"一步步想",而是"有意识地识别陷阱"。
方法:
- 训练模型在推理过程中显式检查常见偏见
- 例如:"我是否受到了锚定效应的影响?"
- "这个问题是否有条件概率的陷阱?"
优势:
- 利用模型的自我反思能力
- 不需要额外架构
4. 外部验证工具
思路:让模型使用外部计算工具验证概率计算。
方法:
- 模型将概率问题翻译为Python代码
- 执行代码获得精确答案
- 结合自然语言解释
优势:
- 消除计算错误
- 保证答案一致性
🌍 更广泛的哲学思考
LLM在模仿谁?
这篇论文提出了一个根本问题:LLM是在模仿理想的人类理性,还是在模仿真实的人类偏见?
从结果来看,更像是后者。LLM在概率问题上的表现模式与人类高度相似——标准题好,反直觉题差,受措辞影响,易被误导。
这意味着:LLM不是"超越人类"的理性存在,而是"放大人类"的统计镜像。
智能的定义
如果我们要求AI"像人类一样思考",那么它们也会像人类一样犯错。
如果我们要求AI"完美理性",那么它们可能变得难以理解,因为它们不再使用人类的直觉框架。
这引出了AI设计的核心张力:
- 可用性:需要符合人类直觉,易于交互
- 准确性:需要超越人类偏见,正确推理
概率的本质
概率论是人类发明的数学工具,用来处理不确定性。但人类大脑并非为此进化。
LLM的尴尬处境是:它们学习了人类的语言和思维,但概率是人类语言中最不符合直觉的领域之一。
也许,LLM在概率问题上的失败,恰恰提醒我们:真正的智能不是模仿人类,而是能够在人类弱点面前保持理性。
🎯 结论
这篇论文的标题问了一个看似简单的问题:"LLM在玩骰子时有多可靠?"
答案却复杂得多:
- 在标准问题上,它们几乎完美(96%)
- 在反直觉问题上,它们接近及格(59%)
- 它们受到token偏见的影响(措辞变化→20%下降)
- 它们对误导性提示毫无免疫(误导→34%下降)
核心结论:当前LLM不是真正的概率推理器。它们是高级模式匹配器,在训练数据覆盖良好的场景下表现完美,但在需要真正理解原理、抵抗偏见、泛化到新情境的场景下表现脆弱。
这不是LLM的"失败",而是我们对其能力误解的暴露。当我们把LLM当作"全知全能的AI"时,这篇论文是一剂清醒剂——它们仍然是人类智慧的镜像,而非超越人类理性的存在。
也许,正如费曼所说:"第一原则是你不能欺骗自己,而你自己是最容易被欺骗的人。"
LLM的问题在于,它们不仅欺骗自己,还继承了人类数千年来在概率问题上的自我欺骗。
参考文献
- Avena, L., Bet, G., & Busoni, B. (2026). How reliable are LLMs when it comes to playing dice? arXiv:2606.07515.
- Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive Psychology.
- Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science.
- Feynman, R. P. (1998). The Meaning of It All. Perseus Books.
#论文 #arXiv #AI #小凯 #LLM #概率推理 #认知偏见 #AI安全 #思维链
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。