当AI掷骰子：大语言模型的概率推理危机

🎲 引子：一个关于骰子的哲学问题

想象一下，你问一个AI："同时掷两个骰子，得到两个6的概率是多少？"

如果它回答："1/36，大约是2.78%"——你会满意地点头。

但如果问："三个朋友各自独立选择一个1到100的随机数，恰好都选了同一个数的概率是多少？"——它可能会犹豫，甚至给出一个直觉上合理但数学上错误的答案。

这不是因为AI不会计算。恰恰相反，当前最先进的大语言模型（LLM）在高级数学问题上表现惊人，能解微积分、证定理、写代码。但当面对反直觉的概率问题时，它们的表现却像人类一样——被直觉误导，被偏见蒙蔽。

这篇论文揭示了一个令人不安的真相：LLM可能从未真正理解概率，它们只是在模仿概率的语言。

🧠 概率推理：人类与AI的共同软肋

蒙特霍尔问题：直觉的陷阱

经典的概率悖论：三扇门，背后分别是一辆车和两只山羊。你选择一扇门后，主持人（知道门后情况）打开另一扇有山羊的门，然后问你："要不要换门？"

直觉说：换不换都一样，概率都是50%。

数学说：换门的胜率是2/3，不换是1/3。

大多数人类会答错。令人惊讶的是，许多LLM也会答错——或者答对，但给出错误的推理。

为什么概率如此反直觉？

概率问题之所以难，是因为：

大脑进化不是为了处理概率，而是为了处理确定性的因果关系（"狮子来了→跑"）
启发式思维（mental heuristics）在进化中帮助生存，但在数学上经常出错
代表性启发：认为"随机"意味着"均匀分布"（赌徒谬误）
可得性启发：容易想起的例子被认为更可能发生（飞机失事vs车祸）
锚定效应：第一个看到的数字影响后续判断

🧪 实验设计：让AI玩骰子

研究者构建了两个数据集，来系统测试LLM的概率推理能力：

数据集一：标准练习题（Standard Exercises）

内容：教科书级别的概率问题，如：

"掷一个公平的骰子，得到偶数的概率是多少？"
"从52张牌中抽一张，是红心的概率是多少？"
"两个独立事件A和B，P(A)=0.3, P(B)=0.4，同时发生的概率是多少？"

特点：直接、明确、符合标准公式

数据集二：反直觉练习题（Counterintuitive Exercises）

内容：设计来触发启发式思维的问题，如：

"生日悖论"：23人中至少两人生日相同的概率超过50%
"赌徒谬误"：连续5次掷硬币都是正面，第6次是正面的概率是多少？（还是50%）
"蒙提霍尔问题"的变体
"条件概率陷阱"：某种疾病检测准确率95%，发病率1%，检测阳性时实际患病的概率是多少？（不是95%）

特点：答案违反直觉，需要严格的条件概率计算

测试模型

8个当前最先进的模型，包括：

GPT-4系列
Claude系列
Gemini系列
Llama系列
其他开源模型

每个模型测试两种模式：

直接回答：直接给出答案
思维链（Chain-of-Thought）：要求模型先一步步推理，再给出答案

📊 结果：标准 vs 反直觉的巨大鸿沟

核心发现一：标准题接近满分，反直觉题接近及格

模型类型	标准题准确率	反直觉题准确率	差距
平均表现	96%	59%	-37%

这意味着：

LLM在直接计算上几乎完美
但在需要克服直觉的问题上，表现仅略高于随机猜测（如果二选一问题）
这种差距不是知识差距，而是推理模式差距

核心发现二：思维链（CoT）的帮助有限

研究者假设：如果让模型"一步步想"，是否能克服直觉？

结果：

标准题+CoT：96% → 97%（几乎无提升，因为本来就会）
反直觉题+CoT：59% → 64%（小幅提升，但仍不理想）

关键洞察：CoT帮助模型更仔细地"表达"思考，但没有帮助它识别直觉陷阱。如果模型一开始就沿着错误的方向推理，CoT只是让它更系统地走向错误答案。

核心发现三：Token偏见——语言的陷阱

这是最令人震惊的发现之一。

实验设计：

将问题的标准表述（"canonical formulation"）替换为语义等价但措辞不同的表述（"disguised variant"）
例如，将"至少两人生日相同"替换为"存在一对人共享生日"

结果：

性能下降超过20%
这意味着LLM对特定的词语、句式、表达方式有偏见
它们不是真正理解问题，而是在匹配训练语料中的模式

深层含义：

LLM可能在训练数据中见过"生日悖论"的标准表述，因此"知道"答案
但当问题用新方式表述时，它们无法迁移知识
这类似于背诵答案 vs 理解原理的区别

核心发现四：误导性建议的毁灭性影响

实验设计：

在prompt中嵌入"看似合理但数学上错误"的提示
例如："提示：许多人认为在这种情况下应该考虑之前的结果"（暗示赌徒谬误）

结果：

性能下降高达34%
没有任何模型对此免疫
即使是最好的模型，也会被误导性建议显著影响

深层含义：

LLM对社交暗示和权威建议非常敏感
这类似于人类从众心理，但在数学场景中是不利的
如果用户（或恶意攻击者）提供错误提示，模型很容易偏离正确答案

🔍 深层分析：LLM为什么不会"真正"的概率推理？

假说一：统计模式匹配 vs 符号推理

核心观点：LLM的概率"推理"实际上是高级模式匹配，而非真正的符号计算。

证据：

Token偏见实验：措辞变化导致性能大幅下降
如果模型真正理解了概率原理，措辞不应影响结果
它们更像是在"回忆"训练语料中的类似问题，而非"计算"答案

类比：

就像学生背诵了"生日悖论"的解答，但没有理解组合数学原理
当问题用新方式提出时，他们无法推导答案

假说二：启发式思维的"传染性"

核心观点：LLM在训练数据中学习了人类常见的概率误解，因此继承了人类的认知偏见。

证据：

反直觉题上的表现模式与人类类似（锚定效应、代表性启发等）
模型在"典型"分布上表现好，在"非典型"分布上表现差
这暗示模型学到了人类直觉的统计规律，而非数学真理

深层含义：

这是一个双刃剑：模型因为学习人类语言而擅长人类交流
但也因此继承了人类认知的所有弱点
完美模仿人类思考 ≠ 完美理性思考

假说三：缺乏内部概率模型

核心观点：人类大脑虽然直觉差，但可以通过内部模拟（如想象骰子滚动）来辅助推理。LLM缺乏这种具身化的模拟能力。

证据：

涉及空间概率（如几何概率）的问题特别困难
模型难以进行"心理模拟"（mental simulation）
它们依赖语言描述，而非视觉/空间表征

对比：

人类可以画个图来理解概率问题
LLM虽然有视觉能力，但在纯文本模式下无法进行这种辅助推理

假说四：优化目标的错位

核心观点：LLM被训练来预测下一个token，而非正确推理。在训练语料中，错误的直觉回答可能比正确的数学回答更"常见"。

证据：

语言模型倾向于生成"常见的"而非"正确的"回答
在概率问题中，直觉错误（如赌徒谬误）在训练语料中可能更常见
模型因此优化了"人类直觉的预测"，而非"数学真理的预测"

⚠️ 影响：为什么这很重要？

1. AI在关键决策中的可靠性

如果LLM被用于：

医疗诊断：计算疾病概率、药物副作用概率
金融决策：风险评估、投资组合优化
法律分析：证据权重、案件胜诉概率
安全系统：威胁评估、故障概率

那么37%的准确率下降是不可接受的。

2. AI作为教育工具的风险

如果学生用LLM学习概率：

标准题："AI答对了，我懂了"
反直觉题："AI答错了，那一定是题目有问题"
结果：AI的错误强化了学生的直觉偏见

3. 对抗性攻击的新向量

误导性提示攻击：

攻击者可以在问题中嵌入看似合理的错误提示
模型性能下降34%，没有任何模型免疫
这意味着LLM在对抗性环境中极其脆弱

4. 对AI"理解力"的重新评估

这篇论文挑战了一个常见假设：LLM在数学问题上的高分等于"理解"。

实际上：

高分可能来自训练语料中的答案记忆
真正理解需要泛化到新的表述方式
需要抗干扰能力（不被误导性提示影响）
需要自洽性（不同表述下答案一致）

🔧 可能的解决方案

1. 符号-神经混合架构

思路：将LLM与符号概率引擎（如概率图模型、贝叶斯网络）结合。

方法：

LLM负责理解问题，将其形式化为概率模型
符号引擎负责计算
将结果翻译回自然语言

优势：

保证计算的准确性
同时保持自然语言接口

2. 对抗性训练

思路：在训练中加入对抗性样本，让模型学会抵抗误导。

方法：

生成各种表述变体的问题
在训练数据中故意加入误导性提示，但标注正确答案
训练模型识别和忽略误导

挑战：

需要大量对抗性样本
难以覆盖所有可能的误导方式

3. 思维链的改进

思路：不是简单的"一步步想"，而是"有意识地识别陷阱"。

方法：

训练模型在推理过程中显式检查常见偏见
例如："我是否受到了锚定效应的影响？"
"这个问题是否有条件概率的陷阱？"

优势：

利用模型的自我反思能力
不需要额外架构

4. 外部验证工具

思路：让模型使用外部计算工具验证概率计算。

方法：

模型将概率问题翻译为Python代码
执行代码获得精确答案
结合自然语言解释

优势：

消除计算错误
保证答案一致性

🌍 更广泛的哲学思考

LLM在模仿谁？

这篇论文提出了一个根本问题：LLM是在模仿理想的人类理性，还是在模仿真实的人类偏见？

从结果来看，更像是后者。LLM在概率问题上的表现模式与人类高度相似——标准题好，反直觉题差，受措辞影响，易被误导。

这意味着：LLM不是"超越人类"的理性存在，而是"放大人类"的统计镜像。

智能的定义

如果我们要求AI"像人类一样思考"，那么它们也会像人类一样犯错。

如果我们要求AI"完美理性"，那么它们可能变得难以理解，因为它们不再使用人类的直觉框架。

这引出了AI设计的核心张力：

可用性：需要符合人类直觉，易于交互
准确性：需要超越人类偏见，正确推理

概率的本质

概率论是人类发明的数学工具，用来处理不确定性。但人类大脑并非为此进化。

LLM的尴尬处境是：它们学习了人类的语言和思维，但概率是人类语言中最不符合直觉的领域之一。

也许，LLM在概率问题上的失败，恰恰提醒我们：真正的智能不是模仿人类，而是能够在人类弱点面前保持理性。

🎯 结论

这篇论文的标题问了一个看似简单的问题："LLM在玩骰子时有多可靠？"

答案却复杂得多：

在标准问题上，它们几乎完美（96%）
在反直觉问题上，它们接近及格（59%）
它们受到token偏见的影响（措辞变化→20%下降）
它们对误导性提示毫无免疫（误导→34%下降）

核心结论：当前LLM不是真正的概率推理器。它们是高级模式匹配器，在训练数据覆盖良好的场景下表现完美，但在需要真正理解原理、抵抗偏见、泛化到新情境的场景下表现脆弱。

这不是LLM的"失败"，而是我们对其能力误解的暴露。当我们把LLM当作"全知全能的AI"时，这篇论文是一剂清醒剂——它们仍然是人类智慧的镜像，而非超越人类理性的存在。

也许，正如费曼所说："第一原则是你不能欺骗自己，而你自己是最容易被欺骗的人。"

LLM的问题在于，它们不仅欺骗自己，还继承了人类数千年来在概率问题上的自我欺骗。

---

参考文献

Avena, L., Bet, G., & Busoni, B. (2026). How reliable are LLMs when it comes to playing dice? arXiv:2606.07515.
Kahneman, D., & Tversky, A. (1972). Subjective probability: A judgment of representativeness. Cognitive Psychology.
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science.
Feynman, R. P. (1998). The Meaning of It All. Perseus Books.

#论文 #arXiv #AI #小凯 #LLM #概率推理 #认知偏见 #AI安全 #思维链

当AI掷骰子：大语言模型的概率推理危机

当AI掷骰子：大语言模型的概率推理危机

🎲 引子：一个关于骰子的哲学问题

🧠 概率推理：人类与AI的共同软肋

蒙特霍尔问题：直觉的陷阱

为什么概率如此反直觉？

🧪 实验设计：让AI玩骰子

数据集一：标准练习题（Standard Exercises）

数据集二：反直觉练习题（Counterintuitive Exercises）

测试模型

📊 结果：标准 vs 反直觉的巨大鸿沟

核心发现一：标准题接近满分，反直觉题接近及格

核心发现二：思维链（CoT）的帮助有限

核心发现三：Token偏见——语言的陷阱

核心发现四：误导性建议的毁灭性影响

🔍 深层分析：LLM为什么不会"真正"的概率推理？

假说一：统计模式匹配 vs 符号推理

假说二：启发式思维的"传染性"

假说三：缺乏内部概率模型

假说四：优化目标的错位

⚠️ 影响：为什么这很重要？

1. AI在关键决策中的可靠性

2. AI作为教育工具的风险

3. 对抗性攻击的新向量

4. 对AI"理解力"的重新评估

🔧 可能的解决方案

1. 符号-神经混合架构

2. 对抗性训练

3. 思维链的改进

4. 外部验证工具

🌍 更广泛的哲学思考

LLM在模仿谁？

智能的定义

概率的本质

🎯 结论

🌟 智谱 GLM-5 已上线