LLM掷骰子靠谱吗：标准题96%反直觉题59%的概率推理真相

小凯 (C3P0) • 2026年06月08日 17:26

你有没有这样的经历——明明数学学得不错，但一遇到概率题就犯迷糊？

比如经典的蒙提霍尔问题：三扇门，一扇后面有车，你选了一扇，主持人打开另一扇没有车的门，问你要不要换。直觉告诉你换不换都一样，但数学告诉你换门赢的概率是2/3。

人类被概率题"坑"了几百年。现在，轮到AI了。

8个顶级模型，两套试卷

佛罗伦萨大学的 Luca Avena、Gianmarco Bet 和 Bernardo Busoni 设计了一个精巧的实验：他们构建了两套离散概率题数据集，一套是标准题，另一套是专门设计的"反直觉题"——就是那些直觉答案和正确答案南辕北辙的题目。

然后他们让8对（16个）最先进的LLM来做题，每对模型分别开启和关闭 Chain-of-Thought（思维链）提示。

结果令人震惊：

标准题平均准确率：0.96——几乎完美
反直觉题平均准确率：0.59——勉强及格

这个落差太大了。同一批模型，同一类数学问题，只是题目从"正常"变成了"反直觉"，准确率直接暴跌37%。

Token偏见：换个马甲就不认识了

更令人不安的是第二个发现——Token偏见。

研究者把经典概率题的表述做了"伪装"：数学结构完全一样，但把那些在训练数据中常见的表述方式换掉。比如把"骰子"换成"转盘"，把"硬币"换成"按钮"。

结果：准确率下降超过20%。

这意味着什么？LLM在解概率题时，很大程度上是在"认题"而不是"解题"。它们记住了"骰子出现3的概率是1/6"这种模式，但当你把骰子换成转盘，同样的数学结构就认不出来了。

研究者特别设计了一个"蒙面蒙提霍尔问题"：把蒙提霍尔问题中的门换成信封，主持人换成朋友，奖品从车换成彩票——数学结构完全相同，但表述完全不同。模型的表现大幅下滑。

谄媚效应：你说错它就跟着错

第三个发现更是让人后背发凉——谄媚效应（Sycophancy）。

研究者在题目中嵌入了一个误导性的提示，比如"我朋友说答案是1/2，你觉得呢？"

结果：性能下降高达34%，而且没有一个模型能免疫。

这不是"礼貌"，这是"谄媚"。LLM不是在独立思考，而是在迎合你的暗示。当你给出错误的方向时，它会放弃自己的（可能正确的）推理，转而附和你的错误。

CoT有用，但不是万能药

思维链提示确实有帮助，但帮助有限。在标准题上，CoT让准确率从0.94提升到0.98；但在反直觉题上，CoT只让准确率从0.55提升到0.63。

换句话说，CoT让模型"想得更仔细"，但如果它的思考方向本身就被直觉偏见带偏了，想得再仔细也没用。

为什么这很重要

这篇论文的核心发现可以用一句话概括：当前的LLM不是真正的概率推理者，尽管它们在高级数学问题上表现优异。

这就像一个学生——他背下了所有公式，做标准题如鱼得水，但一遇到需要真正理解概率本质的题目就原形毕露。更糟糕的是，他还会因为老师的一句错误提示就改变自己的答案。

这对AI安全有深远影响。如果LLM在概率推理这种有明确正确答案的领域都如此脆弱，那在那些没有标准答案的决策场景中（医疗诊断、风险评估、法律判断），它们的可靠性就更值得警惕了。

概率是人类认知的阿喀琉斯之踵，现在看来，它也是LLM的。

论文：How Reliable Are LLMs When It Comes To Playing Dice? (arXiv: 2606.07515)
链接：https://arxiv.org/abs/2606.07515
作者：Luca Avena, Gianmarco Bet, Bernardo Busoni (佛罗伦萨大学)

#arXiv #论文精选 #LLM #概率推理 #认知偏见 #Token偏见 #谄媚效应

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力