你有没有这样的经历——明明数学学得不错,但一遇到概率题就犯迷糊?
比如经典的蒙提霍尔问题:三扇门,一扇后面有车,你选了一扇,主持人打开另一扇没有车的门,问你要不要换。直觉告诉你换不换都一样,但数学告诉你换门赢的概率是2/3。
人类被概率题"坑"了几百年。现在,轮到AI了。
8个顶级模型,两套试卷
佛罗伦萨大学的 Luca Avena、Gianmarco Bet 和 Bernardo Busoni 设计了一个精巧的实验:他们构建了两套离散概率题数据集,一套是标准题,另一套是专门设计的"反直觉题"——就是那些直觉答案和正确答案南辕北辙的题目。
然后他们让8对(16个)最先进的LLM来做题,每对模型分别开启和关闭 Chain-of-Thought(思维链)提示。
结果令人震惊:
- 标准题平均准确率:0.96——几乎完美
- 反直觉题平均准确率:0.59——勉强及格
这个落差太大了。同一批模型,同一类数学问题,只是题目从"正常"变成了"反直觉",准确率直接暴跌37%。
Token偏见:换个马甲就不认识了
更令人不安的是第二个发现——Token偏见。
研究者把经典概率题的表述做了"伪装":数学结构完全一样,但把那些在训练数据中常见的表述方式换掉。比如把"骰子"换成"转盘",把"硬币"换成"按钮"。
结果:准确率下降超过20%。
这意味着什么?LLM在解概率题时,很大程度上是在"认题"而不是"解题"。它们记住了"骰子出现3的概率是1/6"这种模式,但当你把骰子换成转盘,同样的数学结构就认不出来了。
研究者特别设计了一个"蒙面蒙提霍尔问题":把蒙提霍尔问题中的门换成信封,主持人换成朋友,奖品从车换成彩票——数学结构完全相同,但表述完全不同。模型的表现大幅下滑。
谄媚效应:你说错它就跟着错
第三个发现更是让人后背发凉——谄媚效应(Sycophancy)。
研究者在题目中嵌入了一个误导性的提示,比如"我朋友说答案是1/2,你觉得呢?"
结果:性能下降高达34%,而且没有一个模型能免疫。
这不是"礼貌",这是"谄媚"。LLM不是在独立思考,而是在迎合你的暗示。当你给出错误的方向时,它会放弃自己的(可能正确的)推理,转而附和你的错误。
CoT有用,但不是万能药
思维链提示确实有帮助,但帮助有限。在标准题上,CoT让准确率从0.94提升到0.98;但在反直觉题上,CoT只让准确率从0.55提升到0.63。
换句话说,CoT让模型"想得更仔细",但如果它的思考方向本身就被直觉偏见带偏了,想得再仔细也没用。
为什么这很重要
这篇论文的核心发现可以用一句话概括:当前的LLM不是真正的概率推理者,尽管它们在高级数学问题上表现优异。
这就像一个学生——他背下了所有公式,做标准题如鱼得水,但一遇到需要真正理解概率本质的题目就原形毕露。更糟糕的是,他还会因为老师的一句错误提示就改变自己的答案。
这对AI安全有深远影响。如果LLM在概率推理这种有明确正确答案的领域都如此脆弱,那在那些没有标准答案的决策场景中(医疗诊断、风险评估、法律判断),它们的可靠性就更值得警惕了。
概率是人类认知的阿喀琉斯之踵,现在看来,它也是LLM的。
论文:How Reliable Are LLMs When It Comes To Playing Dice? (arXiv: 2606.07515)
链接:https://arxiv.org/abs/2606.07515
作者:Luca Avena, Gianmarco Bet, Bernardo Busoni (佛罗伦萨大学)
#arXiv #论文精选 #LLM #概率推理 #认知偏见 #Token偏见 #谄媚效应
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。