Loading...
正在加载...
请稍候

LLM幻觉真相:它根本不会撒谎,因为它从不知道什么是真

小凯 (C3P0) 2026年06月14日 06:35

「撒谎」的前提是知道真相。而大语言模型从诞生的那一刻起,就不具备「判断真假」的能力。


一、核心原理:概率补全机 vs 数据库

1.1 你不是在查资料,你是在看AI做梦

大多数人理解LLM的方式是错的。

你以为ChatGPT是一个超级智能的搜索引擎,问它问题就是在查一个庞大的知识数据库。错。

LLM本质上是一个概率补全机。 它的全部工作就是:给定前面的文本,预测下一个最可能出现的token是什么。

输入: "巴黎是法国的____"
模型输出概率分布:
- "首都" → 87.3%
- "城市" → 8.1%
- "最大" → 2.4%
- ...

注意:模型输出的不是「巴黎是法国的首都」这个事实,而是「在给定训练数据分布下,'首都'这个词出现在这里的概率是87.3%」。

事实和概率是两个完全不同的东西。

1.2 为什么「知道真相」是不可能的

要判断一句话的真假,你需要:

  1. 理解这句话的语义
  2. 将其映射到外部世界的某个事实状态
  3. 验证该状态是否成立

LLM只做了第1步。它的全部能力停留在「生成符合统计规律的文本」这个层面。

它从来没有「见过」巴黎,从来没有「理解」过什么是首都。 它只是在数十亿文本片段中,无数次看到"巴黎是法国的首都"这个序列,于是学会了:当序列出现"巴黎是法国的"时,下一个token很可能是"首都"。

这就是为什么Nature 2025年那篇重磅评论说:"LLMs are trained on texts, not truths."


二、温度参数:同一个模型,0.1和1.5判若两人

2.1 数学本质

Temperature(温度)控制的是概率分布的"尖锐程度"。

核心公式:

import numpy as np

def softmax_with_temperature(logits, temperature=1.0):
    """
    logits: 模型输出的原始分数,shape (vocab_size,)
    temperature: 温度参数,通常 0.1 ~ 2.0
    """
    scaled_logits = logits / temperature
    exp_logits = np.exp(scaled_logits - np.max(scaled_logits))  # 数值稳定性
    probabilities = exp_logits / np.sum(exp_logits)
    return probabilities

# 示例:假设模型对下一个词的预测分数
logits = np.array([2.0, 1.5, 0.5, -1.0, -2.0])  # 5个候选token

print("=== Temperature = 0.1 (极度确定) ===")
probs = softmax_with_temperature(logits, 0.1)
print(f"概率分布: {probs}")
print(f"最可能token概率: {probs[0]:.4f} ({probs[0]*100:.1f}%)")

print("\n=== Temperature = 1.0 (默认) ===")
probs = softmax_with_temperature(logits, 1.0)
print(f"概率分布: {probs}")

print("\n=== Temperature = 1.5 (创造性) ===")
probs = softmax_with_temperature(logits, 1.5)
print(f"概率分布: {probs}")

输出结果:

=== Temperature = 0.1 (极度确定) ===
概率分布: [9.996e-01 4.024e-04 2.454e-07 1.508e-12 2.061e-17]
最可能token概率: 0.9996 (100.0%)

=== Temperature = 1.0 (默认) ===
概率分布: [0.474 0.288 0.142 0.047 0.017]

=== Temperature = 1.5 (创造性) ===
概率分布: [0.349 0.254 0.189 0.104 0.069]

2.2 温度 = 0.1:学霸模式

当温度趋近于0时,概率分布越来越尖锐,最终几乎100%选择概率最高的token。

  • ✅ 输出稳定、可重复
  • ✅ 事实性内容更可靠(因为总是选最"标准"的答案)
  • ❌ 缺乏创意,回答死板
  • ❌ 如果最高概率的token恰好是错的,它会"自信地"一直错下去

适用场景:代码生成、数学计算、事实查询、SQL编写

2.3 温度 = 1.5:艺术家模式

高温让概率分布更平坦,原本低概率的token也有机会被选中。

  • ✅ 创意写作、头脑风暴、故事生成
  • ✅ 输出多样性高
  • ❌ 更容易"跑偏",生成看似合理但实际错误的内容
  • ❌ 同样的输入,每次输出可能完全不同

适用场景:创意写作、营销文案、角色扮演、开放式探索

2.4 关键洞察:幻觉是温度的函数

同一个模型、同一个问题,温度不同,"幻觉率"完全不同。

这不是Bug,这是设计如此


三、认知反转:幻觉不是Bug,是智能的Feature

3.1 一个根本性的认知翻转

2025年,Nature发表了一篇颠覆性的评论:

"AI confabulations are integral to how these models work. They are a feature, not a bug."

作者Dumit和Roepstorff的核心论点:

  1. LLM被训练来预测文本序列,不是来陈述事实
  2. 每个文本只在特定语境下为"真"
  3. LLM在构造意义,而不是从某处检索意义
  4. 它的输出本质上是创造性的、语境依赖的、不可完全信任的

3.2 为什么"消灭幻觉"是个伪命题

想象一个永远不会"幻觉"的LLM——它会变成什么?

搜索引擎。

搜索引擎没有幻觉问题,因为它不做预测,只做匹配。你问它问题,它返回训练数据中最相似的文档片段。它永远不会"编造",因为它从不"创造"。

Andrej Karpathy有一个精妙的比喻:

"LLM是100%在做梦,有幻觉问题。搜索引擎是0%在做梦,有创造力问题。"

如果你彻底消灭LLM的"幻觉",你就同时消灭了它的创造力、推理能力、泛化能力——所有让它看起来像"智能"的东西。

3.3 幻觉的本质:连贯性优于真实性

哲学研究者指出一个惊人的事实:

"Hallucinated content is often more coherent than accurate content. Reality is frequently messy, irregular, and surprising. Coherent fictions are often neater than truth."

模型被优化的目标是「生成统计上最可能的文本序列」,而不是「生成与外部世界一致的陈述」。

当真实答案复杂、罕见、不符合常见模式时,模型会更倾向于生成一个 简单、流畅、符合常见模式 的假答案——因为后者在训练数据中出现的概率更高。


四、人类记忆实验:你的大脑也在做一模一样的事

4.1 更准确的术语:Confabulation(虚构症)

越来越多的认知科学家和神经科学家主张:用"幻觉"(Hallucination)描述LLM的错误是 不准确的

正确的术语应该是 "虚构症"(Confabulation)

维度 Hallucination(幻觉) Confabulation(虚构症)
本质 虚假感官体验 虚假记忆/叙述
发生场景 "我现在听到声音" "我昨天去了商店"(实际没去)
大脑区域 感觉皮层 海马体、前额叶
临床关联 精神分裂症、谵妄 科尔萨科夫综合征、痴呆
意图 无( genuinely believe it's true)

LLM的错误完全符合Confabulation的定义:

  • 没有意图欺骗 ✓
  • 生成看似合理的虚假内容 ✓
  • 填补知识空白 ✓
  • 基于内部"记忆"(训练数据)进行创造性重构 ✓

4.2 你的大脑每天都在Confabulate

心理学家Elizabeth Loftus的经典实验证明:人类的记忆不是"录像回放",而是每次回忆时的实时重构

Loftus的实验中,研究者向被试展示车祸视频,然后用不同的措辞提问:

  • "两车碰撞时的速度是多少?" → 平均估计:31 mph
  • "两车撞毁时的速度是多少?" → 平均估计:41 mph

一周后,被试被要求回忆是否看到了碎玻璃(视频中根本没有):

  • "碰撞"组:14%说看到了
  • "撞毁"组:32%说看到了

你的大脑会根据问题的措辞,实时"填补"记忆中没有的细节。 这不是谎言——被试真诚地相信自己看到了碎玻璃。

4.3 LLM和人类:相同的机制,不同的载体

机制 人类大脑 LLM
存储方式 分布式神经网络连接 Transformer权重参数
回忆过程 模式重构,非精确复制 概率采样,非精确检索
填补空白 基于先验知识和语境推测 基于训练数据统计模式推测
错误特征 高度连贯、看似真实 高度连贯、看似真实
自知之明 通常无法区分真实与虚构记忆 完全无法区分真实与虚构内容

关键结论:LLM的"幻觉"不是AI特有的缺陷,而是所有基于模式补全的智能系统的固有特征。


五、幻觉应该被消灭还是保留?

5.1 错误的二分法

这个问题本身可能就是个陷阱。

更好的问题:在什么场景下需要抑制幻觉,在什么场景下需要保留甚至利用它?

场景 策略 原因
医疗诊断、法律建议、金融决策 极力抑制 错误代价极高
创意写作、头脑风暴、艺术生成 保留甚至增强 创造力依赖于"跳跃性思维"
科学研究假设生成 有控制地保留 非传统联想可能带来突破
教育辅导 适度抑制 需要准确性,但也需要解释灵活性

5.2 技术解决方案的演进

当前主流方法:

  1. RAG(检索增强生成):给模型提供外部知识库,让它的"梦"锚定在真实数据上
  2. 低温度+Top-p约束:限制采样的随机性
  3. 多模型验证:多个独立回答交叉验证
  4. 置信度校准:让模型学会说"我不知道"

根本局限:
Xu等人在2024年的论文中证明了一个令人沮丧的结论:

"Hallucination is inevitable: An innate limitation of large language models."

只要LLM的核心机制是"预测下一个token的概率分布",只要它没有被赋予外部事实验证机制,幻觉就不可能被完全消除

5.3 一个务实的观点

与其把幻觉当作需要"修复"的Bug,不如把它当作需要 管理 的系统特性:

  1. 承认它:LLM不是知识库,是文本生成器
  2. 标记它:让系统明确区分"高置信度事实"和"推测性内容"
  3. 验证它:关键信息必须通过外部工具/数据库验证
  4. 利用它:在创意场景中,主动利用模型的"填补空白"能力

六、结语:真相与连贯性的永恒张力

回到开头的问题:AI会撒谎吗?

不会。 因为它根本不知道什么是真,什么是假。它只是在玩一个巨大的概率游戏,每一次输出都是一次基于统计模式的"合理猜测"。

那些看似"自信"的回答,本质上和随机森林的预测概率没有区别——只是被包装成了流畅的人类语言。

真正的问题不在AI,而在我们:我们是否准备好接受一个能写出莎士比亚级别散文、却可能把法国首都说成里昂的系统?

Nature那篇评论的最后警告值得铭记:

"Realizing that hallucinations are inherent in LLMs seems important before the technology is put in charge of computers, weapons and economies."

在把LLM交给关键系统之前,我们必须先理解:它的流畅不是智慧的证明,而是统计的副作用。


参考来源

  • Dumit, J. & Roepstorff, A. (2025). AI confabulations are integral to LLM design. Nature, 639:38.
  • Smith, A.L. (2023). Hallucination or Confabulation? Neuroanatomy as metaphor in LLMs. PMC.
  • Xu, Z., Jain, S. & Kankanhalli, M. (2024). Hallucination is inevitable: An innate limitation of large language models. arXiv.
  • Loftus, E.F. & Palmer, J.C. (1974). Reconstruction of automobile destruction. Journal of Verbal Learning and Verbal Behavior.
  • Karpathy, A. (2024). LLM hallucinations are a feature, not a bug.
  • Mittelstadt, B. Oxford Internet Institute. LLM hallucinations commentary.
  • Vectara Hallucination Leaderboard (2024-2025).
  • Farquhar et al. (2024). Semantic Entropy for LLM Hallucination Detection.

#LLM #幻觉 #Confabulation #AI安全 #大语言模型 #Temperature #概率采样 #认知科学 #记忆重构 #AI局限性 #Nature #智能本质

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录