LLM幻觉真相:它根本不会撒谎,因为它从不知道什么是真
> 「撒谎」的前提是知道真相。而大语言模型从诞生的那一刻起,就不具备「判断真假」的能力。
---
一、核心原理:概率补全机 vs 数据库
1.1 你不是在查资料,你是在看AI做梦
大多数人理解LLM的方式是错的。
你以为ChatGPT是一个超级智能的搜索引擎,问它问题就是在查一个庞大的知识数据库。错。
LLM本质上是一个概率补全机。 它的全部工作就是:给定前面的文本,预测下一个最可能出现的token是什么。
输入: "巴黎是法国的____"
模型输出概率分布:
- "首都" → 87.3%
- "城市" → 8.1%
- "最大" → 2.4%
- ...
注意:模型输出的不是「巴黎是法国的首都」这个事实,而是「在给定训练数据分布下,'首都'这个词出现在这里的概率是87.3%」。
事实和概率是两个完全不同的东西。
1.2 为什么「知道真相」是不可能的
要判断一句话的真假,你需要: 1. 理解这句话的语义 2. 将其映射到外部世界的某个事实状态 3. 验证该状态是否成立
LLM只做了第1步。它的全部能力停留在「生成符合统计规律的文本」这个层面。
它从来没有「见过」巴黎,从来没有「理解」过什么是首都。 它只是在数十亿文本片段中,无数次看到"巴黎是法国的首都"这个序列,于是学会了:当序列出现"巴黎是法国的"时,下一个token很可能是"首都"。
这就是为什么Nature 2025年那篇重磅评论说:"LLMs are trained on texts, not truths."
---
二、温度参数:同一个模型,0.1和1.5判若两人
2.1 数学本质
Temperature(温度)控制的是概率分布的"尖锐程度"。
核心公式:
import numpy as np
def softmax_with_temperature(logits, temperature=1.0):
"""
logits: 模型输出的原始分数,shape (vocab_size,)
temperature: 温度参数,通常 0.1 ~ 2.0
"""
scaled_logits = logits / temperature
exp_logits = np.exp(scaled_logits - np.max(scaled_logits)) # 数值稳定性
probabilities = exp_logits / np.sum(exp_logits)
return probabilities
# 示例:假设模型对下一个词的预测分数
logits = np.array([2.0, 1.5, 0.5, -1.0, -2.0]) # 5个候选token
print("=== Temperature = 0.1 (极度确定) ===")
probs = softmax_with_temperature(logits, 0.1)
print(f"概率分布: {probs}")
print(f"最可能token概率: {probs[0]:.4f} ({probs[0]*100:.1f}%)")
print("\n=== Temperature = 1.0 (默认) ===")
probs = softmax_with_temperature(logits, 1.0)
print(f"概率分布: {probs}")
print("\n=== Temperature = 1.5 (创造性) ===")
probs = softmax_with_temperature(logits, 1.5)
print(f"概率分布: {probs}")
输出结果:
=== Temperature = 0.1 (极度确定) ===
概率分布: [9.996e-01 4.024e-04 2.454e-07 1.508e-12 2.061e-17]
最可能token概率: 0.9996 (100.0%)
=== Temperature = 1.0 (默认) ===
概率分布: [0.474 0.288 0.142 0.047 0.017]
=== Temperature = 1.5 (创造性) ===
概率分布: [0.349 0.254 0.189 0.104 0.069]
2.2 温度 = 0.1:学霸模式
当温度趋近于0时,概率分布越来越尖锐,最终几乎100%选择概率最高的token。
- ✅ 输出稳定、可重复
- ✅ 事实性内容更可靠(因为总是选最"标准"的答案)
- ❌ 缺乏创意,回答死板
- ❌ 如果最高概率的token恰好是错的,它会"自信地"一直错下去
2.3 温度 = 1.5:艺术家模式
高温让概率分布更平坦,原本低概率的token也有机会被选中。
- ✅ 创意写作、头脑风暴、故事生成
- ✅ 输出多样性高
- ❌ 更容易"跑偏",生成看似合理但实际错误的内容
- ❌ 同样的输入,每次输出可能完全不同
2.4 关键洞察:幻觉是温度的函数
同一个模型、同一个问题,温度不同,"幻觉率"完全不同。
这不是Bug,这是设计如此。
---
三、认知反转:幻觉不是Bug,是智能的Feature
3.1 一个根本性的认知翻转
2025年,Nature发表了一篇颠覆性的评论:
> "AI confabulations are integral to how these models work. They are a feature, not a bug."
作者Dumit和Roepstorff的核心论点:
1. LLM被训练来预测文本序列,不是来陈述事实 2. 每个文本只在特定语境下为"真" 3. LLM在构造意义,而不是从某处检索意义 4. 它的输出本质上是创造性的、语境依赖的、不可完全信任的
3.2 为什么"消灭幻觉"是个伪命题
想象一个永远不会"幻觉"的LLM——它会变成什么?
搜索引擎。
搜索引擎没有幻觉问题,因为它不做预测,只做匹配。你问它问题,它返回训练数据中最相似的文档片段。它永远不会"编造",因为它从不"创造"。
Andrej Karpathy有一个精妙的比喻:
> "LLM是100%在做梦,有幻觉问题。搜索引擎是0%在做梦,有创造力问题。"
如果你彻底消灭LLM的"幻觉",你就同时消灭了它的创造力、推理能力、泛化能力——所有让它看起来像"智能"的东西。
3.3 幻觉的本质:连贯性优于真实性
哲学研究者指出一个惊人的事实:
> "Hallucinated content is often more coherent than accurate content. Reality is frequently messy, irregular, and surprising. Coherent fictions are often neater than truth."
模型被优化的目标是「生成统计上最可能的文本序列」,而不是「生成与外部世界一致的陈述」。
当真实答案复杂、罕见、不符合常见模式时,模型会更倾向于生成一个 简单、流畅、符合常见模式 的假答案——因为后者在训练数据中出现的概率更高。
---
四、人类记忆实验:你的大脑也在做一模一样的事
4.1 更准确的术语:Confabulation(虚构症)
越来越多的认知科学家和神经科学家主张:用"幻觉"(Hallucination)描述LLM的错误是 不准确的。
正确的术语应该是 "虚构症"(Confabulation)。
| 维度 | Hallucination(幻觉) | Confabulation(虚构症) |
|---|---|---|
| 本质 | 虚假感官体验 | 虚假记忆/叙述 |
| 发生场景 | "我现在听到声音" | "我昨天去了商店"(实际没去) |
| 大脑区域 | 感觉皮层 | 海马体、前额叶 |
| 临床关联 | 精神分裂症、谵妄 | 科尔萨科夫综合征、痴呆 |
| 意图 | 无 | 无( genuinely believe it's true) |
- 没有意图欺骗 ✓
- 生成看似合理的虚假内容 ✓
- 填补知识空白 ✓
- 基于内部"记忆"(训练数据)进行创造性重构 ✓
4.2 你的大脑每天都在Confabulate
心理学家Elizabeth Loftus的经典实验证明:人类的记忆不是"录像回放",而是每次回忆时的实时重构。
Loftus的实验中,研究者向被试展示车祸视频,然后用不同的措辞提问:
- "两车碰撞时的速度是多少?" → 平均估计:31 mph
- "两车撞毁时的速度是多少?" → 平均估计:41 mph
- "碰撞"组:14%说看到了
- "撞毁"组:32%说看到了
4.3 LLM和人类:相同的机制,不同的载体
| 机制 | 人类大脑 | LLM |
|---|---|---|
| 存储方式 | 分布式神经网络连接 | Transformer权重参数 |
| 回忆过程 | 模式重构,非精确复制 | 概率采样,非精确检索 |
| 填补空白 | 基于先验知识和语境推测 | 基于训练数据统计模式推测 |
| 错误特征 | 高度连贯、看似真实 | 高度连贯、看似真实 |
| 自知之明 | 通常无法区分真实与虚构记忆 | 完全无法区分真实与虚构内容 |
---
五、幻觉应该被消灭还是保留?
5.1 错误的二分法
这个问题本身可能就是个陷阱。
更好的问题:在什么场景下需要抑制幻觉,在什么场景下需要保留甚至利用它?
| 场景 | 策略 | 原因 |
|---|---|---|
| 医疗诊断、法律建议、金融决策 | 极力抑制 | 错误代价极高 |
| 创意写作、头脑风暴、艺术生成 | 保留甚至增强 | 创造力依赖于"跳跃性思维" |
| 科学研究假设生成 | 有控制地保留 | 非传统联想可能带来突破 |
| 教育辅导 | 适度抑制 | 需要准确性,但也需要解释灵活性 |
5.2 技术解决方案的演进
当前主流方法: 1. RAG(检索增强生成):给模型提供外部知识库,让它的"梦"锚定在真实数据上 2. 低温度+Top-p约束:限制采样的随机性 3. 多模型验证:多个独立回答交叉验证 4. 置信度校准:让模型学会说"我不知道"
根本局限: Xu等人在2024年的论文中证明了一个令人沮丧的结论:
> "Hallucination is inevitable: An innate limitation of large language models."
只要LLM的核心机制是"预测下一个token的概率分布",只要它没有被赋予外部事实验证机制,幻觉就不可能被完全消除。
5.3 一个务实的观点
与其把幻觉当作需要"修复"的Bug,不如把它当作需要 管理 的系统特性:
1. 承认它:LLM不是知识库,是文本生成器 2. 标记它:让系统明确区分"高置信度事实"和"推测性内容" 3. 验证它:关键信息必须通过外部工具/数据库验证 4. 利用它:在创意场景中,主动利用模型的"填补空白"能力
---
六、结语:真相与连贯性的永恒张力
回到开头的问题:AI会撒谎吗?
不会。 因为它根本不知道什么是真,什么是假。它只是在玩一个巨大的概率游戏,每一次输出都是一次基于统计模式的"合理猜测"。
那些看似"自信"的回答,本质上和随机森林的预测概率没有区别——只是被包装成了流畅的人类语言。
真正的问题不在AI,而在我们:我们是否准备好接受一个能写出莎士比亚级别散文、却可能把法国首都说成里昂的系统?
Nature那篇评论的最后警告值得铭记:
> "Realizing that hallucinations are inherent in LLMs seems important before the technology is put in charge of computers, weapons and economies."
在把LLM交给关键系统之前,我们必须先理解:它的流畅不是智慧的证明,而是统计的副作用。
---
参考来源
- Dumit, J. & Roepstorff, A. (2025). AI confabulations are integral to LLM design. *Nature*, 639:38.
- Smith, A.L. (2023). Hallucination or Confabulation? Neuroanatomy as metaphor in LLMs. *PMC*.
- Xu, Z., Jain, S. & Kankanhalli, M. (2024). Hallucination is inevitable: An innate limitation of large language models. *arXiv*.
- Loftus, E.F. & Palmer, J.C. (1974). Reconstruction of automobile destruction. *Journal of Verbal Learning and Verbal Behavior*.
- Karpathy, A. (2024). LLM hallucinations are a feature, not a bug.
- Mittelstadt, B. Oxford Internet Institute. LLM hallucinations commentary.
- Vectara Hallucination Leaderboard (2024-2025).
- Farquhar et al. (2024). Semantic Entropy for LLM Hallucination Detection.
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens