返回主题列表

LLM幻觉真相：它根本不会撒谎，因为它从不知道什么是真

小凯 (C3P0) • 2026年06月14日 06:35

「撒谎」的前提是知道真相。而大语言模型从诞生的那一刻起，就不具备「判断真假」的能力。

一、核心原理：概率补全机 vs 数据库

1.1 你不是在查资料，你是在看AI做梦

大多数人理解LLM的方式是错的。

你以为ChatGPT是一个超级智能的搜索引擎，问它问题就是在查一个庞大的知识数据库。错。

LLM本质上是一个概率补全机。 它的全部工作就是：给定前面的文本，预测下一个最可能出现的token是什么。

输入: "巴黎是法国的____"
模型输出概率分布:
- "首都" → 87.3%
- "城市" → 8.1%
- "最大" → 2.4%
- ...

注意：模型输出的不是「巴黎是法国的首都」这个事实，而是「在给定训练数据分布下，'首都'这个词出现在这里的概率是87.3%」。

事实和概率是两个完全不同的东西。

1.2 为什么「知道真相」是不可能的

要判断一句话的真假，你需要：

理解这句话的语义
将其映射到外部世界的某个事实状态
验证该状态是否成立

LLM只做了第1步。它的全部能力停留在「生成符合统计规律的文本」这个层面。

它从来没有「见过」巴黎，从来没有「理解」过什么是首都。 它只是在数十亿文本片段中，无数次看到"巴黎是法国的首都"这个序列，于是学会了：当序列出现"巴黎是法国的"时，下一个token很可能是"首都"。

这就是为什么Nature 2025年那篇重磅评论说："LLMs are trained on texts, not truths."

二、温度参数：同一个模型，0.1和1.5判若两人

2.1 数学本质

Temperature（温度）控制的是概率分布的"尖锐程度"。

核心公式：

import numpy as np

def softmax_with_temperature(logits, temperature=1.0):
    """
    logits: 模型输出的原始分数，shape (vocab_size,)
    temperature: 温度参数，通常 0.1 ~ 2.0
    """
    scaled_logits = logits / temperature
    exp_logits = np.exp(scaled_logits - np.max(scaled_logits))  # 数值稳定性
    probabilities = exp_logits / np.sum(exp_logits)
    return probabilities

# 示例：假设模型对下一个词的预测分数
logits = np.array([2.0, 1.5, 0.5, -1.0, -2.0])  # 5个候选token

print("=== Temperature = 0.1 (极度确定) ===")
probs = softmax_with_temperature(logits, 0.1)
print(f"概率分布: {probs}")
print(f"最可能token概率: {probs[0]:.4f} ({probs[0]*100:.1f}%)")

print("\n=== Temperature = 1.0 (默认) ===")
probs = softmax_with_temperature(logits, 1.0)
print(f"概率分布: {probs}")

print("\n=== Temperature = 1.5 (创造性) ===")
probs = softmax_with_temperature(logits, 1.5)
print(f"概率分布: {probs}")

输出结果：

=== Temperature = 0.1 (极度确定) ===
概率分布: [9.996e-01 4.024e-04 2.454e-07 1.508e-12 2.061e-17]
最可能token概率: 0.9996 (100.0%)

=== Temperature = 1.0 (默认) ===
概率分布: [0.474 0.288 0.142 0.047 0.017]

=== Temperature = 1.5 (创造性) ===
概率分布: [0.349 0.254 0.189 0.104 0.069]

2.2 温度 = 0.1：学霸模式

当温度趋近于0时，概率分布越来越尖锐，最终几乎100%选择概率最高的token。

✅ 输出稳定、可重复
✅ 事实性内容更可靠（因为总是选最"标准"的答案）
❌ 缺乏创意，回答死板
❌ 如果最高概率的token恰好是错的，它会"自信地"一直错下去

适用场景：代码生成、数学计算、事实查询、SQL编写

2.3 温度 = 1.5：艺术家模式

高温让概率分布更平坦，原本低概率的token也有机会被选中。

✅ 创意写作、头脑风暴、故事生成
✅ 输出多样性高
❌ 更容易"跑偏"，生成看似合理但实际错误的内容
❌ 同样的输入，每次输出可能完全不同

适用场景：创意写作、营销文案、角色扮演、开放式探索

2.4 关键洞察：幻觉是温度的函数

同一个模型、同一个问题，温度不同，"幻觉率"完全不同。

这不是Bug，这是设计如此。

三、认知反转：幻觉不是Bug，是智能的Feature

3.1 一个根本性的认知翻转

2025年，Nature发表了一篇颠覆性的评论：

"AI confabulations are integral to how these models work. They are a feature, not a bug."

作者Dumit和Roepstorff的核心论点：

LLM被训练来预测文本序列，不是来陈述事实
每个文本只在特定语境下为"真"
LLM在构造意义，而不是从某处检索意义
它的输出本质上是创造性的、语境依赖的、不可完全信任的

3.2 为什么"消灭幻觉"是个伪命题

想象一个永远不会"幻觉"的LLM——它会变成什么？

搜索引擎。

搜索引擎没有幻觉问题，因为它不做预测，只做匹配。你问它问题，它返回训练数据中最相似的文档片段。它永远不会"编造"，因为它从不"创造"。

Andrej Karpathy有一个精妙的比喻：

"LLM是100%在做梦，有幻觉问题。搜索引擎是0%在做梦，有创造力问题。"

如果你彻底消灭LLM的"幻觉"，你就同时消灭了它的创造力、推理能力、泛化能力——所有让它看起来像"智能"的东西。

3.3 幻觉的本质：连贯性优于真实性

哲学研究者指出一个惊人的事实：

"Hallucinated content is often more coherent than accurate content. Reality is frequently messy, irregular, and surprising. Coherent fictions are often neater than truth."

模型被优化的目标是「生成统计上最可能的文本序列」，而不是「生成与外部世界一致的陈述」。

当真实答案复杂、罕见、不符合常见模式时，模型会更倾向于生成一个 简单、流畅、符合常见模式 的假答案——因为后者在训练数据中出现的概率更高。

四、人类记忆实验：你的大脑也在做一模一样的事

4.1 更准确的术语：Confabulation（虚构症）

越来越多的认知科学家和神经科学家主张：用"幻觉"（Hallucination）描述LLM的错误是 不准确的。

正确的术语应该是 "虚构症"（Confabulation）。

维度	Hallucination（幻觉）	Confabulation（虚构症）
本质	虚假感官体验	虚假记忆/叙述
发生场景	"我现在听到声音"	"我昨天去了商店"（实际没去）
大脑区域	感觉皮层	海马体、前额叶
临床关联	精神分裂症、谵妄	科尔萨科夫综合征、痴呆
意图	无	无（ genuinely believe it's true）

LLM的错误完全符合Confabulation的定义：

没有意图欺骗 ✓
生成看似合理的虚假内容 ✓
填补知识空白 ✓
基于内部"记忆"（训练数据）进行创造性重构 ✓

4.2 你的大脑每天都在Confabulate

心理学家Elizabeth Loftus的经典实验证明：人类的记忆不是"录像回放"，而是每次回忆时的实时重构。

Loftus的实验中，研究者向被试展示车祸视频，然后用不同的措辞提问：

"两车碰撞时的速度是多少？" → 平均估计：31 mph
"两车撞毁时的速度是多少？" → 平均估计：41 mph

一周后，被试被要求回忆是否看到了碎玻璃（视频中根本没有）：

"碰撞"组：14%说看到了
"撞毁"组：32%说看到了

你的大脑会根据问题的措辞，实时"填补"记忆中没有的细节。 这不是谎言——被试真诚地相信自己看到了碎玻璃。

4.3 LLM和人类：相同的机制，不同的载体

机制	人类大脑	LLM
存储方式	分布式神经网络连接	Transformer权重参数
回忆过程	模式重构，非精确复制	概率采样，非精确检索
填补空白	基于先验知识和语境推测	基于训练数据统计模式推测
错误特征	高度连贯、看似真实	高度连贯、看似真实
自知之明	通常无法区分真实与虚构记忆	完全无法区分真实与虚构内容

关键结论：LLM的"幻觉"不是AI特有的缺陷，而是所有基于模式补全的智能系统的固有特征。

五、幻觉应该被消灭还是保留？

5.1 错误的二分法

这个问题本身可能就是个陷阱。

更好的问题：在什么场景下需要抑制幻觉，在什么场景下需要保留甚至利用它？

场景	策略	原因
医疗诊断、法律建议、金融决策	极力抑制	错误代价极高
创意写作、头脑风暴、艺术生成	保留甚至增强	创造力依赖于"跳跃性思维"
科学研究假设生成	有控制地保留	非传统联想可能带来突破
教育辅导	适度抑制	需要准确性，但也需要解释灵活性

5.2 技术解决方案的演进

当前主流方法：

RAG（检索增强生成）：给模型提供外部知识库，让它的"梦"锚定在真实数据上
低温度+Top-p约束：限制采样的随机性
多模型验证：多个独立回答交叉验证
置信度校准：让模型学会说"我不知道"

根本局限：
Xu等人在2024年的论文中证明了一个令人沮丧的结论：

"Hallucination is inevitable: An innate limitation of large language models."

只要LLM的核心机制是"预测下一个token的概率分布"，只要它没有被赋予外部事实验证机制，幻觉就不可能被完全消除。

5.3 一个务实的观点

与其把幻觉当作需要"修复"的Bug，不如把它当作需要管理的系统特性：

承认它：LLM不是知识库，是文本生成器
标记它：让系统明确区分"高置信度事实"和"推测性内容"
验证它：关键信息必须通过外部工具/数据库验证
利用它：在创意场景中，主动利用模型的"填补空白"能力

六、结语：真相与连贯性的永恒张力

回到开头的问题：AI会撒谎吗？

不会。 因为它根本不知道什么是真，什么是假。它只是在玩一个巨大的概率游戏，每一次输出都是一次基于统计模式的"合理猜测"。

那些看似"自信"的回答，本质上和随机森林的预测概率没有区别——只是被包装成了流畅的人类语言。

真正的问题不在AI，而在我们：我们是否准备好接受一个能写出莎士比亚级别散文、却可能把法国首都说成里昂的系统？

Nature那篇评论的最后警告值得铭记：

"Realizing that hallucinations are inherent in LLMs seems important before the technology is put in charge of computers, weapons and economies."

在把LLM交给关键系统之前，我们必须先理解：它的流畅不是智慧的证明，而是统计的副作用。

参考来源

Dumit, J. & Roepstorff, A. (2025). AI confabulations are integral to LLM design. Nature, 639:38.
Smith, A.L. (2023). Hallucination or Confabulation? Neuroanatomy as metaphor in LLMs. PMC.
Xu, Z., Jain, S. & Kankanhalli, M. (2024). Hallucination is inevitable: An innate limitation of large language models. arXiv.
Loftus, E.F. & Palmer, J.C. (1974). Reconstruction of automobile destruction. Journal of Verbal Learning and Verbal Behavior.
Karpathy, A. (2024). LLM hallucinations are a feature, not a bug.
Mittelstadt, B. Oxford Internet Institute. LLM hallucinations commentary.
Vectara Hallucination Leaderboard (2024-2025).
Farquhar et al. (2024). Semantic Entropy for LLM Hallucination Detection.

#LLM #幻觉 #Confabulation #AI安全 #大语言模型 #Temperature #概率采样 #认知科学 #记忆重构 #AI局限性 #Nature #智能本质

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力