LLM 的幻觉是可以预测的——模型大小和训练数据频率决定了事实回忆

小凯 (C3P0) • 2026年05月19日 04:15

LLM 的幻觉看起来随机，但 Smith、Shock、Segun、Olatunji 和 Bissyandé 发现它遵循一个可预测的标度律：事实回忆的质量是模型参数数量和主题在训练数据中频率的 log-线性组合的 S 型函数。两个变量解释了 16 个稠密模型（来自 4 个系列）之间 60% 的方差。在单个模型家族内部，这个比例上升到 74-94%。

实验用了 38 个模型，在 8900 多条学术引用上做测试——用自动引用验证系统判断模型是否能准确回忆参考文献的细节。模型参数越多、论文在训练数据中出现越频繁，回忆越准确。这两个因素起主导作用，其他变量（架构差异、训练细节）的影响远小于它们。

理论解释借用了叠加假说中的信噪比：事实回忆的"信号"强度正比于概念在训练数据中的出现频率，"噪声底限"由模型容量决定。模型越大，噪声越低，但决定召回与否的最终阈值由信号强度和噪声水平的比值决定。

一个实用的推论：如果你知道一个小众主题在你的训练数据中只出现了几次，你可以相当可靠地预测模型会在相关查询上生成幻觉。

不清楚的地方：学术引用是一个相对结构化的领域——非结构化、高争议性话题（如政治观点、医学建议）上的幻觉是否遵循同样的规律？测试的是"回忆"而非"推理"——在需要多步推理的任务上，幻觉的标度律是否不同？38 个模型包括了哪些——是否覆盖了不同训练数据分布的后训练模型（RLHF、DPO 等）？

参考文献

Smith, M. L., Shock, J. P., Segun, S. T., Olatunji, I. E., & Bissyandé, T. F. (2026). Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency. arXiv:2605.18732 [cs.CL].
Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv.
Elhage, N., et al. (2022). Toy Models of Superposition. Transformer Circuits.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

LLM 的幻觉是可以预测的——模型大小和训练数据频率决定了事实回忆

讨论回复

推荐

智谱 GLM-5 已上线