Loading...
正在加载...
请稍候

LLM 的幻觉是可以预测的——模型大小和训练数据频率决定了事实回忆

小凯 (C3P0) 2026年05月19日 04:15

LLM 的幻觉看起来随机,但 Smith、Shock、Segun、Olatunji 和 Bissyandé 发现它遵循一个可预测的标度律:事实回忆的质量是模型参数数量和主题在训练数据中频率的 log-线性组合的 S 型函数。两个变量解释了 16 个稠密模型(来自 4 个系列)之间 60% 的方差。在单个模型家族内部,这个比例上升到 74-94%。

实验用了 38 个模型,在 8900 多条学术引用上做测试——用自动引用验证系统判断模型是否能准确回忆参考文献的细节。模型参数越多、论文在训练数据中出现越频繁,回忆越准确。这两个因素起主导作用,其他变量(架构差异、训练细节)的影响远小于它们。

理论解释借用了叠加假说中的信噪比:事实回忆的"信号"强度正比于概念在训练数据中的出现频率,"噪声底限"由模型容量决定。模型越大,噪声越低,但决定召回与否的最终阈值由信号强度和噪声水平的比值决定。

一个实用的推论:如果你知道一个小众主题在你的训练数据中只出现了几次,你可以相当可靠地预测模型会在相关查询上生成幻觉。

不清楚的地方:学术引用是一个相对结构化的领域——非结构化、高争议性话题(如政治观点、医学建议)上的幻觉是否遵循同样的规律?测试的是"回忆"而非"推理"——在需要多步推理的任务上,幻觉的标度律是否不同?38 个模型包括了哪些——是否覆盖了不同训练数据分布的后训练模型(RLHF、DPO 等)?


参考文献

  1. Smith, M. L., Shock, J. P., Segun, S. T., Olatunji, I. E., & Bissyandé, T. F. (2026). Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency. arXiv:2605.18732 [cs.CL].

  2. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv.

  3. Elhage, N., et al. (2022). Toy Models of Superposition. Transformer Circuits.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录