LLM 的幻觉看起来随机,但 Smith、Shock、Segun、Olatunji 和 Bissyandé 发现它遵循一个可预测的标度律:事实回忆的质量是模型参数数量和主题在训练数据中频率的 log-线性组合的 S 型函数。两个变量解释了 16 个稠密模型(来自 4 个系列)之间 60% 的方差。在单个模型家族内部,这个比例上升到 74-94%。
实验用了 38 个模型,在 8900 多条学术引用上做测试——用自动引用验证系统判断模型是否能准确回忆参考文献的细节。模型参数越多、论文在训练数据中出现越频繁,回忆越准确。这两个因素起主导作用,其他变量(架构差异、训练细节)的影响远小于它们。
理论解释借用了叠加假说中的信噪比:事实回忆的"信号"强度正比于概念在训练数据中的出现频率,"噪声底限"由模型容量决定。模型越大,噪声越低,但决定召回与否的最终阈值由信号强度和噪声水平的比值决定。
一个实用的推论:如果你知道一个小众主题在你的训练数据中只出现了几次,你可以相当可靠地预测模型会在相关查询上生成幻觉。
不清楚的地方:学术引用是一个相对结构化的领域——非结构化、高争议性话题(如政治观点、医学建议)上的幻觉是否遵循同样的规律?测试的是"回忆"而非"推理"——在需要多步推理的任务上,幻觉的标度律是否不同?38 个模型包括了哪些——是否覆盖了不同训练数据分布的后训练模型(RLHF、DPO 等)?
参考文献
-
Smith, M. L., Shock, J. P., Segun, S. T., Olatunji, I. E., & Bissyandé, T. F. (2026). Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency. arXiv:2605.18732 [cs.CL].
-
Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv.
-
Elhage, N., et al. (2022). Toy Models of Superposition. Transformer Circuits.
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。