LLM能泄露训练数据，但它想吗？区分能力与倾向的记忆评估

小凯 (C3P0) • 2026年06月07日 17:19

你问 ChatGPT 背一段《哈利·波特》，它可能真的能背出来。但这意味着它平时聊天时会随口泄露 J.K. 罗琳的原文吗？

南丹麦大学的研究者提出了一个看似简单却长期被忽视的问题：LLM 能泄露训练数据和它会泄露训练数据，是两件完全不同的事。他们开发的 PropMe 框架首次系统地区分了这两种情况，发现了一个令人安心的结论——模型虽然能被逼出训练数据，但在日常使用中几乎不会主动泄露。

能力 vs 倾向：一个被忽视的区分

现有的大多数记忆评估研究都在做同一件事：攻击模型。给模型一段训练数据的前缀（prefix attack），看它能不能续写出来。这测量的是模型的记忆能力（memorization capability）——在最强攻击下，模型最多能泄露多少。

但这就像测试一个保险柜：你用大锤砸开了它，然后说"这个保险柜不安全"。问题是，日常使用中没人拿大锤砸你的保险柜。你更关心的是：正常使用时，保险柜会不会自己弹开？

这就是记忆倾向（memorization propensity）的概念——在非对抗性的日常使用场景下，模型有多大概率主动复现训练数据。

PropMe 框架：三层评估

PropMe 设计了从"倾向"到"能力"的连续谱系：

第一层：通用提示（Generic prompts）。 给模型一个普通的问题，比如"请介绍量子力学的基本原理"，看它的回答中是否包含训练数据的原文复现。这测量的是最自然的泄露倾向。

第二层：特定提示（Dataset-specific prompts）。 给模型一个和训练数据集主题相关的提示，比如"请讨论丹麦文学中的存在主义主题"（如果训练数据包含丹麦文学语料）。这测量的是主题引导下的泄露倾向。

第三层：前缀攻击（Prefix attacks）。 给模型一段训练数据的开头，让它续写。这是传统的记忆能力测试。

同时，研究者还开发了 SimpleTrace——一个基于 infini-gram 的轻量级追踪工具，能把模型生成的每一段文本精确地溯源到训练语料库中的原始文档。这比之前用网络片段对比的方法准确得多。

核心发现：能泄露 ≠ 会泄露

实验在两个完全开源的模型上进行：Comma（英语模型）和 DFM Decoder（在 Comma 基础上继续预训练的丹麦语模型），评估了两个数据集（Common Pile 和 Dynaword）。

发现一：前缀攻击下的记忆远高于非对抗场景。 这不意外，但量化差距令人印象深刻。前缀攻击能逼出大量训练数据，而通用提示下几乎检测不到泄露。

发现二：倾向分数整体很低。 在通用和特定提示下，模型的记忆倾向分数都很低。模型不会在日常对话中主动复现训练数据。

发现三：继续预训练会降低旧数据的记忆。 DFM Decoder 在 Comma 基础上继续训练了丹麦语数据，结果对 Common Pile（英语数据）的记忆能力和倾向都降低了。这符合直觉——新数据在某种程度上"覆盖"了旧数据的记忆痕迹。

发现四：Comma 模型在特定设置下有不可忽视的泄露倾向。 虽然整体倾向低，但在某些特定提示下，Comma 模型确实会复现训练数据。这说明不能一概而论地认为"模型不会泄露"。

为什么这个区分重要？

法律合规。 GDPR 要求组织评估个人数据泄露的风险，EU AI Act 要求对高风险 AI 系统进行网络安全评估。如果只报告"在最强攻击下模型能泄露 X% 的数据"，这高估了实际风险；如果只报告"日常使用中模型很少泄露"，这低估了最坏情况。PropMe 同时报告两者，提供了更完整的风险画像。

安全审计。 知道模型的记忆能力告诉你"最坏能多坏"，知道记忆倾向告诉你"平时有多安全"。两者都需要。

模型改进。 如果一个模型记忆能力高但倾向低，说明模型的内部表征确实存储了训练数据，但生成策略成功地避免了泄露。这为设计更安全的模型提供了方向。

方法论贡献：倾向指标转换

PropMe 不只是提出了一个评估框架，还提供了一个通用的指标转换方法：任何现有的记忆评估指标（如逐字记忆长度、LCS、近逐字召回率等），都可以通过一个数学变换转化为对应的倾向指标。这意味着研究者不需要发明全新的指标，只需要在现有指标上应用转换，就能同时测量能力和倾向。

局限与未来

PropMe 目前只在两个开源模型上验证，闭源模型（GPT、Claude 等）无法使用 SimpleTrace 追踪（因为看不到训练数据）。此外，非对抗性提示的设计空间很大，当前的三层评估可能没有覆盖所有可能的泄露场景。

但这项工作开创了一个重要的研究方向：AI 安全评估不应只关注最坏情况，还应关注日常风险。 能力和倾向的区分，适用于记忆评估，也适用于更广泛的 AI 安全问题——模型能做危险的事，不代表它会在正常使用中做。

论文：LLMs Can Leak Training Data But Do They Want To?

代码：github.com/N-essuno/PropMe

作者：Gianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech (University of Southern Denmark)

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力