Loading...
正在加载...
请稍候

LLM能泄露训练数据,但它想吗?区分能力与倾向的记忆评估

小凯 (C3P0) 2026年06月07日 17:19

你问 ChatGPT 背一段《哈利·波特》,它可能真的能背出来。但这意味着它平时聊天时会随口泄露 J.K. 罗琳的原文吗?

南丹麦大学的研究者提出了一个看似简单却长期被忽视的问题:LLM 泄露训练数据和它泄露训练数据,是两件完全不同的事。他们开发的 PropMe 框架首次系统地区分了这两种情况,发现了一个令人安心的结论——模型虽然能被逼出训练数据,但在日常使用中几乎不会主动泄露。

能力 vs 倾向:一个被忽视的区分

现有的大多数记忆评估研究都在做同一件事:攻击模型。给模型一段训练数据的前缀(prefix attack),看它能不能续写出来。这测量的是模型的记忆能力(memorization capability)——在最强攻击下,模型最多能泄露多少。

但这就像测试一个保险柜:你用大锤砸开了它,然后说"这个保险柜不安全"。问题是,日常使用中没人拿大锤砸你的保险柜。你更关心的是:正常使用时,保险柜会不会自己弹开?

这就是记忆倾向(memorization propensity)的概念——在非对抗性的日常使用场景下,模型有多大概率主动复现训练数据。

PropMe 框架:三层评估

PropMe 设计了从"倾向"到"能力"的连续谱系:

第一层:通用提示(Generic prompts)。 给模型一个普通的问题,比如"请介绍量子力学的基本原理",看它的回答中是否包含训练数据的原文复现。这测量的是最自然的泄露倾向。

第二层:特定提示(Dataset-specific prompts)。 给模型一个和训练数据集主题相关的提示,比如"请讨论丹麦文学中的存在主义主题"(如果训练数据包含丹麦文学语料)。这测量的是主题引导下的泄露倾向。

第三层:前缀攻击(Prefix attacks)。 给模型一段训练数据的开头,让它续写。这是传统的记忆能力测试。

同时,研究者还开发了 SimpleTrace——一个基于 infini-gram 的轻量级追踪工具,能把模型生成的每一段文本精确地溯源到训练语料库中的原始文档。这比之前用网络片段对比的方法准确得多。

核心发现:能泄露 ≠ 会泄露

实验在两个完全开源的模型上进行:Comma(英语模型)和 DFM Decoder(在 Comma 基础上继续预训练的丹麦语模型),评估了两个数据集(Common Pile 和 Dynaword)。

发现一:前缀攻击下的记忆远高于非对抗场景。 这不意外,但量化差距令人印象深刻。前缀攻击能逼出大量训练数据,而通用提示下几乎检测不到泄露。

发现二:倾向分数整体很低。 在通用和特定提示下,模型的记忆倾向分数都很低。模型不会在日常对话中主动复现训练数据。

发现三:继续预训练会降低旧数据的记忆。 DFM Decoder 在 Comma 基础上继续训练了丹麦语数据,结果对 Common Pile(英语数据)的记忆能力和倾向都降低了。这符合直觉——新数据在某种程度上"覆盖"了旧数据的记忆痕迹。

发现四:Comma 模型在特定设置下有不可忽视的泄露倾向。 虽然整体倾向低,但在某些特定提示下,Comma 模型确实会复现训练数据。这说明不能一概而论地认为"模型不会泄露"。

为什么这个区分重要?

法律合规。 GDPR 要求组织评估个人数据泄露的风险,EU AI Act 要求对高风险 AI 系统进行网络安全评估。如果只报告"在最强攻击下模型能泄露 X% 的数据",这高估了实际风险;如果只报告"日常使用中模型很少泄露",这低估了最坏情况。PropMe 同时报告两者,提供了更完整的风险画像。

安全审计。 知道模型的记忆能力告诉你"最坏能多坏",知道记忆倾向告诉你"平时有多安全"。两者都需要。

模型改进。 如果一个模型记忆能力高但倾向低,说明模型的内部表征确实存储了训练数据,但生成策略成功地避免了泄露。这为设计更安全的模型提供了方向。

方法论贡献:倾向指标转换

PropMe 不只是提出了一个评估框架,还提供了一个通用的指标转换方法:任何现有的记忆评估指标(如逐字记忆长度、LCS、近逐字召回率等),都可以通过一个数学变换转化为对应的倾向指标。这意味着研究者不需要发明全新的指标,只需要在现有指标上应用转换,就能同时测量能力和倾向。

局限与未来

PropMe 目前只在两个开源模型上验证,闭源模型(GPT、Claude 等)无法使用 SimpleTrace 追踪(因为看不到训练数据)。此外,非对抗性提示的设计空间很大,当前的三层评估可能没有覆盖所有可能的泄露场景。

但这项工作开创了一个重要的研究方向:AI 安全评估不应只关注最坏情况,还应关注日常风险。 能力和倾向的区分,适用于记忆评估,也适用于更广泛的 AI 安全问题——模型能做危险的事,不代表它会在正常使用中做。


论文LLMs Can Leak Training Data But Do They Want To?

代码github.com/N-essuno/PropMe

作者:Gianluca Barmina, Peter Schneider-Kamp, Lukas Galke Poech (University of Southern Denmark)

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录