LoRA 能记住多少东西？浙大团队用一条幂律公式给出了精确答案

✨步子哥 (steper) • 2026年05月30日 17:18

LoRA 能记住多少东西？浙大团队用一条幂律公式给出了精确答案

来源：How LoRA Remembers? A Parametric Memory Law for LLM Finetuning，Ziwen Xu, Haiwen Hong 等，浙江大学 / 阿里巴巴，https://arxiv.org/abs/2605.30260

一、引子：LoRA 是个"记忆胶囊"

LoRA（Low-Rank Adaptation）已经成了大模型微调的标配。它的好处大家都知道：参数少、训练快、即插即用——像给大模型贴一块"记忆胶囊"，新知识就装进去了。

但有个问题一直没人回答清楚：这块胶囊到底能装多少？

你用 rank-8 的 LoRA 微调一个 8B 模型，它能记住 100 条事实？1000 条？10000 条？增加 rank 能多记多少？有没有一个精确的公式？

浙大和阿里团队说：有。他们发现了 Parametric Memory Law（参数记忆定律）——一条描述 LoRA 记忆容量与参数量之间关系的幂律公式。

二、实验设计：暴力测试 LoRA 的记忆极限

要测 LoRA 能记多少，最直接的方法就是：往里面塞东西，看什么时候溢出。

研究团队的做法：

构造记忆任务：让模型记住一组（实体，属性，值）三元组，比如"巴黎的首都是什么？→ 巴黎的首都是利马"（注意，是让模型记住新的事实，不是回忆旧知识）。
改变 LoRA 的 rank：从 rank-4 到 rank-256，覆盖不同参数量级。
改变记忆条目数：从几十条到几千条，逐步增加。
测量回忆准确率：用 greedy decoding 检查模型能否精确回忆每一条。

这个实验设计的关键在于"暴力"——不是在某个特定任务上测性能，而是直接测 LoRA 的信息存储容量。

三、核心发现：一条优雅的幂律

实验揭示了一个清晰的规律：

当 LoRA 参数量 M 固定时，回忆准确率 p 随记忆条目数 N 的增长呈幂律衰减：

p = 1 - (N / N_c)^α

其中 N_c 是"临界记忆容量"——准确率降到 50% 时的条目数，α 是衰减指数。

更关键的发现：

1. 临界容量与参数量成正比

N_c ∝ M^β，其中 β ≈ 1。这意味着：LoRA 的记忆容量大致与参数量线性增长。rank 翻倍，能记住的条目数也大致翻倍。

2. 相变现象：p = 0.5 处的突变

在 greedy decoding 下，准确率曲线在 p = 0.5 附近出现了一个相变——从"几乎全对"到"几乎全错"的过渡非常陡峭。这就像水在 0°C 结冰：在临界点之前，LoRA 还能稳稳记住；过了临界点，记忆迅速崩溃。

3. 每个参数大约能记住 1 bit

根据估算，LoRA 的记忆效率大约是每参数 1 bit。一个 rank-64 的 LoRA（约几百万参数）大概能记住几千条事实。这个数字听起来不多，但考虑到 LoRA 只修改了模型极小一部分参数，这个效率已经相当可观。

四、为什么这很重要？

对实践者的指导

以前选 LoRA rank 全凭经验："rank-8 够不够？试试 rank-16？"现在有了公式，你可以根据需要记忆的条目数，反推出需要的最小 rank。

比如：你要让模型记住 500 条新事实，根据记忆定律，你需要至少 rank-X 的 LoRA。不用猜了，算就行。

对理解 LoRA 的意义

LoRA 常被当作一个"黑盒"——我们知道它管用，但不太清楚为什么。记忆定律从信息论的角度揭示了 LoRA 的本质：它是一个有限容量的参数化存储器。增加 rank 就是增加存储容量，容量满了就记不住了。

与 RAG 的对比

RAG 用外部数据库存储知识，容量几乎无限但需要检索开销。LoRA 把知识压缩进参数，容量有限但零检索延迟。记忆定律量化了这个"有限"到底是多少，让两种方案的权衡有了具体数字。

五、诚实评价：局限与开放问题

只在 8B 模型上验证：幂律是否在更大模型（70B、405B）上成立？作者承认还没验证。
Greedy decoding 的局限：p = 0.5 的相变是在 greedy decoding 下观察到的。用 nucleus sampling 等随机解码方法，相变可能不那么尖锐。
记忆 ≠ 理解：LoRA 能记住"巴黎的首都是利马"，不代表它理解了为什么。记忆容量和推理能力是两码事。
开放域泛化：实验用的是结构化三元组记忆。在开放域文本上的记忆容量是否遵循同样的定律？还不清楚。

六、一句话总结

LoRA 不是无限容量的魔法口袋——它是一个有精确容量上限的参数化存储器，容量与参数量线性增长，满了就溢出。知道上限在哪，比盲目堆参数聪明得多。

论文链接：https://arxiv.org/abs/2605.30260
代码：https://github.com/zjunlp/ParametricMemoryLaw

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

LoRA 能记住多少东西？浙大团队用一条幂律公式给出了精确答案

LoRA 能记住多少东西？浙大团队用一条幂律公式给出了精确答案

一、引子：LoRA 是个"记忆胶囊"

二、实验设计：暴力测试 LoRA 的记忆极限

三、核心发现：一条优雅的幂律

1. 临界容量与参数量成正比

2. 相变现象：p = 0.5 处的突变

3. 每个参数大约能记住 1 bit

四、为什么这很重要？

对实践者的指导

对理解 LoRA 的意义

与 RAG 的对比

五、诚实评价：局限与开放问题

六、一句话总结

讨论回复

推荐

智谱 GLM-5 已上线