LoRA 能记住多少东西?浙大团队用一条幂律公式给出了精确答案
来源:How LoRA Remembers? A Parametric Memory Law for LLM Finetuning,Ziwen Xu, Haiwen Hong 等,浙江大学 / 阿里巴巴,https://arxiv.org/abs/2605.30260
一、引子:LoRA 是个"记忆胶囊"
LoRA(Low-Rank Adaptation)已经成了大模型微调的标配。它的好处大家都知道:参数少、训练快、即插即用——像给大模型贴一块"记忆胶囊",新知识就装进去了。
但有个问题一直没人回答清楚:这块胶囊到底能装多少?
你用 rank-8 的 LoRA 微调一个 8B 模型,它能记住 100 条事实?1000 条?10000 条?增加 rank 能多记多少?有没有一个精确的公式?
浙大和阿里团队说:有。他们发现了 Parametric Memory Law(参数记忆定律)——一条描述 LoRA 记忆容量与参数量之间关系的幂律公式。
二、实验设计:暴力测试 LoRA 的记忆极限
要测 LoRA 能记多少,最直接的方法就是:往里面塞东西,看什么时候溢出。
研究团队的做法:
- 构造记忆任务:让模型记住一组(实体,属性,值)三元组,比如"巴黎的首都是什么?→ 巴黎的首都是利马"(注意,是让模型记住新的事实,不是回忆旧知识)。
- 改变 LoRA 的 rank:从 rank-4 到 rank-256,覆盖不同参数量级。
- 改变记忆条目数:从几十条到几千条,逐步增加。
- 测量回忆准确率:用 greedy decoding 检查模型能否精确回忆每一条。
这个实验设计的关键在于"暴力"——不是在某个特定任务上测性能,而是直接测 LoRA 的信息存储容量。
三、核心发现:一条优雅的幂律
实验揭示了一个清晰的规律:
当 LoRA 参数量 M 固定时,回忆准确率 p 随记忆条目数 N 的增长呈幂律衰减:
p = 1 - (N / N_c)^α
其中 N_c 是"临界记忆容量"——准确率降到 50% 时的条目数,α 是衰减指数。
更关键的发现:
1. 临界容量与参数量成正比
N_c ∝ M^β,其中 β ≈ 1。这意味着:LoRA 的记忆容量大致与参数量线性增长。rank 翻倍,能记住的条目数也大致翻倍。
2. 相变现象:p = 0.5 处的突变
在 greedy decoding 下,准确率曲线在 p = 0.5 附近出现了一个相变——从"几乎全对"到"几乎全错"的过渡非常陡峭。这就像水在 0°C 结冰:在临界点之前,LoRA 还能稳稳记住;过了临界点,记忆迅速崩溃。
3. 每个参数大约能记住 1 bit
根据估算,LoRA 的记忆效率大约是每参数 1 bit。一个 rank-64 的 LoRA(约几百万参数)大概能记住几千条事实。这个数字听起来不多,但考虑到 LoRA 只修改了模型极小一部分参数,这个效率已经相当可观。
四、为什么这很重要?
对实践者的指导
以前选 LoRA rank 全凭经验:"rank-8 够不够?试试 rank-16?"现在有了公式,你可以根据需要记忆的条目数,反推出需要的最小 rank。
比如:你要让模型记住 500 条新事实,根据记忆定律,你需要至少 rank-X 的 LoRA。不用猜了,算就行。
对理解 LoRA 的意义
LoRA 常被当作一个"黑盒"——我们知道它管用,但不太清楚为什么。记忆定律从信息论的角度揭示了 LoRA 的本质:它是一个有限容量的参数化存储器。增加 rank 就是增加存储容量,容量满了就记不住了。
与 RAG 的对比
RAG 用外部数据库存储知识,容量几乎无限但需要检索开销。LoRA 把知识压缩进参数,容量有限但零检索延迟。记忆定律量化了这个"有限"到底是多少,让两种方案的权衡有了具体数字。
五、诚实评价:局限与开放问题
- 只在 8B 模型上验证:幂律是否在更大模型(70B、405B)上成立?作者承认还没验证。
- Greedy decoding 的局限:p = 0.5 的相变是在 greedy decoding 下观察到的。用 nucleus sampling 等随机解码方法,相变可能不那么尖锐。
- 记忆 ≠ 理解:LoRA 能记住"巴黎的首都是利马",不代表它理解了为什么。记忆容量和推理能力是两码事。
- 开放域泛化:实验用的是结构化三元组记忆。在开放域文本上的记忆容量是否遵循同样的定律?还不清楚。
六、一句话总结
LoRA 不是无限容量的魔法口袋——它是一个有精确容量上限的参数化存储器,容量与参数量线性增长,满了就溢出。知道上限在哪,比盲目堆参数聪明得多。
论文链接:https://arxiv.org/abs/2605.30260
代码:https://github.com/zjunlp/ParametricMemoryLaw
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。