LoRA到底能记住多少东西？浙大阿里首次给出精确答案：一条幂律公式量化记忆容量，0.5是魔法阈值

✨步子哥 (steper) • 2026年05月29日 17:17

LoRA 微调大模型，到底能"记住"多少东西？这个问题困扰了整个 AI 圈很久——大家都在用 LoRA，但没人能说清楚它的记忆容量上限在哪。浙大和阿里联合团队的这篇论文，第一次给出了精确答案：一条幂律公式，把 LoRA 的记忆能力彻底量化了。

一个被忽视的根本问题

LoRA（Low-Rank Adaptation）是当下最流行的大模型微调方法。它的核心思路很简单：不改动原始模型参数，只训练一个低秩的"补丁"矩阵。这个补丁就像一张便签纸，贴在模型身上就能让它学会新知识。

但便签纸能写多少字？rank=8 的 LoRA 和 rank=64 的 LoRA，记忆能力差多少？如果要记住 1000 条新知识，需要多大的 rank？这些问题，之前没人能回答。

现有的研究要么在下游任务上做定性评估（"LoRA 微调后模型在 XX 任务上提升了 Y%"），要么只关注 LoRA 的表达能力（理论上能拟合什么），但没有人从"精确记忆"的角度量化过 LoRA 的容量极限。

这篇论文填补了这个空白。

实验设计：把记忆变成可控实验

研究团队设计了一个极其干净的实验框架：

冻结基础模型（Qwen3-8B、Llama-3.1-8B 等）
只训练 LoRA 模块，用不同的 rank（4、8、16、32、64、128、256）
让模型精确记忆一组（问题，答案）对——问题只作为"钥匙"，答案必须逐字复现
衡量三个指标：序列平均损失、token 级准确率、完全匹配准确率

关键设计：问题只作为查询键，所有指标只在答案 token 上计算。这把"记忆"从"检索+理解"中解耦出来，变成了纯粹的参数写入问题。

核心发现一：参数化记忆幂律

最重要的发现是参数化记忆定律（Parametric Memory Law）：

Δℒ ∝ (r · d)^α · ℓ^β

其中 Δℒ 是损失下降量，r 是 LoRA rank，d 是模型维度，ℓ 是答案序列长度，α 和 β 是可拟合的指数。

翻译成人话：LoRA 的记忆能力与有效参数量（r·d）和序列长度（ℓ）之间，存在稳定的幂律关系。 rank 翻倍，记忆能力不是翻倍，而是按幂律增长。答案越长，越难记住，衰减也是幂律的。

这个发现有多重要？想想看：以前你选 LoRA rank 全凭经验——"rank=16 应该够了吧？"现在你可以精确计算：要记住 N 条平均长度 ℓ 的知识，需要多大的 rank。

核心发现二：相变——0.5 是魔法阈值

更精细的 token 级分析揭示了一个惊人的相变现象：

当某个 token 的预测概率 p > 0.5 时，它几乎一定能被正确回忆；当 p < 0.5 时，几乎一定回忆失败。

这不是渐变的——0.5 是一个锐利的分界线，就像水的冰点。在 0.5 附近，概率的微小变化会导致记忆行为的剧变。

这个发现的实际意义巨大：你不需要等训练完全收敛，只需要监控 token 级概率分布，一旦超过 0.5 就知道"这条知识已经记住了"。

MemFT：基于洞察的优化策略

基于这两个发现，研究团队提出了 MemFT（Memory Fidelity Training），一个阈值引导的优化策略：

核心思路：把训练预算动态分配给"还没记住"的 token。具体来说：

MemFT-OT：只关注那些概率低于阈值的 token，对它们的损失赋予更高权重
MemFT-SW：加入滑动窗口机制，适应不同难度的知识

效果如何？在多个模型和数据集上，MemFT 相比标准 LoRA 训练：

记忆保真度显著提升——同样的 rank，能记住更多
训练效率提高——更少的步数达到同样的记忆质量
完全匹配准确率大幅提升——这是最严格的指标，要求逐字不差

一个反直觉的发现

论文还揭示了一个反直觉的现象：低损失 ≠ 高准确率。

传统观点认为，训练损失越低，模型表现越好。但在精确记忆任务中，损失和准确率并不单调对齐。一个 token 的损失可能已经很低（比如从 10 降到 0.3），但如果它的概率还没过 0.5 的阈值，greedy decoding 仍然会输出错误答案。

这就像考试：你觉得自己"差不多会了"（损失低），但真到做题的时候还是选错了（准确率低）。只有过了那个临界点，才是真正的"会了"。

为什么这很重要？

工程价值：终于可以精确计算 LoRA 的记忆容量，而不是凭感觉选 rank。这对知识注入、模型定制、持续学习都有直接指导意义。
理论价值：参数化记忆定律是第一个定量描述 LoRA 记忆行为的公式。它揭示了参数量、序列长度和记忆能力之间的基本规律。
0.5 阈值的普遍性：相变现象可能不限于 LoRA——任何参数化记忆方法都可能存在类似的临界点。这为理解大模型的"记忆机制"提供了新视角。
MemFT 的实用价值：动态分配训练预算的思路，可以推广到任何需要精确记忆的场景，比如知识图谱嵌入、事实更新等。

代码即将在 zjunlp/ParametricMemoryLaw 开源。

论文链接：https://arxiv.org/abs/2605.30260

作者：Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang（浙江大学 / 阿里巴巴集团）

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力