LoRA被「欠缩放」了六年：一篇论文如何推翻α=r的迷信

> 论文: *The Hidden Power of Scaling Factor in LoRA Optimization* > 作者: Zicheng Zhang et al. (JD, UCAS, NKU等) > 链接: https://arxiv.org/abs/2606.12883 > 标签: #LoRA #PEFT #大模型微调 #ScalingLaw #深度学习

---

一、一个反直觉的发现

如果你用过LoRA微调大模型，一定见过这个「祖传配方」：

lora_config = LoraConfig(
    r=64,
    lora_alpha=32,  # α = r/2，甚至 α = r
    lora_dropout=0.05,
    target_modules=["q_proj", "v_proj"]
)

然后你发现——学习率得调到全量微调的5倍、10倍，甚至50倍，模型才能正常收敛。

大家对此的解释是：「LoRA参数少嘛，梯度信号弱，学习率当然要调大。」

这篇论文说：错了。

真正的问题不是LoRA参数少，而是缩放因子α被严重低估了。你一直在用一把小勺子（α=32）去舀一锅汤，然后怪自己胳膊不够粗（学习率不够大）。

---

二、α ≠ 学习率的「等效替代品」

论文的核心发现可以概括为一句话：

> α和学习率做的是两件完全不同的事，它们不是互相替代的。

2.1 学习率放大的是「信号+噪声」

LoRA的更新公式是：

$$W = W_0 + \frac{\alpha}{r} BA$$

其中 $B \in \mathbb{R}^{d \times r}$，$A \in \mathbb{R}^{r \times d}$，$r \ll d$。

这个公式里藏着一个双线性结构——$BA$ 是两个低秩矩阵的乘积。双线性结构的梯度有一个特点：

有效信号（与任务相关的方向）会被放大
噪声漂移（双线性结构引入的冗余自由度）也会被放大

所以当你单纯提高学习率时，任务信号和噪声是一起被放大的。这就像你把音响音量开到最大——人声确实更响了，但底噪也炸了。

2.2 α放大的是「纯信号」

缩放因子 $\alpha$ 的作用方式完全不同：

它只放大 $BA$ 的输出幅度
不改变优化 landscape 的几何结构
不会引入额外的噪声漂移

论文通过系统的超参数扫描（184M到12B参数规模的模型）证实了一个惊人的规律：

> 随着α增大，最优学习率会持续下降，而最优损失会持续降低。

换句话说：α越大，你反而可以用越小的学习率，达到越好的效果。

这和传统认知完全相反。

---

三、推翻「α=r」的迷信

3.1 传统启发式的由来

LoRA原始论文（Hu et al., 2021）推荐 $r=8, \alpha=16$ 或 $r=64, \alpha=32$，很多框架默认 $\alpha = r/2$ 或 $\alpha = r$。

这个规则的来源是什么？

论文指出：它没有任何理论依据，纯粹是早期实验中的经验选择，然后在社区里口口相传变成了「标准做法」。

3.2 真正的缩放律：α* ≈ C√r

作者通过对不同秩 $r$ 进行大规模超参数搜索，发现了一个被隐藏了六年的规律：

$$\alpha^* \approx C \sqrt{r}$$

其中 $C \gg 1$（具体值取决于任务和模型，但通常远大于1）。

这意味着什么？

秩 r	传统α (r/2)	论文最优α (√r × C)	差距
8	4	~25-40	6-10倍
64	32	~100-200	3-6倍
256	128	~300-600	2-5倍

结论：传统LoRA配置一直处于严重的「欠缩放」状态。

作者把这个现象称为 "Under-Scaling Syndrome"——就像你买了一台V8引擎的车，但一直在用1档开。

---

四、理论解释：Signal-Drift框架

论文提出了一个统一的分析框架来解释为什么传统LoRA需要高学习率，以及为什么增大α能解决这个问题。

4.1 LoRA的谱抑制效应

全量微调中，Hessian矩阵的谱（特征值分布）决定了优化的难度。对于大模型，Hessian通常有以下几个特点：

少数大的特征值（对应主要任务方向）
大量小的特征值（对应噪声/冗余方向）

LoRA的低秩参数化会对Hessian产生谱抑制：

它天然「过滤」掉了高维空间中的大部分方向
只保留了一个 $r$ 维的子空间
这个子空间可能没有对齐到任务最优方向

4.2 优化缺口的来源

当α太小时，$BA$ 的输出幅度被压缩，导致：

1. 有效信号被压制：即使优化方向是对的，更新的步长也太小 2. 学习率被迫提高：为了补偿信号弱，只能加大学习率 3. 噪声被同步放大：双线性结构的冗余自由度在高学习率下产生漂移

这就形成了一个恶性循环：α小 → 信号弱 → 学习率调高 → 噪声放大 → 收敛变差 → 继续调高学习率。

4.3 α作为「优化加速器」

增大α的作用是：

直接放大有效信号：不需要通过提高学习率来补偿
保持优化 landscape 平滑：不改变Hessian的结构
允许使用标准学习率：回到全量微调的学习率区间

论文把α的作用精确描述为：「优化加速器」（Optimization Accelerator），而不是传统理解的「学习率替代品」。

---

五、LoRA-α：极简改进方案

基于以上发现，作者提出了一个零成本、零额外超参数的改进方案：

5.1 核心改动

只需修改α的计算规则：

# 传统LoRA
alpha = r  # 或 r/2

# LoRA-α（论文方案）
alpha = C * sqrt(r)  # C是一个预定义的常数，通常取10-50

然后直接使用全量微调的标准学习率（比如 1e-5 到 5e-5），不需要额外调参。

5.2 兼容性

这个改动的好处是完全向后兼容：

不改变LoRA的训练流程
不改变推理流程（α只在训练时起作用，推理时合并到权重中）
对现有框架（PEFT、Llama-Factory等）只需改一行配置

5.3 实验结果

论文在多个尺度（184M、1B、7B、12B）和多个任务（NLU、NLG、代码）上验证了LoRA-α：

相比传统LoRA（α=r/2），平均提升3-8%
在部分任务上达到全量微调水平
学习率稳定性大幅提高：不再需要针对不同任务重新调学习率

一个特别有意思的发现：在12B模型上，LoRA-α with r=64 的效果超过了传统LoRA with r=256——更小的秩，更好的效果，只因为α被正确设置了。

---

六、对工程实践的启示

6.1 立即可以做的三件事

1. 把α调大：如果你现在用 r=64, α=32，试试 α=128 或 256 2. 降低学习率：当α增大后，学习率可以回到全量微调的区间（1e-5 ~ 5e-5） 3. 固定C值：对于同一类任务，找到一个合适的 $C = \alpha / \sqrt{r}$，然后复用

6.2 一个实用的配置表

论文建议的LoRA-α配置（基于实验结果的近似）：

模型规模	秩 r	LoRA-α	学习率	对比传统α
1B以下	8-16	40-80	2e-5	5-10倍
7B	64-128	200-400	1e-5	3-6倍
13B+	128-256	400-800	5e-6	3-5倍

6.3 需要注意的边界情况

秩太小（r<8）时：α的效果会受限，因为子空间维度本身就不够
任务非常简单时：可能看不出明显差异，因为传统LoRA的欠缩放问题被任务简单性掩盖了
已有全量微调SFT时：如果全量微调本身就已经很好，LoRA-α的提升空间有限

---

七、为什么这篇论文重要

7.1 对社区的影响

LoRA是当今大模型微调的事实标准。从Hugging Face的PEFT库到Llama-Factory，从学术研究到工业落地，LoRA无处不在。

这篇论文指出了一个被六年的「传统智慧」掩盖的根本性问题：我们一直在用次优的方式使用LoRA。

7.2 和Scaling Law的联系

论文发现的 $\alpha^* \propto \sqrt{r}$ 是一个新的缩放律。它暗示了一个更深层的结构：

> LoRA的有效容量不仅取决于秩r，还取决于缩放因子α。

如果我们接受这一点，那么过去六年关于「LoRA需要多大秩」的讨论可能需要重新审视——也许很多任务不需要r=256，只需要r=64 + 正确的α。

7.3 对AI民主化的意义

LoRA-α的一个重要副作用是降低了对超参数调优的依赖。当你可以直接用全量微调的学习率，而不需要为每个任务重新搜索LoRA学习率时，微调的门槛进一步降低了。

对于没有大量GPU资源做超参搜索的小团队和个人开发者，这尤其有价值。

---

八、一个值得思考的问题

论文的最后提出了一个开放性问题：

> 如果α的缩放律是 $\sqrt{r}$，那么更复杂的参数化（如DoRA、PiSSA）的最优缩放规则又是什么？

DoRA（Weight-Decomposed Low-Rank Adaptation）把权重分解为幅度和方向分别微调，PiSSA（Principal Singular values and Singular vectors Adaptation）在主成分方向上初始化LoRA。

这些方法都改变了LoRA的参数化结构，但关于α的缩放规律是否仍然适用？这是下一步值得研究的方向。

---

参考文献

1. Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. *ICLR 2022*. 2. Zhang, Z., et al. (2026). *The Hidden Power of Scaling Factor in LoRA Optimization*. arXiv:2606.12883. 3. Liu, S., et al. (2024). DoRA: Weight-Decomposed Low-Rank Adaptation. *ICML 2024*. 4. Meng, F., et al. (2024). PiSSA: Principal Singular values and Singular vectors Adaptation. *arXiv preprint*.

---

> 核心结论：LoRA的缩放因子α不是学习率的「等效替代品」，而是一个独立的优化加速器。传统启发式 $\alpha = r/2$ 让LoRA长期处于欠缩放状态。真正的最优缩放遵循亚线性平方根律 $\alpha^* \propto \sqrt{r}$。只需要把α调大，LoRA就可以用标准学习率，达到甚至超越全量微调的效果。

#论文解读 #LoRA #PEFT #大模型微调 #ScalingLaw #深度学习 #小凯