> 论文:Grow, Don't Overwrite: Fine-tuning Without Forgetting
> 作者:Dyah Adila (UW-Madison), Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo (Google Research)
> arXiv: 2603.08647v1 [cs.LG] 9 Mar 2026
> 分析:小凯
> 时间:2026-04-27
---
## 一、问题:微调是一把"双刃剑"
### 1.1 灾难性遗忘的本质
你有一个通用大模型,它会写诗、会推理、会算数。你想让它学会翻译法语。你微调了一下——现在它法语翻译很棒,但问它"1+1等于几",它可能会回答"deux"。
这就是**灾难性遗忘(Catastrophic Forgetting)**:新知识的训练像推土机一样,碾平了旧知识的神经回路。
论文数据很直观:标准微调(SFT)在翻译和推理任务上,原始域(WinoGrande常识推理)准确率**暴跌到接近零**。
### 1.2 为什么旧方法不行
论文把现有方案分成两类,都踩了不同的坑:
**正则化方法(Regularization)**
- 思想:给损失函数加一个"别偏离原始权重太远"的惩罚项
- 代表:EWC (Elastic Weight Consolidation)、Synaptic Intelligence
- 问题:**零和博弈**——在固定容量的模型里,记住过去 = 牺牲未来
- 论文引用 Grossberg 的话:"任何分配给记忆的资源都是取自学习的资源"
**网络生长方法(Network Growing)**
- 思想:加新参数给新任务,冻结旧参数
- 困境:
- 方案 A:随机初始化新模块 → 训练不稳定,新技能要从零学
- 方案 B:复制预训练权重 → 违反"函数保留"约束,初始化时输出就变了
- 论文:"一个既能利用预训练知识、又能保证函数保留的方法,一直是文献中的关键空白。"
### 1.3 核心矛盾
要稳定训练,扩展必须是**函数保留的**(function-preserving)——即初始化时输出与原始模型完全相同。
要高效学习,新组件应该**利用预训练知识**而不是从零开始。
这两个需求,之前的方法只能满足其一。
---
## 二、GDIO:Grow, Don't Overwrite
### 2.1 核心思想
**"把 MLP 的隐藏维度翻倍,但通过数学补偿让输出不变。"**
不是加随机层,不是改注意力头,而是**在 MLP 子模块内部做精细手术**。
### 2.2 两步手术(以 k=2 为例)
Transformer 的 MLP 有两层:
- **Up-projection**(升维):W^(1) ∈ R^{h×p},把输入从 h 升到 p
- **Down-projection**(降维):W^(2) ∈ R^{p×h},把 p 降回 h
**Step 1:水平复制 Up-projection**
```
W^(1)_{h×p} → Ŵ^(1)_{h×2p} := [W^(1)_{h×p} | W^(1)_{h×p}]
```
把 W^(1) 水平拼接一份自己。输入经过这层后,输出变成 [Y | Y],即两份完全相同的激活。
**Step 2:垂直拆分并缩放 Down-projection**
```
W^(2)_{p×h} → Ŵ^(2)_{2p×h} := [½W^(2)_{p×h}
½W^(2)_{p×h}]
```
把 W^(2) 垂直切成两半,每半都乘以 ½。
**数学证明(函数保留)**:
```
原始输出:Y · W^(2)
扩展后输出:[Y | Y] · [½W^(2)
½W^(2)]
= ½Y·W^(2) + ½Y·W^(2)
= Y·W^(2)
```
**完全一样。**
这就是视频里说的"除以2的数学魔法"——up 层复制让信息翻倍,down 层各收一半税,最终账目归零。
### 2.3 扩展到任意倍数 k
论文证明这个方法可以推广到任意整数 k:
- Up-projection 复制 k 份
- Down-projection 切成 k 份,每份乘以 1/k
函数保留性质对任意 k 成立。
但实验发现 **k=2 是甜点**——性能收益和参数效率的最佳平衡。
---
## 三、两种微调策略
### 3.1 G-Freeze(默认策略)
- **冻结所有原始参数**
- **只训练新添加的参数**
效果:
- 原始知识被"物理隔离"——旧权重一个字都不改
- 新参数学习新任务的表示
- 即使扩展所有层,也**只训练约 60% 的原始参数量**(因为 up 和 down 各加了一份,但原始部分冻结)
### 3.2 G-Train(认知密集型任务专用)
- **冻结所有 down-projection 和原始参数**
- **训练整个扩展后的 up-projection**(包括原始部分 + 新复制部分)
为什么这样设计?
- 有研究表明**事实性知识存储在 down-projection 层**
- 冻结 down-projection = 保护知识仓库
- 训练 up-projection = 提供足够塑性学习复杂推理
实验显示:
- 简单任务(翻译、推理)→ G-Freeze 足够
- 复杂任务(MathQA 数学推理)→ G-Train 显著优于 G-Freeze
---
## 四、实验结果
### 4.1 核心发现:遗忘归零
| 任务 | 方法 | 新任务性能 | 原始域保留 |
|------|------|-----------|-----------|
| 法语翻译 | SFT | 高 | **暴跌至近零** |
| 法语翻译 | G-Freeze | 高 | **几乎完美保留** |
| 科学推理 | SFT | 高 | **暴跌** |
| 科学推理 | G-Freeze | 高 | **几乎完美保留** |
| MathQA | SFT | 高 | 严重退化 |
| MathQA | G-Train | **超越 SFT** | 轻微退化但可控 |
**结论**:GDIO 消除了"学习新任务 = 遗忘旧知识"的零和博弈。
### 4.2 参数效率:30% 参数达到 100% 效果
不需要扩展所有层。
论文的层选择启发式:先做一轮标准微调,看哪些层的权重更新幅度最大——那些就是"任务相关层"。
结果:
- 扩展**9-10 层** = 扩展所有层的性能
- 可训练参数量从 ~60% 降到 **~30%**
### 4.3 缩放性质:越复杂的任务越需要容量
论文测试了扩展不同数量层(N ∈ {1, 3, 5, 7, 10, 15, 20})的效果:
- **简单任务**(科学推理):前几层扩展后性能就收敛
- **复杂任务**(MathQA):性能随 N 增加持续提升
解释:复杂任务需要**高秩的权重更新**,分布在几乎所有层。简单任务只需要修改少数专门层。
### 4.4 函数向量(Function Vectors)实验
这是论文最精妙的实验之一。
**Function Vector (FV)** 是一种从 Transformer 隐藏状态中提取的紧凑向量表示,反映模型执行特定任务的"神经回路"。
如果微调后 FV 大幅改变,说明旧任务的神经回路被破坏。
| 指标 | SFT | GDIO (Ours) |
|------|-----|-------------|
| 因果头重叠数 | 2-3 / 10 | **5 / 10** |
| FV 余弦相似度 | 0.28 | **0.95** |
**0.95 的相似度**意味着:GDIO 微调后的模型,其内部表示与原始模型几乎完全相同。灾难性遗忘的本质是"表示漂移",而 GDIO 从根本上阻止了这种漂移。
---
## 五、与传统方法的对比
### 5.1 为什么 LoRA 不行
LoRA 的核心思想:冻结原始权重 W,只训练低秩更新 ΔW = AB^T。
问题:
- LoRA **仍然修改原始权重的有效行为**
- 当 A·B^T 作用于 W 时,原始知识被"覆盖"而非"保留"
- 论文将 LoRA 归类为 PEFT(参数高效微调),目标不同——PEFT 追求效率,GDIO 追求**零遗忘**
### 5.2 为什么传统网络生长不行
| 方法 | 稳定性 | 知识复用 | 问题 |
|------|--------|---------|------|
| 随机初始化 + 训练新层 | ❌ 不稳定 | ❌ 从零学 | 输出初始化就变了 |
| 复制权重块 | ❌ 违反函数保留 | ✅ 复用知识 | 输出变了,训练震荡 |
| **GDIO (本文)** | ✅ 函数保留 | ✅ 复用知识 | **无** |
### 5.3 为什么正则化不行
正则化说:"你可以学新东西,但别走太远。"
GDIO 说:"我给你新空间学新东西,旧空间原封不动。"
一个是**约束**,一个是**扩容**。扩容从根本上绕过了零和博弈。
---
## 六、深层分析
### 6.1 "函数保留"为什么是核心
传统网络生长要么:
- 随机初始化 → 训练初期输出是噪声,需要很长时间"热启动"
- 复制权重但不补偿 → 输出翻倍,模型要花很多步骤"学会把输出压回去"
GDIO 的函数保留保证:
- **训练第一步**,模型输出 = 原始模型输出
- 然后它逐渐学习:"在保持旧能力的前提下,怎么用新参数做新任务"
- 这不是从零开始,而是"带着满分卷子去考新科目"
### 6.2 MLP 为什么是最佳扩展点
论文做了消融实验(Appendix C.3):
- 扩展 attention head 维度 → 效果差
- 扩展 attention head 数量 → 效果差
- 扩展 MLP → **效果最好**
- 同时扩展 MLP + Attention → 不比单独扩展 MLP 更好
为什么 MLP 是甜点?
- MLP 是 Transformer 的"前馈记忆"层,存储事实性知识
- Attention 是"路由"层,负责信息流动
- 扩展 MLP = 增加知识存储容量,不改变信息路由结构
### 6.3 与 MoE 的关系
GDIO 和 Mixture-of-Experts (MoE) 有概念上的亲缘:
- MoE:多个专家并行,门控选择用哪个
- GDIO:两个"专家"(原始权重 + 复制权重)串行,down-projection 做加权平均
但 GDIO 更简单:不需要门控网络,不需要负载均衡,**数学上就是一个简单的复制+缩放**。
### 6.4 局限性
论文诚实提到了几个局限:
1. **只扩展 MLP**:对于需要改变 attention 模式的任务,可能不够
2. **层选择启发式简单**:用权重更新幅度排层,可能有更优的 skill localization 方法
3. **扩展 k=2 是经验选择**:理论上更大 k 可能更好,但实验没验证
4. **只测试了 Gemma**:其他架构(如 Llama、Qwen)的 MLP 结构略有不同,需要适配
---
## 七、对 AI 生态的意义
### 7.1 范式信号
GDIO 发出了一个重要信号:
> **"忘记"不是微调的必然代价,而是固定容量假设的 artifacts。**
如果模型可以"生长",新知识和旧知识不需要争夺同一个参数空间。
这和 Native Evolution(腾讯)、SkVM(上海交大)等论文共同指向一个方向:
- **Native Evolution**:Agent 自发扩展知识
- **SkVM**:Skill 跨平台可移植
- **GDIO**:模型本身可无损扩展
三者合起来:**AI 系统正在从"固定架构"走向"可进化架构"。**
### 7.2 商业化价值
灾难性遗忘是 AI 商业化的核心障碍之一:
- 医疗模型学了专科知识,丢了通用常识
- 法律模型学了判例,丢了语言理解
- 客服模型学了产品知识,丢了礼貌用语
GDIO 提供了一条路径:**给每个客户部署一个"增量版"模型,而不破坏基础能力。**
### 7.3 对 OpenClaw 的启示
OpenClaw 的 Agent 架构可以借鉴 GDIO 的思想:
- Skill 不仅是外部知识库,也可以是**模型参数的增量扩展**
- 加载一个 skill = 扩展对应 MLP 层的新参数
- 卸载 skill = 冻结那些参数,模型回到基础状态
这比 RAG 更深层——不是检索文档,而是**在神经网络层面"插拔"能力模块**。
---
## 八、关键引用
> "A common family of solutions uses regularization, which adds a penalty to the loss function to discourage the model from deviating too far from its original state. However, this imposes a zero-sum trade-off: within a fixed-capacity model, any resource allocated to remembering the past is a resource taken away from learning the future."
> "Current methods fail to reconcile these two needs. Some achieve stability by inserting randomly initialized identity modules, which is inefficient as it ignores existing knowledge. Others attempt to reuse pre-trained weights but violates the function-preserving constraint."
> "We guarantee that our approach is function-preserving with a two-step process... This simple scaling perfectly counteracts the wider internal activation, ensuring the expanded model is mathematically identical to the original at initialization."
> "Our method successfully preserves the model's internal representation, unlike standard fine-tuning. Our approach achieved a high FV cosine similarity of 0.95 and retained 5 causal attention heads. In contrast, SFT's similarity dropped to 0.28, with only 2-3 heads overlapping."
---
## 一句话总结
> **GDIO 用"复制+除以2"的简单数学,解决了困扰 AI 领域多年的灾难性遗忘。它通过函数保留扩展,让模型在初始化时与原始模型数学上完全相同,然后只训练新参数学习新任务。实验显示它完全消除了传统微调的遗忘问题,同时匹配甚至超越全量微调的新任务性能——14% 参数扩展换来 0% 遗忘 + 100% 新任务能力,而传统方法在固定容量里做零和博弈,注定是死胡同。**
---
## 参考
- Adila, D., Mazzawi, H., Dherin, B., & Gonzalvo, X. (2026). Grow, Don't Overwrite: Fine-tuning Without Forgetting. arXiv:2603.08647v1.
- McCloskey, M., & Cohen, N. J. (1989). Catastrophic interference in connectionist networks.
- Kirkpatrick, J., et al. (2017). Overcoming catastrophic forgetting in neural networks. PNAS.
- Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR.
- Todd, E., et al. (2024). Function Vectors in Large Language Models. arXiv.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!