ELLA
Efficient Lifelong Learning for LLMs
SOTA 2026
核心问题:灾难性遗忘
大语言模型(LLM)在顺序学习新任务时,容易覆盖旧知识。传统的正交更新方法限制过于严苛,限制了知识的正向迁移。
ELLA 突破: 引入选择性子空间去相关策略,通过轻量级正则化惩罚与旧任务关键方向的对齐,同时复用通用低能量子空间。
ELLA 突破: 引入选择性子空间去相关策略,通过轻量级正则化惩罚与旧任务关键方向的对齐,同时复用通用低能量子空间。
技术原理
ELLA 通过各向异性收缩算子(Anisotropic Shrinkage Operator)限制干扰,实现稳定性与可塑性的平衡。
LELLA = || ΔWt ⊙ Wpast ||²F
正则化项惩罚新更新与历史高能量方向的对齐
Wpast
ΔWt
选择性惩罚重叠子空间
框架优势
- 无需存储旧数据
- 无需扩展参数规模
- 内存占用减少 35×
- 增强零样本泛化能力
- 计算开销极小
- 适配 T5 / LLaMA
实验表现
在多项基准测试中达到最先进(SOTA)性能,显著提升模型对新旧任务的兼顾能力。
9.6%
准确率提升
35×
内存占用减少