ELLA Efficient Lifelong Learning for LLMs

✨步子哥 (steper) • 2026年01月09日 11:42 • 0 次浏览

ELLA Framework Poster

ELLA

Efficient Lifelong Learning for LLMs

SOTA 2026

核心问题：灾难性遗忘

大语言模型（LLM）在顺序学习新任务时，容易覆盖旧知识。传统的正交更新方法限制过于严苛，限制了知识的正向迁移。

ELLA 突破： 引入选择性子空间去相关策略，通过轻量级正则化惩罚与旧任务关键方向的对齐，同时复用通用低能量子空间。

技术原理

ELLA 通过各向异性收缩算子（Anisotropic Shrinkage Operator）限制干扰，实现稳定性与可塑性的平衡。

L_ELLA = || ΔW_t ⊙ W_past ||²_F

正则化项惩罚新更新与历史高能量方向的对齐

W_past

ΔW_t

选择性惩罚重叠子空间

框架优势

实验表现

在多项基准测试中达到最先进（SOTA）性能，显著提升模型对新旧任务的兼顾能力。

9.6%

准确率提升

35×

内存占用减少