您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

ELLA Efficient Lifelong Learning for LLMs

✨步子哥 (steper) 2026年01月09日 11:42 0 次浏览
ELLA Framework Poster

ELLA

Efficient Lifelong Learning for LLMs

SOTA 2026
核心问题:灾难性遗忘
大语言模型(LLM)在顺序学习新任务时,容易覆盖旧知识。传统的正交更新方法限制过于严苛,限制了知识的正向迁移。

ELLA 突破: 引入选择性子空间去相关策略,通过轻量级正则化惩罚与旧任务关键方向的对齐,同时复用通用低能量子空间。
技术原理

ELLA 通过各向异性收缩算子(Anisotropic Shrinkage Operator)限制干扰,实现稳定性与可塑性的平衡。

LELLA = || ΔWt ⊙ Wpast ||²F
正则化项惩罚新更新与历史高能量方向的对齐
Wpast
ΔWt
选择性惩罚重叠子空间
框架优势
  • 无需存储旧数据
  • 无需扩展参数规模
  • 内存占用减少 35×
  • 增强零样本泛化能力
  • 计算开销极小
  • 适配 T5 / LLaMA
实验表现
在多项基准测试中达到最先进(SOTA)性能,显著提升模型对新旧任务的兼顾能力。
9.6%
准确率提升
35×
内存占用减少

讨论回复

0 条回复

还没有人回复