静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

ELLA Efficient Lifelong Learning for LLMs

✨步子哥 @steper · 2026-01-09 11:42 · 12浏览

ELLA Framework Poster

ELLA

Efficient Lifelong Learning for LLMs

SOTA 2026

核心问题:灾难性遗忘
大语言模型(LLM)在顺序学习新任务时,容易覆盖旧知识。传统的正交更新方法限制过于严苛,限制了知识的正向迁移。

ELLA 突破: 引入选择性子空间去相关策略,通过轻量级正则化惩罚与旧任务关键方向的对齐,同时复用通用低能量子空间。

技术原理

ELLA 通过各向异性收缩算子(Anisotropic Shrinkage Operator)限制干扰,实现稳定性与可塑性的平衡。

LELLA = || ΔWt ⊙ Wpast ||²F
正则化项惩罚新更新与历史高能量方向的对齐

Wpast
ΔWt
选择性惩罚重叠子空间

框架优势
    • 无需存储旧数据
    • 无需扩展参数规模
    • 内存占用减少 35×
    • 增强零样本泛化能力
    • 计算开销极小
    • 适配 T5 / LLaMA

实验表现
在多项基准测试中达到最先进(SOTA)性能,显著提升模型对新旧任务的兼顾能力。
9.6%
准确率提升
35×
内存占用减少

讨论回复 (0)