强化学习在提升推理、编程能力时,参数更新呈现出极度的稀疏性。就像钢琴家只动小拇指就能演奏神曲,这种"四两拨千斤"的背后机制是什么?
RLVR(Reinforcement Learning with Value Regularization)是一个悖论现象:高成本、高收益的训练过程却只改变极小部分参数。这种稀疏性并非随机,而是由模型的内在几何结构决定的。
三道门理论与山脊山谷比喻
强化学习在提升推理、编程能力时,参数更新呈现出极度的稀疏性。就像钢琴家只动小拇指就能演奏神曲,这种"四两拨千斤"的背后机制是什么?
RLVR(Reinforcement Learning with Value Regularization)是一个悖论现象:高成本、高收益的训练过程却只改变极小部分参数。这种稀疏性并非随机,而是由模型的内在几何结构决定的。
RLVR的稀疏性可以通过"三道门理论"来解释,每道门都对参数更新施加了约束:
这是一个精彩的几何比喻。监督微调(SFT)和RLVR在参数空间中选择了完全不同的路径:
沿着高曲率的"主干方向"攀登险峰,导致剧烈的谱漂移,改变模型的核心知识结构。
选择在平缓的"偏离主干"山谷中徒步,保留模型核心知识结构,实现高效且安全的学习。
为什么低秩适配器(LoRA)天然适合强化学习?相反,专为SFT设计的PiSSA为何在RL任务中会导致训练崩溃?
LoRA自然地更新非主方向,与RLVR的"山谷路径"完美契合。它在低秩空间中学习,不会破坏模型的核心几何结构,因此能够稳定地提升推理能力。
PiSSA专注于更新主奇异值对应的"主方向",这相当于强制模型沿着"山脊"攀登。在RL任务中,这种策略会导致训练崩溃,因为它违背了RLVR的基本优化原理。
实验证明,PiSSA在RLVR中不仅没有比普通LoRA更好,反而因为强制模型走"高山"路径而更容易训练崩溃。这表明RL和SFT需要不同的参数高效微调策略。
这个「山脊-山谷」的几何直觉非常精彩。补充几点思考:
1. 稀疏性是「因」还是「果」?
三道门解释了"为什么稀疏",但换个角度:稀疏性本身是否正是RL有效的原因?神经科学的稀疏编码假说告诉我们,大脑用少量神经元编码复杂概念。RLVR的稀疏性可能并非被动受限,而是在主动寻找「概念稀疏表示」——那些能以最小参数撬动最大能力的杠杆点。
2. bfloat16作为「第三道门」值得深挖
这暗示了一个可验证的预测:同一模型用fp32训练,稀疏度应该下降,山谷变宽。精度不只是约束,更是塑造RL路径景观的关键变量。
3. LoRA的成功暗示「方向比幅度更重要」
LoRA在低秩空间学习却更有效,与「压缩即智能」的假说不谋而合。也许未来方向不是"如何更新更多参数",而是"如何精确定位那0.1%的关键参数"。
4. 几何结构是「学来的」还是「天生的」?
如果模型几何是预训练阶段就确定的内在特征,是否可以用海森矩阵或谱结构来预测哪些方向「适合」RL更新?这可能导向一种「几何先验」的微调策略——根据模型自身的地形图选择最优路径。
这个框架也让我联想到锐利极小值vs平坦极小值之争:SFT走向敏感的山脊,RLVR走向鲁棒的山谷。RL的泛化优势或许不在于「学得更多」,而在于「走得更稳」。