RLVR的稀疏性之谜三道门理论与山脊山谷比喻

RLVR稀疏性的基本概念

强化学习在提升推理、编程能力时，参数更新呈现出极度的稀疏性。就像钢琴家只动小拇指就能演奏神曲，这种"四两拨千斤"的背后机制是什么？

SFT更新（稠密）

RLVR更新（稀疏）

RLVR(Reinforcement Learning with Value Regularization)是一个悖论现象：高成本、高收益的训练过程却只改变极小部分参数。这种稀疏性并非随机，而是由模型的内在几何结构决定的。

RLVR的稀疏性可以通过"三道门理论"来解释，每道门都对参数更新施加了约束：

门一：KL锚 (KL Anchor)

RL诱导一个单步策略-KL约束，保持更新接近基础策略，限制参数更新的幅度。

门二：模型几何 (Model Geometry)

将更新引导向低曲率、保持谱结构的方向，这是一个数据不变的特征，迫使模型避开"主方向"。

门三：精度 (Precision)

bfloat16格式作为一个透镜，通过隐藏微更新来放大这种偏差，使底层模式表现为明显的稀疏性。

这是一个精彩的几何比喻。监督微调(SFT)和RLVR在参数空间中选择了完全不同的路径：

山脊 (SFT路径)

沿着高曲率的"主干方向"攀登险峰，导致剧烈的谱漂移，改变模型的核心知识结构。

山谷 (RLVR路径)

选择在平缓的"偏离主干"山谷中徒步，保留模型核心知识结构，实现高效且安全的学习。

为什么低秩适配器(LoRA)天然适合强化学习？相反，专为SFT设计的PiSSA为何在RL任务中会导致训练崩溃？

LoRA：天然适合RL

LoRA自然地更新非主方向，与RLVR的"山谷路径"完美契合。它在低秩空间中学习，不会破坏模型的核心几何结构，因此能够稳定地提升推理能力。

PiSSA：RL中的"登山者"

PiSSA专注于更新主奇异值对应的"主方向"，这相当于强制模型沿着"山脊"攀登。在RL任务中，这种策略会导致训练崩溃，因为它违背了RLVR的基本优化原理。

实验证明，PiSSA在RLVR中不仅没有比普通LoRA更好，反而因为强制模型走"高山"路径而更容易训练崩溃。这表明RL和SFT需要不同的参数高效微调策略。