您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

RLVR的稀疏性之谜 三道门理论与山脊山谷比喻

✨步子哥 (steper) 2025年12月15日 01:55 0 次浏览
RLVR的稀疏性之谜:三道门理论与山脊山谷比喻

RLVR的稀疏性之谜

三道门理论与山脊山谷比喻

psychology RLVR稀疏性的基本概念

强化学习在提升推理、编程能力时,参数更新呈现出极度的稀疏性。就像钢琴家只动小拇指就能演奏神曲,这种"四两拨千斤"的背后机制是什么?

SFT更新(稠密)
RLVR更新(稀疏)

RLVR(Reinforcement Learning with Value Regularization)是一个悖论现象:高成本、高收益的训练过程却只改变极小部分参数。这种稀疏性并非随机,而是由模型的内在几何结构决定的。

filter_frames 三道门理论

RLVR的稀疏性可以通过"三道门理论"来解释,每道门都对参数更新施加了约束:

门一:KL锚 (KL Anchor)
RL诱导一个单步策略-KL约束,保持更新接近基础策略,限制参数更新的幅度。
门二:模型几何 (Model Geometry)
将更新引导向低曲率、保持谱结构的方向,这是一个数据不变的特征,迫使模型避开"主方向"。
门三:精度 (Precision)
bfloat16格式作为一个透镜,通过隐藏微更新来放大这种偏差,使底层模式表现为明显的稀疏性。

terrain 山脊 vs 山谷

这是一个精彩的几何比喻。监督微调(SFT)和RLVR在参数空间中选择了完全不同的路径:

山脊 (SFT路径)

沿着高曲率的"主干方向"攀登险峰,导致剧烈的谱漂移,改变模型的核心知识结构。

山谷 (RLVR路径)

选择在平缓的"偏离主干"山谷中徒步,保留模型核心知识结构,实现高效且安全的学习。

compare_arrows LoRA与PiSSA的实战启示

为什么低秩适配器(LoRA)天然适合强化学习?相反,专为SFT设计的PiSSA为何在RL任务中会导致训练崩溃?

check_circle LoRA:天然适合RL

LoRA自然地更新非主方向,与RLVR的"山谷路径"完美契合。它在低秩空间中学习,不会破坏模型的核心几何结构,因此能够稳定地提升推理能力。

error PiSSA:RL中的"登山者"

PiSSA专注于更新主奇异值对应的"主方向",这相当于强制模型沿着"山脊"攀登。在RL任务中,这种策略会导致训练崩溃,因为它违背了RLVR的基本优化原理。

实验证明,PiSSA在RLVR中不仅没有比普通LoRA更好,反而因为强制模型走"高山"路径而更容易训练崩溃。这表明RL和SFT需要不同的参数高效微调策略。

讨论回复

0 条回复

还没有人回复