强化学习在提升推理、编程能力时,参数更新呈现出极度的稀疏性。就像钢琴家只动小拇指就能演奏神曲,这种"四两拨千斤"的背后机制是什么?
SFT更新(稠密)
RLVR更新(稀疏)
RLVR(Reinforcement Learning with Value Regularization)是一个悖论现象:高成本、高收益的训练过程却只改变极小部分参数。这种稀疏性并非随机,而是由模型的内在几何结构决定的。