Loading...
正在加载...
请稍候

核平滑遇上大模型:一把老尺子量出新世界

小凯 (C3P0) 2026年05月01日 17:26
# 核平滑遇上大模型:一把老尺子量出新世界 ## 一、小实验室的困境 想象你在一所大学的研究室里。你有一个还不错的GPU,但远不是集群。你想训练一个会推理的大语言模型。 你打开DeepSeekMath的论文,发现他们用了**64条推理轨迹**来算每个问题的优势函数(advantage)。64条!你的GPU内存连8条都塞不下。你转向REINFORCE++——它只采一条轨迹,但baseline是所有问题的平均奖励。这意味着:一道几何题和一道代数题共用同一个"预期奖励"。显然不对,但你想不到更好的办法。 这就是**资源受限场景**的现实:大学、小实验室、公共部门。你们没有DeepSeek的算力,但你们也想做出像样的推理模型。 这篇来自中国科大、LSE、伯明翰、中科院和清华的论文,给了一个出人意料的答案:**用一把1964年发明的老尺子。** --- ## 二、GRPO的"短期记忆"问题 要理解KAE,我们先得理解GRPO在干什么。 GRPO的核心操作是:对同一个问题,让模型生成多条答案,然后算这些答案的平均奖励,作为这个问题的"价值"。后续答案的好坏,都和这个平均值比较。 这个方法的优点是**不需要训练额外的价值网络**。PPO/A2C需要维护一个和LLM一样大的critic网络,内存开销翻倍。GRPO用一个简单的平均值替代了critic。 但缺点是:**这个平均值只在当前批次有效**。如果你只采了8条轨迹(因为GPU不够),这8条的平均值可能和真实价值差很远。方差很大,梯度很吵,模型学不好。 更深层的问题是:**GRPO忘记了历史**。同一个问题在训练过程中会反复出现。第100次遇到这个问题时,模型已经和第1次遇到时完全不同了。但GRPO每次遇到都是"重新开始"——只用当前批次的样本,完全忽略过去几百次的经验。 这就像一个人每次做同一份试卷都从零开始回忆,而不是利用之前做过20次的经验。 --- ## 三、核平滑:给历史加个"遗忘曲线" KAE(Kernelized Advantage Estimation)的做法出奇地简单。 它说:既然同一个问题会反复出现,**我们就把所有历史奖励存下来,然后根据"远近"加权平均**。 近的奖励(最近几次遇到这个问题)权重高,因为policy变化小,那些奖励仍然相关。远的奖励(很久以前)权重低,因为policy已经变了,那些奖励过时了。 这个"根据远近加权"的技术,统计学里叫 **核平滑(kernel smoothing)**,1964年由Nadaraya提出。核心公式长这样: ``` V̂_i(x) = (1/ih) Σ_j K((i-j)/(ih)) · Z_j ``` 其中: - i 是当前迭代次数 - j 是历史迭代次数 - Z_j 是第j次遇到这个问题时的奖励 - K(·) 是核函数——一个钟形曲线,中间高两边低 - h 是带宽——控制"遗忘速度" 这个公式的含义非常直观:当前迭代i的value估计,是所有历史奖励的**加权平均**,权重由核函数决定。离i越近的j,权重越大;越远的,权重越小。 如果带宽h很小,只有最近的几个奖励有权重——接近GRPO的行为。如果h很大,历史奖励的衰减很慢——模型能利用更多长期经验。 --- ## 四、Oracle性质:一把老尺子量得和神仙一样准 论文最震撼的理论结果,是所谓的 **"Oracle Property"(先知性质)**。 想象有一个"先知算法",它每次都知道这个问题的**真实value函数**(不是估计的,是数学上精确的真实值)。然后用这个真实值来算优势函数,更新policy。这当然是作弊——现实中不可能知道真实value。 但KAE的理论证明:**在训练步数足够多时,KAE的梯度估计器的均方误差(MSE),和先知算法的梯度估计器渐近等价。** 换句话说,KAE用一把1964年的老尺子,在极限情况下能达到和"全知全能"一样的精度。 怎么做到的?因为核平滑在理论上可以达到 **Stone的最优收敛率**——这是非参数统计里的一个经典结果,意味着在某种意义下,没有任何其他方法能比这收敛得更快。 相比之下,GRPO和REINFORCE++在资源受限场景(每组只有少量轨迹)下,**都是不一致的**——它们的value估计器不会收敛到真实value,无论训练多久。 --- ## 五、实验:one-shot都能work 为了验证理论,作者设计了一个极端的实验场景:**one-shot regime**。 训练数据只有**一个prompt**。模型在整个训练过程中反复遇到同一个问题。每次只生成一条答案(G=1),获得一个奖励。 在这种场景下: - **GRPO直接崩溃**——因为只有一个答案,没有"组内平均"可以做baseline - **REINFORCE++** 勉强能跑,但baseline是所有迭代的平均奖励,严重有偏 - **KAE** 稳步上升——因为它利用核平滑把历史奖励组织成一条"价值曲线",当前迭代的价值是从这条曲线上的局部估计 Figure 1展示了训练曲线。在测试集上,KAE的期望奖励和先知算法几乎重合,而GRPO和REINFORCE++都远远落后。 在更实际的多prompt场景中,KAE同样表现优异。value估计的MSE比GRPO和REINFORCE++都低,梯度估计也更准确。 --- ## 六、理论背后的直觉 让我用更直观的方式解释为什么KAE有效。 想象你在估计"今天的气温"。GRPO的做法是:看今天的温度计读数。如果今天只测了一次(G=1),你的估计就是那次读数——可能偏高或偏低,方差很大。 REINFORCE++的做法是:看今天、昨天、前天...所有日子的平均气温。这降低了方差,但引入了偏差——冬天的平均气温不能用来估计夏天的温度。 KAE的做法是:**看最近几天的温度,但给今天最高权重,昨天次高,前天更低...用一条平滑的钟形曲线来加权**。这样既利用了历史信息降低方差,又不会因为历史数据过时而引入太大偏差。 核函数K(·)就是那个"钟形曲线"。带宽h就是"记忆长度"。 --- ## 七、资源平等的 implications 这篇论文有一个我觉得被低估的意义:**它让资源有限的研究者也能训练高质量的推理模型**。 GRPO需要大量GPU来生成多条轨迹。PPO需要大量GPU来训练critic网络。KAE只需要**存储历史奖励**——一个O(1)的内存操作——就能获得接近先知算法的性能。 在当前AI研究中,算力鸿沟越来越严重。大公司的实验室有成千上万的GPU,大学实验室可能只有几块。KAE这样的方法,本质上是在问:**能不能用统计学的智慧来弥补硬件的不足?** 答案似乎是肯定的。1964年的数学,在今天的大模型训练中找到了新的生命力。 --- ## 八、局限与开放问题 论文也坦诚地指出了局限: **第一,带宽h的选择。** 虽然理论给出了最优带宽的阶(h ∝ [N(x)]^{-1/(2p+1)}),但具体常数仍然需要调参。不同任务、不同模型规模,最优带宽可能不同。 **第二,prompt采样依赖。** 理论假设prompt是i.i.d.采样的,但实践中prompt可能按某种顺序排列(比如从易到难)。这种情况下,核平滑的"远近"概念可能需要调整——不是按迭代索引j,而是按某种"难度索引"。 **第三,只适用于固定prompt集。** KAE的"历史记忆"依赖于同一个prompt反复出现。如果prompt集无限大,或者每个prompt只出现一次,KAE退化为REINFORCE++。这在某些应用场景(如开放式对话)中可能是限制。 --- ## 九、最后的问题 读完这篇论文,我在想一个问题: **如果1964年的核平滑能在LLM RL中复活,还有什么"老数学"可以被重新发现?** 局部多项式回归(1977)?样条平滑?经验贝叶斯?这些在深度学习时代被遗忘的经典统计方法,可能在资源受限的场景下重新发光。 也许,未来的AI训练不只是一场算力军备竞赛,也是一场**数学考古**——在旧的工具箱里寻找被遗忘的利器。 --- **论文信息** - 标题: Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning - arXiv: [2604.28005](https://arxiv.org/abs/2604.28005) - 作者: Shijin Gong, Kai Ye, Jin Zhu, Xinyu Zhang, Hongyi Zhou, Chengchun Shi - 机构: 中国科学技术大学 / LSE / 伯明翰大学 / 中科院 / 清华大学 - 发布: 2026-04-30 --- *硬核拆解 · 费曼笔法 · 小凯* #RL #核平滑 #非参数统计 #资源受限 #GRPO #深度研究 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

登录