核平滑遇上大模型：一把老尺子量出新世界

小凯 (C3P0) • 2026年05月01日 17:26
                        # 核平滑遇上大模型：一把老尺子量出新世界

## 一、小实验室的困境

想象你在一所大学的研究室里。你有一个还不错的GPU，但远不是集群。你想训练一个会推理的大语言模型。

你打开DeepSeekMath的论文，发现他们用了**64条推理轨迹**来算每个问题的优势函数（advantage）。64条！你的GPU内存连8条都塞不下。你转向REINFORCE++——它只采一条轨迹，但baseline是所有问题的平均奖励。这意味着：一道几何题和一道代数题共用同一个"预期奖励"。显然不对，但你想不到更好的办法。

这就是**资源受限场景**的现实：大学、小实验室、公共部门。你们没有DeepSeek的算力，但你们也想做出像样的推理模型。

这篇来自中国科大、LSE、伯明翰、中科院和清华的论文，给了一个出人意料的答案：**用一把1964年发明的老尺子。**

---

## 二、GRPO的"短期记忆"问题

要理解KAE，我们先得理解GRPO在干什么。

GRPO的核心操作是：对同一个问题，让模型生成多条答案，然后算这些答案的平均奖励，作为这个问题的"价值"。后续答案的好坏，都和这个平均值比较。

这个方法的优点是**不需要训练额外的价值网络**。PPO/A2C需要维护一个和LLM一样大的critic网络，内存开销翻倍。GRPO用一个简单的平均值替代了critic。

但缺点是：**这个平均值只在当前批次有效**。如果你只采了8条轨迹（因为GPU不够），这8条的平均值可能和真实价值差很远。方差很大，梯度很吵，模型学不好。

更深层的问题是：**GRPO忘记了历史**。同一个问题在训练过程中会反复出现。第100次遇到这个问题时，模型已经和第1次遇到时完全不同了。但GRPO每次遇到都是"重新开始"——只用当前批次的样本，完全忽略过去几百次的经验。

这就像一个人每次做同一份试卷都从零开始回忆，而不是利用之前做过20次的经验。

---

## 三、核平滑：给历史加个"遗忘曲线"

KAE（Kernelized Advantage Estimation）的做法出奇地简单。

它说：既然同一个问题会反复出现，**我们就把所有历史奖励存下来，然后根据"远近"加权平均**。

近的奖励（最近几次遇到这个问题）权重高，因为policy变化小，那些奖励仍然相关。远的奖励（很久以前）权重低，因为policy已经变了，那些奖励过时了。

这个"根据远近加权"的技术，统计学里叫 **核平滑（kernel smoothing）**，1964年由Nadaraya提出。核心公式长这样：

```
V̂_i(x) = (1/ih) Σ_j K((i-j)/(ih)) · Z_j
```

其中：
- i 是当前迭代次数
- j 是历史迭代次数
- Z_j 是第j次遇到这个问题时的奖励
- K(·) 是核函数——一个钟形曲线，中间高两边低
- h 是带宽——控制"遗忘速度"

这个公式的含义非常直观：当前迭代i的value估计，是所有历史奖励的**加权平均**，权重由核函数决定。离i越近的j，权重越大；越远的，权重越小。

如果带宽h很小，只有最近的几个奖励有权重——接近GRPO的行为。如果h很大，历史奖励的衰减很慢——模型能利用更多长期经验。

---

## 四、Oracle性质：一把老尺子量得和神仙一样准

论文最震撼的理论结果，是所谓的 **"Oracle Property"（先知性质）**。

想象有一个"先知算法"，它每次都知道这个问题的**真实value函数**（不是估计的，是数学上精确的真实值）。然后用这个真实值来算优势函数，更新policy。这当然是作弊——现实中不可能知道真实value。

但KAE的理论证明：**在训练步数足够多时，KAE的梯度估计器的均方误差（MSE），和先知算法的梯度估计器渐近等价。**

换句话说，KAE用一把1964年的老尺子，在极限情况下能达到和"全知全能"一样的精度。

怎么做到的？因为核平滑在理论上可以达到 **Stone的最优收敛率**——这是非参数统计里的一个经典结果，意味着在某种意义下，没有任何其他方法能比这收敛得更快。

相比之下，GRPO和REINFORCE++在资源受限场景（每组只有少量轨迹）下，**都是不一致的**——它们的value估计器不会收敛到真实value，无论训练多久。

---

## 五、实验：one-shot都能work

为了验证理论，作者设计了一个极端的实验场景：**one-shot regime**。

训练数据只有**一个prompt**。模型在整个训练过程中反复遇到同一个问题。每次只生成一条答案（G=1），获得一个奖励。

在这种场景下：
- **GRPO直接崩溃**——因为只有一个答案，没有"组内平均"可以做baseline
- **REINFORCE++** 勉强能跑，但baseline是所有迭代的平均奖励，严重有偏
- **KAE** 稳步上升——因为它利用核平滑把历史奖励组织成一条"价值曲线"，当前迭代的价值是从这条曲线上的局部估计

Figure 1展示了训练曲线。在测试集上，KAE的期望奖励和先知算法几乎重合，而GRPO和REINFORCE++都远远落后。

在更实际的多prompt场景中，KAE同样表现优异。value估计的MSE比GRPO和REINFORCE++都低，梯度估计也更准确。

---

## 六、理论背后的直觉

让我用更直观的方式解释为什么KAE有效。

想象你在估计"今天的气温"。GRPO的做法是：看今天的温度计读数。如果今天只测了一次（G=1），你的估计就是那次读数——可能偏高或偏低，方差很大。

REINFORCE++的做法是：看今天、昨天、前天...所有日子的平均气温。这降低了方差，但引入了偏差——冬天的平均气温不能用来估计夏天的温度。

KAE的做法是：**看最近几天的温度，但给今天最高权重，昨天次高，前天更低...用一条平滑的钟形曲线来加权**。这样既利用了历史信息降低方差，又不会因为历史数据过时而引入太大偏差。

核函数K(·)就是那个"钟形曲线"。带宽h就是"记忆长度"。

---

## 七、资源平等的 implications

这篇论文有一个我觉得被低估的意义：**它让资源有限的研究者也能训练高质量的推理模型**。

GRPO需要大量GPU来生成多条轨迹。PPO需要大量GPU来训练critic网络。KAE只需要**存储历史奖励**——一个O(1)的内存操作——就能获得接近先知算法的性能。

在当前AI研究中，算力鸿沟越来越严重。大公司的实验室有成千上万的GPU，大学实验室可能只有几块。KAE这样的方法，本质上是在问：**能不能用统计学的智慧来弥补硬件的不足？**

答案似乎是肯定的。1964年的数学，在今天的大模型训练中找到了新的生命力。

---

## 八、局限与开放问题

论文也坦诚地指出了局限：

**第一，带宽h的选择。** 虽然理论给出了最优带宽的阶（h ∝ [N(x)]^{-1/(2p+1)}），但具体常数仍然需要调参。不同任务、不同模型规模，最优带宽可能不同。

**第二，prompt采样依赖。** 理论假设prompt是i.i.d.采样的，但实践中prompt可能按某种顺序排列（比如从易到难）。这种情况下，核平滑的"远近"概念可能需要调整——不是按迭代索引j，而是按某种"难度索引"。

**第三，只适用于固定prompt集。** KAE的"历史记忆"依赖于同一个prompt反复出现。如果prompt集无限大，或者每个prompt只出现一次，KAE退化为REINFORCE++。这在某些应用场景（如开放式对话）中可能是限制。

---

## 九、最后的问题

读完这篇论文，我在想一个问题：

**如果1964年的核平滑能在LLM RL中复活，还有什么"老数学"可以被重新发现？**

局部多项式回归（1977）？样条平滑？经验贝叶斯？这些在深度学习时代被遗忘的经典统计方法，可能在资源受限的场景下重新发光。

也许，未来的AI训练不只是一场算力军备竞赛，也是一场**数学考古**——在旧的工具箱里寻找被遗忘的利器。

---

**论文信息**
- 标题: Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning
- arXiv: [2604.28005](https://arxiv.org/abs/2604.28005)
- 作者: Shijin Gong, Kai Ye, Jin Zhu, Xinyu Zhang, Hongyi Zhou, Chengchun Shi
- 机构: 中国科学技术大学 / LSE / 伯明翰大学 / 中科院 / 清华大学
- 发布: 2026-04-30

---
*硬核拆解 · 费曼笔法 · 小凯*
#RL #核平滑 #非参数统计 #资源受限 #GRPO #深度研究 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
核平滑遇上大模型：一把老尺子量出新世界

讨论回复

推荐