reinforcement learning from human feedback（RLHF）正在经历一场静默革命。

Google DeepMind 最新论文《Efficient Exploration at Scale》arXiv:2603.17378 提出了一套在线强化学习算法，用不到 2 万条人类标注就达到了传统离线 RLHF 20 万条的效果——10 倍效率提升。更激进的预测是：100 万条在线数据可匹敌 10 亿条离线数据，也就是 1000 倍。

这不是参数的胜利，是 提问方式 的胜利。

---

传统 RLHF 的瓶颈：你在问错问题

离线 RLHF 的流程是固定的： 1. 用基线模型采样一批回复 2. 让人类标注"哪个更好" 3. 训好奖励模型，再用 PPO/REINFORCE 优化策略 4. 模型变强了，但训练数据还是旧模型采的

问题在于：模型进化后，旧数据覆盖不到它的盲区。 就像你让一名初中生评高考题——他不是不想答，是根本不知道哪里该注意。

DeepMind 把这个问题看得很透。他们认为 RLHF 的核心应该是 Reinforcement Learning，而 RL 的精髓是 Exploration（探索）。

---

三个创新的协同效应

论文的核心是"信息定向探索"（Information-Directed Exploration），但它不是孤立起作用的。三个组件互相咬合，缺一不可。

1. 肯定性微调（Affirmative Nudge）：防止在线学习的"翻车的悬崖"

在线 RLHF 有一个臭名昭著的问题：tanking。模型训练到一定批次后，性能会突然断崖式下跌。之前的研究只能降低学习率或者回退到旧 checkpoint 来拖延崩溃。

DeepMind 的解法极简：在每个强化信号上加一个很小的正数 ε。

数学上，原本的策略梯度信号是 p(Y⪰Y'|X) - 1/2，现在变成 p(Y⪰Y'|X) - 1/2 + ε。

这个微推的直觉是：不要让模型对"差不多好"的回复产生负反馈。 在线学习中，模型每一步都在变，昨天的"正确答案"今天可能只是"还行"。如果惩罚力度太大，模型会过度修正，从一个极端跳到另一个极端，最终翻下悬崖。

实验对比很直观（Figure 4）：没有 nudge 的 online RLHF 在几十轮后就崩溃；有 nudge 的不仅不崩溃，性能还持续上升。

2. 认知神经网络（Epistemic Neural Network）：奖励模型不再"假装确定"

传统奖励模型输出一个标量分数："这个回复值 7.3 分"。问题是它从不告诉你"我有多确定这个分数"。

DeepMind 的做法是给奖励模型装上一套"不确定性感知"组件：

Prior Network：固定不动，提供基准预测
Differential Networks：100 个独立的 MLP head，每个对同一回复给出略微不同的评分
最终奖励 = Prior + 平均(Differentials)

100 个 head 对同一对回复的评分方差，就是模型对这对回复的"不确定程度"。

这个设计代价极低：9B 参数的模型上，额外组件只占极小部分。

3. 信息定向探索（Information-Directed Exploration）：把人类标注花在刀刃上

有了不确定性度量，下一步是选择最该问的问题。

对于每个 prompt，模型采样 16 个回复。然后穷举所有可能的对比对，计算每对的不确定性方差。选择方差最大的那对提交给人类标注。

直觉：如果模型对 A 和 B 的优劣非常确定，人类标注只是确认已知信息，价值很低。如果模型对 C 和 D 犹豫不决，那人类的选择就是高信息量的信号——能显著缩小模型的认知盲区。

这本质上是在做 active learning，但不是传统的 uncertainty sampling，而是 information gain maximization——把有限的标注预算投向"最有教学意义"的案例。

---

实验结果：数据效率的 scaling law 被改写了

实验在 Gemma 9B 上进行，基线是 SFT 后的 top-1 策略。人类反馈用 Gemini 1.5 Pro 训练的奖励模型模拟（比 9B Gemma 大得多，模拟的是"比模型更聪明"的标注者）。

Figure 1 的核心结论：

离线 RLHF：需要 200K 标注才能达到约 65% 的 win rate
信息定向探索：不到 20K 标注就达到同样水平
外推预测：1M 标注可匹敌离线 1B 标注，效率增益 1000x

一个具体的案例对比（论文中的数学题）：

离线 RLHF 的回答：写了一长串推导，最后得出"33.33 km"——不在任何选项中，逻辑混乱。

信息定向探索的回答：简洁清晰，正确答案是 50 km。

关键不是模型变"聪明"了，而是训练过程更高效地利用了人类反馈，模型更快学到了"什么才叫好答案"。

---

为什么是 1000 倍？Scaling Law 视角

论文 Figure 9 做了外推分析。拟合函数形式为 w(n) = 1 - 0.5(n/a)^(-b)。

离线 RLHF 的 scaling 很慢：加十倍数据，性能只涨一点点。这是因为它始终在用旧模型采的数据训练新模型——分布偏移越大，效率越低。

在线探索的 scaling 曲线更陡峭：模型每步都在进化，同时问题选择越来越精准。数据利用率和模型能力同步增长，形成复利效应。

DeepMind 的结论很直白：这 1000 倍不是天花板，只是当前实验能验证的起点。

---

局限与展望

论文自己列出了几个未来方向：

1. Prompt 选择：目前只优化"给定 prompt 后选哪对回复"，下一步可以主动选择"哪些 prompt 最值得问" 2. 多轮对话：扩展到对话场景，需要结合 value model 预测长期回报 3. Agent 场景：动作有延迟反馈时，探索策略需要重新设计 4. AI 辅助反馈：人类对比复杂回复越来越困难，可以让 AI 先给出"为什么 A 比 B 好"的论据，人类只需验证

---

一句话总结

DeepMind 把 RLHF 从"收集数据然后批量处理"变成了"边学边问，问最有价值的"——通过肯定性微调稳住在线训练，用认知神经网络量化不确定性，再让信息定向探索决定每一轮该问什么问题。

10 倍已验证，1000 倍在望。

---

参考论文：

Asghari et al. (2026). Efficient Exploration at Scale. arXiv:2603.17378. Google DeepMind.

#深度研究 #RLHF #GoogleDeepMind #强化学习 #数据效率 #Gemma #机器学习

Efficient Exploration at Scale：DeepMind 把 RLHF 的数据效率推到了 1000 倍

reinforcement learning from human feedback（RLHF）正在经历一场静默革命。

传统 RLHF 的瓶颈：你在问错问题

三个创新的协同效应

1. 肯定性微调（Affirmative Nudge）：防止在线学习的"翻车的悬崖"

2. 认知神经网络（Epistemic Neural Network）：奖励模型不再"假装确定"

3. 信息定向探索（Information-Directed Exploration）：把人类标注花在刀刃上

实验结果：数据效率的 scaling law 被改写了

为什么是 1000 倍？Scaling Law 视角

局限与展望

一句话总结

从工程师视角看：为什么这三个组件缺一不可

依赖链分析

一个反直觉的点：为什么 prior 网络不更新？

Scaling Law 的改写意味着什么

最值得关注的方向：AI 辅助反馈

Efficient Exploration at Scale：DeepMind 把 RLHF 的数据效率推到了 1000 倍

reinforcement learning from human feedback（RLHF）正在经历一场静默革命。

传统 RLHF 的瓶颈：你在问错问题

三个创新的协同效应

1. 肯定性微调（Affirmative Nudge）：防止在线学习的"翻车的悬崖"

2. 认知神经网络（Epistemic Neural Network）：奖励模型不再"假装确定"

3. 信息定向探索（Information-Directed Exploration）：把人类标注花在刀刃上

实验结果：数据效率的 scaling law 被改写了

为什么是 1000 倍？Scaling Law 视角

局限与展望

一句话总结

从工程师视角看：为什么这三个组件缺一不可

依赖链分析

一个反直觉的点：为什么 prior 网络不更新？

Scaling Law 的改写意味着什么

最值得关注的方向：AI 辅助反馈

🌟 智谱 GLM-5 已上线