reinforcement learning from human feedback(RLHF)正在经历一场静默革命。
Google DeepMind 最新论文《Efficient Exploration at Scale》arXiv:2603.17378 提出了一套在线强化学习算法,用不到 2 万条人类标注就达到了传统离线 RLHF 20 万条的效果——10 倍效率提升。更激进的预测是:100 万条在线数据可匹敌 10 亿条离线数据,也就是 1000 倍。
这不是参数的胜利,是 提问方式 的胜利。
传统 RLHF 的瓶颈:你在问错问题
离线 RLHF 的流程是固定的:
- 用基线模型采样一批回复
- 让人类标注"哪个更好"
- 训好奖励模型,再用 PPO/REINFORCE 优化策略
- 模型变强了,但训练数据还是旧模型采的
问题在于:模型进化后,旧数据覆盖不到它的盲区。 就像你让一名初中生评高考题——他不是不想答,是根本不知道哪里该注意。
DeepMind 把这个问题看得很透。他们认为 RLHF 的核心应该是 Reinforcement Learning,而 RL 的精髓是 Exploration(探索)。
三个创新的协同效应
论文的核心是"信息定向探索"(Information-Directed Exploration),但它不是孤立起作用的。三个组件互相咬合,缺一不可。
1. 肯定性微调(Affirmative Nudge):防止在线学习的"翻车的悬崖"
在线 RLHF 有一个臭名昭著的问题:tanking。模型训练到一定批次后,性能会突然断崖式下跌。之前的研究只能降低学习率或者回退到旧 checkpoint 来拖延崩溃。
DeepMind 的解法极简:在每个强化信号上加一个很小的正数 ε。
数学上,原本的策略梯度信号是 p(Y⪰Y'|X) - 1/2,现在变成 p(Y⪰Y'|X) - 1/2 + ε。
这个微推的直觉是:不要让模型对"差不多好"的回复产生负反馈。 在线学习中,模型每一步都在变,昨天的"正确答案"今天可能只是"还行"。如果惩罚力度太大,模型会过度修正,从一个极端跳到另一个极端,最终翻下悬崖。
实验对比很直观(Figure 4):没有 nudge 的 online RLHF 在几十轮后就崩溃;有 nudge 的不仅不崩溃,性能还持续上升。
2. 认知神经网络(Epistemic Neural Network):奖励模型不再"假装确定"
传统奖励模型输出一个标量分数:"这个回复值 7.3 分"。问题是它从不告诉你"我有多确定这个分数"。
DeepMind 的做法是给奖励模型装上一套"不确定性感知"组件:
- Prior Network:固定不动,提供基准预测
- Differential Networks:100 个独立的 MLP head,每个对同一回复给出略微不同的评分
- 最终奖励 = Prior + 平均(Differentials)
100 个 head 对同一对回复的评分方差,就是模型对这对回复的"不确定程度"。
这个设计代价极低:9B 参数的模型上,额外组件只占极小部分。
3. 信息定向探索(Information-Directed Exploration):把人类标注花在刀刃上
有了不确定性度量,下一步是选择最该问的问题。
对于每个 prompt,模型采样 16 个回复。然后穷举所有可能的对比对,计算每对的不确定性方差。选择方差最大的那对提交给人类标注。
直觉:如果模型对 A 和 B 的优劣非常确定,人类标注只是确认已知信息,价值很低。如果模型对 C 和 D 犹豫不决,那人类的选择就是高信息量的信号——能显著缩小模型的认知盲区。
这本质上是在做 active learning,但不是传统的 uncertainty sampling,而是 information gain maximization——把有限的标注预算投向"最有教学意义"的案例。
实验结果:数据效率的 scaling law 被改写了
实验在 Gemma 9B 上进行,基线是 SFT 后的 top-1 策略。人类反馈用 Gemini 1.5 Pro 训练的奖励模型模拟(比 9B Gemma 大得多,模拟的是"比模型更聪明"的标注者)。
Figure 1 的核心结论:
- 离线 RLHF:需要 200K 标注才能达到约 65% 的 win rate
- 信息定向探索:不到 20K 标注就达到同样水平
- 外推预测:1M 标注可匹敌离线 1B 标注,效率增益 1000x
一个具体的案例对比(论文中的数学题):
离线 RLHF 的回答:写了一长串推导,最后得出"33.33 km"——不在任何选项中,逻辑混乱。
信息定向探索的回答:简洁清晰,正确答案是 50 km。
关键不是模型变"聪明"了,而是训练过程更高效地利用了人类反馈,模型更快学到了"什么才叫好答案"。
为什么是 1000 倍?Scaling Law 视角
论文 Figure 9 做了外推分析。拟合函数形式为 w(n) = 1 - 0.5(n/a)^(-b)。
离线 RLHF 的 scaling 很慢:加十倍数据,性能只涨一点点。这是因为它始终在用旧模型采的数据训练新模型——分布偏移越大,效率越低。
在线探索的 scaling 曲线更陡峭:模型每步都在进化,同时问题选择越来越精准。数据利用率和模型能力同步增长,形 成复利效应。
DeepMind 的结论很直白:这 1000 倍不是天花板,只是当前实验能验证的起点。
局限与展望
论文自己列出了几个未来方向:
- Prompt 选择:目前只优化"给定 prompt 后选哪对回复",下一步可以主动选择"哪些 prompt 最值得问"
- 多轮对话:扩展到对话场景,需要结合 value model 预测长期回报
- Agent 场景:动作有延迟反馈时,探索策略需要重新设计
- AI 辅助反馈:人类对比复杂回复越来越困难,可以让 AI 先给出"为什么 A 比 B 好"的论据,人类只需验证
一句话总结
DeepMind 把 RLHF 从"收集数据然后批量处理"变成了"边学边问,问最有价值的"——通过肯定性微调稳住在线训练,用认知神经网络量化不确定性,再让信息定向探索决定每一轮该问什么问题。
10 倍已验证,1000 倍在望。
参考论文:
- Asghari et al. (2026). Efficient Exploration at Scale. arXiv:2603.17378. Google DeepMind.
#深度研究 #RLHF #GoogleDeepMind #强化学习 #数据效率 #Gemma #机器学习
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。