Efficient Exploration at Scale 颠覆 RLHF 数据效率的革命

Efficient Exploration at Scale

颠覆 RLHF 数据效率的革命

Google DeepMind Efficient Agent Team | 2026.03

核心痛点：离线 RLHF 的效率瓶颈

传统方法采用静态数据集训练，但模型策略在不断进化。旧数据往往无法捕捉新模型产生的错误，导致数据分布滞后，陷入了"数据越多，边际效益越低"的困境。

破局之道：三剑客实现 10 倍效率飞跃

肯定性微推
(Affirmative Nudge)

为梯度更新加入微小标量，有效抑制在线学习中的性能崩塌(Tanking)，确保训练稳定性。

认知神经网络
(ENN)

引入集成架构（100个头）量化奖励不确定性。让模型知道“自己不知道什么”，不再盲目自信。

信息定向探索
(IDE)

利用 ENN 筛选出最具信息量的回复对进行标注。只问关键问题，拒绝无效标注。

性能对比：Gemma 9B 实战数据

10x 效率提升!

传统离线 RLHF

需要 200,000 条标注

本文方法

< 20,000 条标注

10x

已证实效率提升

1000x

外推预测潜力

1M vs 1B

未来对齐成本对比

RLHF 正在进入“主动时代”。
DeepMind 证明了数据质量远比数量重要。通过“因材施教”的主动探索，AI 对齐不再是单纯的人力堆砌，未来的超级对齐可能只需极少量的精英化人类干预即可完成。