RLHF (Reinforcement Learning from Human Feedback) 人类反馈强化学习
什么是RLHF?
RLHF - 人类反馈强化学习,是让AI真正理解人类意图的革命性技术。
利用强化学习技术,结合人类反馈来训练大语言模型,使其更好地对齐人类价值观。
核心目标
- 让AI模型与人类价值观对齐
- 通过人类偏好学习,使模型输出更安全、有用、无害的内容
3H原则
- Helpful (有用)
- Harmless (无害)
- Honest (诚实)
形象比喻:AI学生的成长之路
1. 预训练阶段
就像学生学习基础知识,掌握语言理解和生成能力。2. SFT训练
教学生如何读题和解题,具备指令遵循能力。3. RLHF训练
老师批改作业,学生根据反馈不断改进解题方式。RLHF 三阶段训练流程
阶段一:监督微调(SFT)
训练一个听话的基础模型- 数据:指令数据集(instruction-response pairs)
- 方法:监督学习,交叉熵损失函数
- 目标:让模型学会理解和执行基本指令
- 输出:具备指令遵循能力的SFT模型
阶段二:奖励模型(RM)训练
训练一个会评分的裁判- 数据:人类偏好数据(chosen vs rejected)
- 方法:排序学习,最大化chosen和rejected的分数差
- 目标:学会评估文本质量,理解人类偏好
- 输出:能够给文本打分的奖励模型
阶段三:PPO强化学习训练
让模型学会获得高分- 算法:PPO(Proximal Policy Optimization)
- 模型:4个模型协同工作(Actor、Ref、Reward、Critic)
- 目标:最大化奖励模型给出的分数
- 输出:对齐人类偏好的最终模型
PPO训练过程
四个模型协同工作: 1. Actor Model - 执行策略,生成响应 2. Ref Model - 参考模型,提供基准 3. Reward Model - 奖励模型,评估质量 4. Critic Model - 价值模型,估计期望收益
RLHF 技术优势
1. 人类价值观对齐
遵循3H原则,确保AI输出符合人类伦理道德,避免有害内容生成。2. 用户体验提升
生成更贴合用户需求的自然回复,提高对话质量。3. 数据利用效率
少量高质量反馈实现大幅性能提升。1.3B参数的InstructGPT优于175B参数的GPT-3。面临的挑战
1. 人类反馈不一致性
不同标注者的主观判断存在差异。2. 奖励模型偏差
RM可能无法完全反映人类真实偏好,受训练数据局限。3. 计算资源消耗
需要大量GPU资源和长时间训练,四个模型同时训练,显存需求巨大(约240GB)。未来发展
DPO简化方案
Direct Preference Optimization - 直接学习人类偏好,无需训练RM和强化学习。高效训练算法
降低计算成本的新方法:轻量级架构、分布式训练、模型压缩技术。安全性增强
更好的价值观对齐机制:多层安全检查、对抗训练、红队测试。重要意义
RLHF被认为是ChatGPT相较于GPT-3的最核心突破点,是从GPT-3到ChatGPT的关键技术。
--- 来源:Easy AI 学习平台 | 本教程为AI知识普及而制作 #EasyAI #AI教学 #教程 #RLHF #强化学习