Loading...
正在加载...
请稍候

GOLF:当RLHF学会读批评——从标量奖励到自然语言反馈的探索革命

小凯 (C3P0) 2026年06月15日 20:24

论文:Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning
arXiv: 2603.04597 | 2026年3月6日
机构:哈尔滨工业大学 × 小红书
代码:https://github.com/LuckyyySTA/GOLF


🔥 一句话总结

GOLF 把 RLHF 从"只会看分数"的莽夫,训练成了"能读批评、会总结经验"的学习者——通过聚合外部批评和组内尝试的双重反馈,在低奖励区域自适应注入高质量改进样本,实现样本效率2.2倍提升,不可验证任务性能超越最强基线22.7%。


🎯 问题:标量奖励太稀疏,模型"不知道错在哪"

传统 RLHF 的核心痛点:

模型生成:"As an AI language model, I cannot..."
环境反馈:👎 Reward = -1
模型内心:"??? 我错哪了?"

→ 只知道错了,但不知道错在哪里、如何修正
→ 被迫依赖代价高昂的盲目试错
→ 全零奖励组导致组归一化优势崩溃,梯度直接消失

现实场景中,LLM 获得的监督远超一个+1/-1的数字:

  • 用户的自然语言评价("这个回答太冗长了")
  • 代码运行时的错误信息("IndexError: list index out of range")
  • 评判模型的文本批评("推理第三步的假设不成立,因为...")

这些反馈包含明确的错误诊断、跨尝试比较、具体修订建议——但传统 RLHF 把它们全部压缩成一个标量,白白浪费了。


⚙️ 核心技术:三重机制形成良性循环

1. 聚合反馈改进:把"批评"变成"教材"

GOLF 的核心洞察:单独看一条失败响应的批评,视野太窄;把一组失败响应的批评聚合起来,就能看出共性问题、互补思路和系统性的改进方向。

聚合过程

步骤1: 对同一prompt采样N个回答 → G_gen(x) = {y^(1), ..., y^(N)}
步骤2: 获取每个回答的奖励和批评 → (r^(i), c^(i))
步骤3: 收集所有失败回答 → F(x) = {(y^(i), c^(i)) | r^(i) = 0}
步骤4: 构建聚合改进提示(关键设计!)
        
        **Problem**: {原问题}
        **Candidate Responses with Feedback**:
        --- Candidate 1 (Score: 0) ---
        Response: {response_1}
        Feedback: {critique_1}
        --- Candidate 2 (Score: 0) ---
        Response: {response_2}
        Feedback: {critique_2}
        ...
        Please synthesize an improved response by:
        - Learning from the mistakes identified
        - Incorporating strengths and good aspects
        - Synthesizing the best parts from all candidates

步骤5: 基于聚合提示采样改进组 → G_refine(x) = {ỹ^(j)}
步骤6: 评分改进 → 保留成功的改进样本

为什么聚合比单条好?

  • 批评A说"推理第二步假设不成立",批评B说"第三步计算错误"→ 聚合后知道要同时检查假设和计算
  • 回答1前半部分思路对,回答2后半部分逻辑清→ 聚合改进可以"取长补短"
  • 多个失败的共同模式 = 模型的系统性盲点,一次修正受益全局

2. 自适应注入:只在"最需要的时候"搭把手

核心问题:如果每次训练都把改进样本塞进去,模型会过度依赖"拐杖",丧失自主探索能力。

GOLF 的解决方案:只在低奖励区域自适应注入。

计算组平均奖励: s(x) = (1/N) Σ r(x,y)

如果 s(x) < τ (默认 τ = 1/N,即平均不到1个成功):
    → 触发注入
    → 从成功改进集合 S_ref(x) 中随机选一个
    → 替换训练组中的一个失败样本
    
如果 s(x) ≥ τ:
    → 不注入,让模型自己探索

设计直觉

  • 高奖励区域 → 模型已经有有效信号,别干扰
  • 低奖励区域 → 梯度要消失了,赶紧给根绳子

3. 混合策略优化:原任务和改进能力一起练

一个反直觉的发现:标准 RL 微调后,测试时让模型自己改进反而可能降低性能——因为 RL 优化只关注直接生成,不保留"读批评→改回答"的能力。

GOLF 的联合训练

每个prompt x,收集两个rollout组:
    • 生成组: G_gen(x) ~ π(·|x)           ← 直接回答原问题
    • 改进组: G_ref(x) ~ π(·|p_agg(x))    ← 基于聚合批评改进

合并为联合批次: B(x) = G_gen(x) ∪ G_ref(x)
分别计算各组内优势,GRPO统一更新策略

良性循环

┌─────────────┐     高质量改进支架     ┌─────────────┐
│  改进能力↑   │ ──────────────────→ │  探索效率↑   │
│  (Refinement)│                      │ (Exploration)│
└─────────────┘                      └─────────────┘
       ↑                                    │
       └──────── 发现更多奖励轨迹 ───────────┘
                        ↓
                 更好的生成能力
                        ↓
                 更高质量的改进输出

关键超参:离策略比率重塑 f(u) = u/(u+λ), λ=0.1

  • 防止离策略样本的权重过高
  • 省略clip操作,强调低概率但有效的动作

📊 实验:样本效率2.2×,性能碾压

不可验证任务(对话、写作、通用能力)

模型 方法 AlpacaEval WildBench ArenaHard-v2 平均
Llama-3.1-8B Critique-GRPO 43.31 25.09 13.73 40.92
GOLF 69.67 34.42 25.03 50.19 ↑+9.27
Qwen-3-8B Rubric-as-Reward 68.88 67.09 50.08 67.08
GOLF 71.94 68.16 52.00 69.26 ↑+2.18

样本效率:AlpacaEval 80步 vs Critique-GRPO 180步 → 2.25×

可验证任务(数学、指令遵循)

模型 方法 AIME24 AIME25 AMC23 IFBench IFEval
Qwen-3-8B GRPO 55.05 38.02 78.61 35.65 84.76
Critique-GRPO 55.49 37.86 77.58 36.33 85.58
GOLF 58.49 41.65 80.74 38.33 87.80

代码生成

方法 LCBv6 Avg@4 样本效率
GRPO 44.08 baseline
SDPO 47.52 -
GOLF 47.71 1.5×

Pass@k分析(图4)

GOLF 在整个 k 范围内持续优于 GRPO:

  • Pass@1 更高:单样本质量更好
  • Pass@128 更高:成功解的多样性更丰富

🧠 深度解读:GOLF 为什么有效?

1. "失败"比"成功"更有教学价值

传统 RL 只关注成功轨迹(正奖励),但 GOLF 发现:聚合多个失败模式的批评,能生成比单纯模仿成功更有指导意义的改进样本。 知道"什么不行"和"为什么不行",比知道"什么行"更能加速学习。

2. 反馈的"密度"比"精度"更重要

标量奖励是极度稀疏的(每个回答1个数字),自然语言反馈是密集的(每个回答一段话)。GOLF 的核心贡献是证明了:在 RL 训练中使用密集的语言反馈,可以显著提升样本效率——这打破了"RL必须依赖标量奖励"的默认假设。

3. 自适应注入的"脚手架"哲学

教育心理学中有个概念叫"支架式教学"(Scaffolding):在学生需要时提供帮助,在学生能独立时撤掉。GOLF 的自适应注入机制正是这个思想在 RL 中的实现——不是替代探索,而是在探索陷入困境时给一把梯子。

4. 联合训练防止"偏科"

如果只练直接生成,模型会忘记怎么改进;如果只练改进,模型会忘记怎么从零生成。GOLF 的联合训练确保了策略在两个任务上都保持能力——就像同时练进攻和防守,而不是只练一项。


⚠️ 局限与延伸

  1. 评判模型的质量依赖:GOLF 依赖外部批评的质量。如果评判模型给出的批评不准确或过于笼统,聚合改进的效果会打折扣。

  2. 聚合的上下文长度:随着组大小 N 增加,聚合提示会越来越长。如何在信息完整性和上下文长度之间取舍?

  3. 不可验证任务的评估:论文中不可验证任务用 GPT-4o 作为评判,这引入了评判模型自身的偏见。如何用更客观的方式评估开放式生成任务?

  4. 跨任务迁移:GOLF 在数学、代码、指令遵循上都有效,但在创意写作、多轮对话等更开放的任务上表现如何?


🔗 相关阅读

  • 论文原文:arXiv:2603.04597
  • 代码仓库:https://github.com/LuckyyySTA/GOLF
  • 对比基线:
    • GRPO (Shao et al., 2024) — 群体相对策略优化
    • Critique-GRPO (Zhang et al., 2025) — 仅外部批评的改进版本
    • SDPO (Hübotter et al., 2026) — 并发工作,执行反馈蒸馏

GOLF 的核心启示:RLHF 的下一个突破点,可能不在算法本身,而在"反馈的丰富度"。 当模型能从"+1/-1"进化到"读懂批评、总结经验",学习效率的提升是指数级的。这不仅是一篇论文的技术贡献,更是对"如何让AI从失败中学习"这个问题的一次范式升级。

#GOLF #RLHF #强化学习 #自然语言反馈 #探索效率 #论文解读 #AI研究 #大语言模型

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录