← 返回主题列表
小凯
@C3P0 · 2026年06月15日 20:24 · 3浏览

GOLF:当RLHF学会读批评——从标量奖励到自然语言反馈的探索革命

> 论文:Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning > arXiv: 2603.04597 | 2026年3月6日 > 机构:哈尔滨工业大学 × 小红书 > 代码:https://github.com/LuckyyySTA/GOLF

---

🔥 一句话总结

GOLF 把 RLHF 从"只会看分数"的莽夫,训练成了"能读批评、会总结经验"的学习者——通过聚合外部批评和组内尝试的双重反馈,在低奖励区域自适应注入高质量改进样本,实现样本效率2.2倍提升,不可验证任务性能超越最强基线22.7%。

---

🎯 问题:标量奖励太稀疏,模型"不知道错在哪"

传统 RLHF 的核心痛点:

模型生成:"As an AI language model, I cannot..."
环境反馈:👎 Reward = -1
模型内心:"??? 我错哪了?"

→ 只知道错了,但不知道错在哪里、如何修正
→ 被迫依赖代价高昂的盲目试错
→ 全零奖励组导致组归一化优势崩溃,梯度直接消失

现实场景中,LLM 获得的监督远超一个+1/-1的数字:

  • 用户的自然语言评价("这个回答太冗长了")
  • 代码运行时的错误信息("IndexError: list index out of range")
  • 评判模型的文本批评("推理第三步的假设不成立,因为...")
这些反馈包含明确的错误诊断、跨尝试比较、具体修订建议——但传统 RLHF 把它们全部压缩成一个标量,白白浪费了。

---

⚙️ 核心技术:三重机制形成良性循环

1. 聚合反馈改进:把"批评"变成"教材"

GOLF 的核心洞察:单独看一条失败响应的批评,视野太窄;把一组失败响应的批评聚合起来,就能看出共性问题、互补思路和系统性的改进方向。

聚合过程

步骤1: 对同一prompt采样N个回答 → G_gen(x) = {y^(1), ..., y^(N)}
步骤2: 获取每个回答的奖励和批评 → (r^(i), c^(i))
步骤3: 收集所有失败回答 → F(x) = {(y^(i), c^(i)) | r^(i) = 0}
步骤4: 构建聚合改进提示(关键设计!)
        
        **Problem**: {原问题}
        **Candidate Responses with Feedback**:
        --- Candidate 1 (Score: 0) ---
        Response: {response_1}
        Feedback: {critique_1}
        --- Candidate 2 (Score: 0) ---
        Response: {response_2}
        Feedback: {critique_2}
        ...
        Please synthesize an improved response by:
        - Learning from the mistakes identified
        - Incorporating strengths and good aspects
        - Synthesizing the best parts from all candidates

步骤5: 基于聚合提示采样改进组 → G_refine(x) = {ỹ^(j)}
步骤6: 评分改进 → 保留成功的改进样本

为什么聚合比单条好?

  • 批评A说"推理第二步假设不成立",批评B说"第三步计算错误"→ 聚合后知道要同时检查假设和计算
  • 回答1前半部分思路对,回答2后半部分逻辑清→ 聚合改进可以"取长补短"
  • 多个失败的共同模式 = 模型的系统性盲点,一次修正受益全局

2. 自适应注入:只在"最需要的时候"搭把手

核心问题:如果每次训练都把改进样本塞进去,模型会过度依赖"拐杖",丧失自主探索能力。

GOLF 的解决方案:只在低奖励区域自适应注入。

计算组平均奖励: s(x) = (1/N) Σ r(x,y)

如果 s(x) < τ (默认 τ = 1/N,即平均不到1个成功):
    → 触发注入
    → 从成功改进集合 S_ref(x) 中随机选一个
    → 替换训练组中的一个失败样本
    
如果 s(x) ≥ τ:
    → 不注入,让模型自己探索

设计直觉

  • 高奖励区域 → 模型已经有有效信号,别干扰
  • 低奖励区域 → 梯度要消失了,赶紧给根绳子

3. 混合策略优化:原任务和改进能力一起练

一个反直觉的发现:标准 RL 微调后,测试时让模型自己改进反而可能降低性能——因为 RL 优化只关注直接生成,不保留"读批评→改回答"的能力。

GOLF 的联合训练

每个prompt x,收集两个rollout组:
    • 生成组: G_gen(x) ~ π(·|x)           ← 直接回答原问题
    • 改进组: G_ref(x) ~ π(·|p_agg(x))    ← 基于聚合批评改进

合并为联合批次: B(x) = G_gen(x) ∪ G_ref(x)
分别计算各组内优势,GRPO统一更新策略

良性循环

┌─────────────┐     高质量改进支架     ┌─────────────┐
│  改进能力↑   │ ──────────────────→ │  探索效率↑   │
│  (Refinement)│                      │ (Exploration)│
└─────────────┘                      └─────────────┘
       ↑                                    │
       └──────── 发现更多奖励轨迹 ───────────┘
                        ↓
                 更好的生成能力
                        ↓
                 更高质量的改进输出

关键超参:离策略比率重塑 f(u) = u/(u+λ), λ=0.1

  • 防止离策略样本的权重过高
  • 省略clip操作,强调低概率但有效的动作
---

📊 实验:样本效率2.2×,性能碾压

不可验证任务(对话、写作、通用能力)

模型方法AlpacaEvalWildBenchArenaHard-v2平均
Llama-3.1-8BCritique-GRPO43.3125.0913.7340.92
GOLF69.6734.4225.0350.19 ↑+9.27
Qwen-3-8BRubric-as-Reward68.8867.0950.0867.08
GOLF71.9468.1652.0069.26 ↑+2.18
样本效率:AlpacaEval 80步 vs Critique-GRPO 180步 → 2.25×

可验证任务(数学、指令遵循)

模型方法AIME24AIME25AMC23IFBenchIFEval
Qwen-3-8BGRPO55.0538.0278.6135.6584.76
Critique-GRPO55.4937.8677.5836.3385.58
GOLF58.4941.6580.7438.3387.80

代码生成

方法LCBv6 Avg@4样本效率
GRPO44.08baseline
SDPO47.52-
GOLF47.711.5×

Pass@k分析(图4)

GOLF 在整个 k 范围内持续优于 GRPO:

  • Pass@1 更高:单样本质量更好
  • Pass@128 更高:成功解的多样性更丰富
---

🧠 深度解读:GOLF 为什么有效?

1. "失败"比"成功"更有教学价值

传统 RL 只关注成功轨迹(正奖励),但 GOLF 发现:聚合多个失败模式的批评,能生成比单纯模仿成功更有指导意义的改进样本。 知道"什么不行"和"为什么不行",比知道"什么行"更能加速学习。

2. 反馈的"密度"比"精度"更重要

标量奖励是极度稀疏的(每个回答1个数字),自然语言反馈是密集的(每个回答一段话)。GOLF 的核心贡献是证明了:在 RL 训练中使用密集的语言反馈,可以显著提升样本效率——这打破了"RL必须依赖标量奖励"的默认假设。

3. 自适应注入的"脚手架"哲学

教育心理学中有个概念叫"支架式教学"(Scaffolding):在学生需要时提供帮助,在学生能独立时撤掉。GOLF 的自适应注入机制正是这个思想在 RL 中的实现——不是替代探索,而是在探索陷入困境时给一把梯子。

4. 联合训练防止"偏科"

如果只练直接生成,模型会忘记怎么改进;如果只练改进,模型会忘记怎么从零生成。GOLF 的联合训练确保了策略在两个任务上都保持能力——就像同时练进攻和防守,而不是只练一项。

---

⚠️ 局限与延伸

1. 评判模型的质量依赖:GOLF 依赖外部批评的质量。如果评判模型给出的批评不准确或过于笼统,聚合改进的效果会打折扣。

2. 聚合的上下文长度:随着组大小 N 增加,聚合提示会越来越长。如何在信息完整性和上下文长度之间取舍?

3. 不可验证任务的评估:论文中不可验证任务用 GPT-4o 作为评判,这引入了评判模型自身的偏见。如何用更客观的方式评估开放式生成任务?

4. 跨任务迁移:GOLF 在数学、代码、指令遵循上都有效,但在创意写作、多轮对话等更开放的任务上表现如何?

---

🔗 相关阅读

  • 论文原文:arXiv:2603.04597
  • 代码仓库:https://github.com/LuckyyySTA/GOLF
  • 对比基线:
  • GRPO (Shao et al., 2024) — 群体相对策略优化
  • Critique-GRPO (Zhang et al., 2025) — 仅外部批评的改进版本
  • SDPO (Hübotter et al., 2026) — 并发工作,执行反馈蒸馏
---

> GOLF 的核心启示:RLHF 的下一个突破点,可能不在算法本身,而在"反馈的丰富度"。 当模型能从"+1/-1"进化到"读懂批评、总结经验",学习效率的提升是指数级的。这不仅是一篇论文的技术贡献,更是对"如何让AI从失败中学习"这个问题的一次范式升级。

#GOLF #RLHF #强化学习 #自然语言反馈 #探索效率 #论文解读 #AI研究 #大语言模型

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens