GOLF：当RLHF学会读批评——从标量奖励到自然语言反馈的探索革命

> 论文：Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning > arXiv: 2603.04597 | 2026年3月6日 > 机构：哈尔滨工业大学 × 小红书 > 代码：https://github.com/LuckyyySTA/GOLF

---

🔥 一句话总结

GOLF 把 RLHF 从"只会看分数"的莽夫，训练成了"能读批评、会总结经验"的学习者——通过聚合外部批评和组内尝试的双重反馈，在低奖励区域自适应注入高质量改进样本，实现样本效率2.2倍提升，不可验证任务性能超越最强基线22.7%。

---

🎯 问题：标量奖励太稀疏，模型"不知道错在哪"

传统 RLHF 的核心痛点：

模型生成："As an AI language model, I cannot..."
环境反馈：👎 Reward = -1
模型内心："??? 我错哪了？"

→ 只知道错了，但不知道错在哪里、如何修正
→ 被迫依赖代价高昂的盲目试错
→ 全零奖励组导致组归一化优势崩溃，梯度直接消失

现实场景中，LLM 获得的监督远超一个+1/-1的数字：

用户的自然语言评价（"这个回答太冗长了"）
代码运行时的错误信息（"IndexError: list index out of range"）
评判模型的文本批评（"推理第三步的假设不成立，因为..."）

这些反馈包含明确的错误诊断、跨尝试比较、具体修订建议——但传统 RLHF 把它们全部压缩成一个标量，白白浪费了。

---

⚙️ 核心技术：三重机制形成良性循环

1. 聚合反馈改进：把"批评"变成"教材"

GOLF 的核心洞察：单独看一条失败响应的批评，视野太窄；把一组失败响应的批评聚合起来，就能看出共性问题、互补思路和系统性的改进方向。

聚合过程：

步骤1: 对同一prompt采样N个回答 → G_gen(x) = {y^(1), ..., y^(N)}
步骤2: 获取每个回答的奖励和批评 → (r^(i), c^(i))
步骤3: 收集所有失败回答 → F(x) = {(y^(i), c^(i)) | r^(i) = 0}
步骤4: 构建聚合改进提示（关键设计！）
        
        **Problem**: {原问题}
        **Candidate Responses with Feedback**:
        --- Candidate 1 (Score: 0) ---
        Response: {response_1}
        Feedback: {critique_1}
        --- Candidate 2 (Score: 0) ---
        Response: {response_2}
        Feedback: {critique_2}
        ...
        Please synthesize an improved response by:
        - Learning from the mistakes identified
        - Incorporating strengths and good aspects
        - Synthesizing the best parts from all candidates

步骤5: 基于聚合提示采样改进组 → G_refine(x) = {ỹ^(j)}
步骤6: 评分改进 → 保留成功的改进样本

为什么聚合比单条好？

批评A说"推理第二步假设不成立"，批评B说"第三步计算错误"→ 聚合后知道要同时检查假设和计算
回答1前半部分思路对，回答2后半部分逻辑清→ 聚合改进可以"取长补短"
多个失败的共同模式 = 模型的系统性盲点，一次修正受益全局

2. 自适应注入：只在"最需要的时候"搭把手

核心问题：如果每次训练都把改进样本塞进去，模型会过度依赖"拐杖"，丧失自主探索能力。

GOLF 的解决方案：只在低奖励区域自适应注入。

计算组平均奖励: s(x) = (1/N) Σ r(x,y)

如果 s(x) < τ (默认 τ = 1/N，即平均不到1个成功):
    → 触发注入
    → 从成功改进集合 S_ref(x) 中随机选一个
    → 替换训练组中的一个失败样本
    
如果 s(x) ≥ τ:
    → 不注入，让模型自己探索

设计直觉：

高奖励区域 → 模型已经有有效信号，别干扰
低奖励区域 → 梯度要消失了，赶紧给根绳子

3. 混合策略优化：原任务和改进能力一起练

一个反直觉的发现：标准 RL 微调后，测试时让模型自己改进反而可能降低性能——因为 RL 优化只关注直接生成，不保留"读批评→改回答"的能力。

GOLF 的联合训练：

每个prompt x，收集两个rollout组：
    • 生成组: G_gen(x) ~ π(·|x)           ← 直接回答原问题
    • 改进组: G_ref(x) ~ π(·|p_agg(x))    ← 基于聚合批评改进

合并为联合批次: B(x) = G_gen(x) ∪ G_ref(x)
分别计算各组内优势，GRPO统一更新策略

良性循环：

┌─────────────┐     高质量改进支架     ┌─────────────┐
│  改进能力↑   │ ──────────────────→ │  探索效率↑   │
│  (Refinement)│                      │ (Exploration)│
└─────────────┘                      └─────────────┘
       ↑                                    │
       └──────── 发现更多奖励轨迹 ───────────┘
                        ↓
                 更好的生成能力
                        ↓
                 更高质量的改进输出

关键超参：离策略比率重塑 f(u) = u/(u+λ), λ=0.1

防止离策略样本的权重过高
省略clip操作，强调低概率但有效的动作

---

📊 实验：样本效率2.2×，性能碾压

不可验证任务（对话、写作、通用能力）

模型	方法	AlpacaEval	WildBench	ArenaHard-v2	平均
Llama-3.1-8B	Critique-GRPO	43.31	25.09	13.73	40.92
	GOLF	69.67	34.42	25.03	50.19 ↑+9.27
Qwen-3-8B	Rubric-as-Reward	68.88	67.09	50.08	67.08
	GOLF	71.94	68.16	52.00	69.26 ↑+2.18

样本效率：AlpacaEval 80步 vs Critique-GRPO 180步 → 2.25×

可验证任务（数学、指令遵循）

模型	方法	AIME24	AIME25	AMC23	IFBench	IFEval
Qwen-3-8B	GRPO	55.05	38.02	78.61	35.65	84.76
	Critique-GRPO	55.49	37.86	77.58	36.33	85.58
	GOLF	58.49	41.65	80.74	38.33	87.80

代码生成

方法	LCBv6 Avg@4	样本效率
GRPO	44.08	baseline
SDPO	47.52	-
GOLF	47.71	1.5×

Pass@k分析（图4）

GOLF 在整个 k 范围内持续优于 GRPO：

Pass@1 更高：单样本质量更好
Pass@128 更高：成功解的多样性更丰富

---

🧠 深度解读：GOLF 为什么有效？

1. "失败"比"成功"更有教学价值

传统 RL 只关注成功轨迹（正奖励），但 GOLF 发现：聚合多个失败模式的批评，能生成比单纯模仿成功更有指导意义的改进样本。 知道"什么不行"和"为什么不行"，比知道"什么行"更能加速学习。

2. 反馈的"密度"比"精度"更重要

标量奖励是极度稀疏的（每个回答1个数字），自然语言反馈是密集的（每个回答一段话）。GOLF 的核心贡献是证明了：在 RL 训练中使用密集的语言反馈，可以显著提升样本效率——这打破了"RL必须依赖标量奖励"的默认假设。

3. 自适应注入的"脚手架"哲学

教育心理学中有个概念叫"支架式教学"（Scaffolding）：在学生需要时提供帮助，在学生能独立时撤掉。GOLF 的自适应注入机制正是这个思想在 RL 中的实现——不是替代探索，而是在探索陷入困境时给一把梯子。

4. 联合训练防止"偏科"

如果只练直接生成，模型会忘记怎么改进；如果只练改进，模型会忘记怎么从零生成。GOLF 的联合训练确保了策略在两个任务上都保持能力——就像同时练进攻和防守，而不是只练一项。

---

⚠️ 局限与延伸

1. 评判模型的质量依赖：GOLF 依赖外部批评的质量。如果评判模型给出的批评不准确或过于笼统，聚合改进的效果会打折扣。

2. 聚合的上下文长度：随着组大小 N 增加，聚合提示会越来越长。如何在信息完整性和上下文长度之间取舍？

3. 不可验证任务的评估：论文中不可验证任务用 GPT-4o 作为评判，这引入了评判模型自身的偏见。如何用更客观的方式评估开放式生成任务？

4. 跨任务迁移：GOLF 在数学、代码、指令遵循上都有效，但在创意写作、多轮对话等更开放的任务上表现如何？

---

🔗 相关阅读

论文原文：arXiv:2603.04597
代码仓库：https://github.com/LuckyyySTA/GOLF
对比基线：
GRPO (Shao et al., 2024) — 群体相对策略优化
Critique-GRPO (Zhang et al., 2025) — 仅外部批评的改进版本
SDPO (Hübotter et al., 2026) — 并发工作，执行反馈蒸馏

---

> GOLF 的核心启示：RLHF 的下一个突破点，可能不在算法本身，而在"反馈的丰富度"。 当模型能从"+1/-1"进化到"读懂批评、总结经验"，学习效率的提升是指数级的。这不仅是一篇论文的技术贡献，更是对"如何让AI从失败中学习"这个问题的一次范式升级。

#GOLF #RLHF #强化学习 #自然语言反馈 #探索效率 #论文解读 #AI研究 #大语言模型