GOLF:当RLHF学会读批评——从标量奖励到自然语言反馈的探索革命
> 论文:Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning > arXiv: 2603.04597 | 2026年3月6日 > 机构:哈尔滨工业大学 × 小红书 > 代码:https://github.com/LuckyyySTA/GOLF
---
🔥 一句话总结
GOLF 把 RLHF 从"只会看分数"的莽夫,训练成了"能读批评、会总结经验"的学习者——通过聚合外部批评和组内尝试的双重反馈,在低奖励区域自适应注入高质量改进样本,实现样本效率2.2倍提升,不可验证任务性能超越最强基线22.7%。
---
🎯 问题:标量奖励太稀疏,模型"不知道错在哪"
传统 RLHF 的核心痛点:
模型生成:"As an AI language model, I cannot..."
环境反馈:👎 Reward = -1
模型内心:"??? 我错哪了?"
→ 只知道错了,但不知道错在哪里、如何修正
→ 被迫依赖代价高昂的盲目试错
→ 全零奖励组导致组归一化优势崩溃,梯度直接消失
现实场景中,LLM 获得的监督远超一个+1/-1的数字:
- 用户的自然语言评价("这个回答太冗长了")
- 代码运行时的错误信息("IndexError: list index out of range")
- 评判模型的文本批评("推理第三步的假设不成立,因为...")
---
⚙️ 核心技术:三重机制形成良性循环
1. 聚合反馈改进:把"批评"变成"教材"
GOLF 的核心洞察:单独看一条失败响应的批评,视野太窄;把一组失败响应的批评聚合起来,就能看出共性问题、互补思路和系统性的改进方向。
聚合过程:
步骤1: 对同一prompt采样N个回答 → G_gen(x) = {y^(1), ..., y^(N)}
步骤2: 获取每个回答的奖励和批评 → (r^(i), c^(i))
步骤3: 收集所有失败回答 → F(x) = {(y^(i), c^(i)) | r^(i) = 0}
步骤4: 构建聚合改进提示(关键设计!)
**Problem**: {原问题}
**Candidate Responses with Feedback**:
--- Candidate 1 (Score: 0) ---
Response: {response_1}
Feedback: {critique_1}
--- Candidate 2 (Score: 0) ---
Response: {response_2}
Feedback: {critique_2}
...
Please synthesize an improved response by:
- Learning from the mistakes identified
- Incorporating strengths and good aspects
- Synthesizing the best parts from all candidates
步骤5: 基于聚合提示采样改进组 → G_refine(x) = {ỹ^(j)}
步骤6: 评分改进 → 保留成功的改进样本
为什么聚合比单条好?
- 批评A说"推理第二步假设不成立",批评B说"第三步计算错误"→ 聚合后知道要同时检查假设和计算
- 回答1前半部分思路对,回答2后半部分逻辑清→ 聚合改进可以"取长补短"
- 多个失败的共同模式 = 模型的系统性盲点,一次修正受益全局
2. 自适应注入:只在"最需要的时候"搭把手
核心问题:如果每次训练都把改进样本塞进去,模型会过度依赖"拐杖",丧失自主探索能力。
GOLF 的解决方案:只在低奖励区域自适应注入。
计算组平均奖励: s(x) = (1/N) Σ r(x,y)
如果 s(x) < τ (默认 τ = 1/N,即平均不到1个成功):
→ 触发注入
→ 从成功改进集合 S_ref(x) 中随机选一个
→ 替换训练组中的一个失败样本
如果 s(x) ≥ τ:
→ 不注入,让模型自己探索
设计直觉:
- 高奖励区域 → 模型已经有有效信号,别干扰
- 低奖励区域 → 梯度要消失了,赶紧给根绳子
3. 混合策略优化:原任务和改进能力一起练
一个反直觉的发现:标准 RL 微调后,测试时让模型自己改进反而可能降低性能——因为 RL 优化只关注直接生成,不保留"读批评→改回答"的能力。
GOLF 的联合训练:
每个prompt x,收集两个rollout组:
• 生成组: G_gen(x) ~ π(·|x) ← 直接回答原问题
• 改进组: G_ref(x) ~ π(·|p_agg(x)) ← 基于聚合批评改进
合并为联合批次: B(x) = G_gen(x) ∪ G_ref(x)
分别计算各组内优势,GRPO统一更新策略
良性循环:
┌─────────────┐ 高质量改进支架 ┌─────────────┐
│ 改进能力↑ │ ──────────────────→ │ 探索效率↑ │
│ (Refinement)│ │ (Exploration)│
└─────────────┘ └─────────────┘
↑ │
└──────── 发现更多奖励轨迹 ───────────┘
↓
更好的生成能力
↓
更高质量的改进输出
关键超参:离策略比率重塑 f(u) = u/(u+λ), λ=0.1
- 防止离策略样本的权重过高
- 省略clip操作,强调低概率但有效的动作
📊 实验:样本效率2.2×,性能碾压
不可验证任务(对话、写作、通用能力)
| 模型 | 方法 | AlpacaEval | WildBench | ArenaHard-v2 | 平均 |
|---|---|---|---|---|---|
| Llama-3.1-8B | Critique-GRPO | 43.31 | 25.09 | 13.73 | 40.92 |
| GOLF | 69.67 | 34.42 | 25.03 | 50.19 ↑+9.27 | |
| Qwen-3-8B | Rubric-as-Reward | 68.88 | 67.09 | 50.08 | 67.08 |
| GOLF | 71.94 | 68.16 | 52.00 | 69.26 ↑+2.18 |
可验证任务(数学、指令遵循)
| 模型 | 方法 | AIME24 | AIME25 | AMC23 | IFBench | IFEval |
|---|---|---|---|---|---|---|
| Qwen-3-8B | GRPO | 55.05 | 38.02 | 78.61 | 35.65 | 84.76 |
| Critique-GRPO | 55.49 | 37.86 | 77.58 | 36.33 | 85.58 | |
| GOLF | 58.49 | 41.65 | 80.74 | 38.33 | 87.80 |
代码生成
| 方法 | LCBv6 Avg@4 | 样本效率 |
|---|---|---|
| GRPO | 44.08 | baseline |
| SDPO | 47.52 | - |
| GOLF | 47.71 | 1.5× |
Pass@k分析(图4)
GOLF 在整个 k 范围内持续优于 GRPO:
- Pass@1 更高:单样本质量更好
- Pass@128 更高:成功解的多样性更丰富
🧠 深度解读:GOLF 为什么有效?
1. "失败"比"成功"更有教学价值
传统 RL 只关注成功轨迹(正奖励),但 GOLF 发现:聚合多个失败模式的批评,能生成比单纯模仿成功更有指导意义的改进样本。 知道"什么不行"和"为什么不行",比知道"什么行"更能加速学习。
2. 反馈的"密度"比"精度"更重要
标量奖励是极度稀疏的(每个回答1个数字),自然语言反馈是密集的(每个回答一段话)。GOLF 的核心贡献是证明了:在 RL 训练中使用密集的语言反馈,可以显著提升样本效率——这打破了"RL必须依赖标量奖励"的默认假设。
3. 自适应注入的"脚手架"哲学
教育心理学中有个概念叫"支架式教学"(Scaffolding):在学生需要时提供帮助,在学生能独立时撤掉。GOLF 的自适应注入机制正是这个思想在 RL 中的实现——不是替代探索,而是在探索陷入困境时给一把梯子。
4. 联合训练防止"偏科"
如果只练直接生成,模型会忘记怎么改进;如果只练改进,模型会忘记怎么从零生成。GOLF 的联合训练确保了策略在两个任务上都保持能力——就像同时练进攻和防守,而不是只练一项。
---
⚠️ 局限与延伸
1. 评判模型的质量依赖:GOLF 依赖外部批评的质量。如果评判模型给出的批评不准确或过于笼统,聚合改进的效果会打折扣。
2. 聚合的上下文长度:随着组大小 N 增加,聚合提示会越来越长。如何在信息完整性和上下文长度之间取舍?
3. 不可验证任务的评估:论文中不可验证任务用 GPT-4o 作为评判,这引入了评判模型自身的偏见。如何用更客观的方式评估开放式生成任务?
4. 跨任务迁移:GOLF 在数学、代码、指令遵循上都有效,但在创意写作、多轮对话等更开放的任务上表现如何?
---
🔗 相关阅读
- 论文原文:arXiv:2603.04597
- 代码仓库:https://github.com/LuckyyySTA/GOLF
- 对比基线:
- GRPO (Shao et al., 2024) — 群体相对策略优化
- Critique-GRPO (Zhang et al., 2025) — 仅外部批评的改进版本
- SDPO (Hübotter et al., 2026) — 并发工作,执行反馈蒸馏
> GOLF 的核心启示:RLHF 的下一个突破点,可能不在算法本身,而在"反馈的丰富度"。 当模型能从"+1/-1"进化到"读懂批评、总结经验",学习效率的提升是指数级的。这不仅是一篇论文的技术贡献,更是对"如何让AI从失败中学习"这个问题的一次范式升级。
#GOLF #RLHF #强化学习 #自然语言反馈 #探索效率 #论文解读 #AI研究 #大语言模型
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens