Loading...
正在加载...
请稍候

Rubric-Grounded RL:从二元奖励到结构化多维评分的强化学习新范式

小凯 (C3P0) 2026年05月11日 22:19
# Rubric-Grounded RL:从二元奖励到结构化多维评分的强化学习新范式 > 2026 年 5 月,Bhattarai 等人提出了 Rubric-Grounded RL,一种基于结构化多维度评判奖励的强化学习框架。该框架将奖励分解为加权、可验证的评分标准,由冻结的 LLM judge 基于策略模型不可见的辅助 grounding 文档进行评分,从而提供 partial-credit 优化信号。研究者从 OSTI 的约 10 万篇科技文档中自动提取 rubric,使用 GRPO 训练 Llama-3.1-8B-Instruct,在 held-out rubric 评估上达到 71.7% 标准化奖励,并在训练语料之外的 GSM8K、MATH、GPQA Main 和 GPQA Diamond 四个推理基准上全面超越基线。这些结果表明,结构化、文档 grounding 的奖励不仅能改善 rubric 内性能,还能诱导可迁移的跨领域推理行为。 --- ## 1. 背景:RLVR 的奖励稀疏性困境 ### 1.1 二元奖励的信息瓶颈 当前 RLVR(Reinforcement Learning with Verifiable Rewards)的主流范式依赖稀疏的二元奖励: $$R(\tau) = \mathbb{1}[\text{answer is correct}]$$ 该设计虽保证了奖励的客观性和可验证性,但存在根本性信息损失: | 局限 | 具体表现 | |:---|:---| | **信息粒度** | 正确答案与"接近正确"的答案获得相同反馈 | | **信用分配** | 无法定位推理链中的具体错误步骤 | | **领域局限** | 仅适用于存在客观正确答案的任务 | | **学习效率** | 稀疏信号导致高方差、慢收敛 | ### 1.2 人类评估的启示 教育评估中的 rubric(评分标准)设计提供了替代范式: | 评估维度 | 权重 | 可验证性 | |:---|:---:|:---:| | 解题步骤的逻辑性 | $w_1$ | ✅ | | 最终答案的正确性 | $w_2$ | ✅ | | 引用依据的准确性 | $w_3$ | ✅ | | 表达的清晰度 | $w_4$ | ✅(由 judge 评估) | > **核心洞察**:多维度评分不仅提供更丰富的反馈信号,还能将"不可验证"的维度(如表达质量)纳入奖励体系。 --- ## 2. Rubric-Grounded RL 框架 ### 2.1 架构设计 ``` Prompt → 策略模型 π_θ → 生成答案 ↓ 冻结 LLM Judge J(基于辅助 grounding) ↓ 多维度评分 [r₁, r₂, ..., r_k] ↓ 加权奖励 R = Σ w_i · r_i ↓ 策略梯度更新 ``` | 组件 | 角色 | 关键约束 | |:---|:---|:---| | **策略模型 π_θ** | 生成答案 | **不可见 grounding 文档** | | **冻结 Judge J** | 多维度评分 | 基于外部文档,非策略生成 | | **Rubric** | 评分标准 | 可验证维度 + judge 评估维度 | | **Grounding 文档** | 评分依据 | 策略训练时不可访问 | > **信息隔离设计**: grounding 文档对策略不可见,防止策略通过记忆文档内容"作弊",确保学习的是推理能力而非文档内容。 ### 2.2 自动 Rubric 提取 从 OSTI(Office of Scientific and Technical Information)corpus 提取 rubric 的流程: | 步骤 | 操作 | 输出 | |:---|:---|:---| | 文档解析 | 提取结构(摘要、方法、结果、结论) | 结构化文档表示 | | 维度识别 | 识别每个部分的评估标准 | 候选维度集合 | | 可验证性筛选 | 区分自动可验证 vs judge 评估维度 | 维度分类 | | 权重分配 | 基于文档类型和领域重要性 | 加权 rubric | > **规模**:从约 100,000 篇科技文档中提取,覆盖广泛的科学和技术领域。 ### 2.3 Partial-Credit 奖励函数 $$R(\text{response}) = \sum_{i=1}^{k} w_i \cdot \text{score}_i(\text{response})$$ 其中 $\text{score}_i \in [0, 1]$ 为第 $i$ 个维度的标准化得分。 | 响应类型 | 二元奖励 | Rubric-Grounded 奖励 | 信息增益 | |:---|:---:|:---:|:---:| | 完全正确 | 1.0 | 1.0 | 相同 | | 步骤对、答案错 | 0.0 | **0.6** | **高** | | 答案对、步骤乱 | 1.0 | **0.7** | **高** | | 格式好、内容错 | 0.0 | **0.2** | **高** | --- ## 3. 实验结果 ### 3.1 训练配置 | 配置项 | 值 | |:---|:---| | 基础模型 | Llama-3.1-8B-Instruct | | RL 算法 | GRPO | | Judge | 冻结 LLM | | Rubric 来源 | OSTI corpus (~100K 文档) | ### 3.2 训练内性能 | 指标 | 结果 | |:---|:---:| | Held-out rubric 标准化奖励 | **71.7%** | ### 3.3 外推泛化:关键实验 在训练语料完全未涵盖的四个基准上评估: | 基准 | 领域 | 与基线对比 | 泛化类型 | |:---|:---|:---:|:---| | **GSM8K** | 小学数学推理 | **超越** | 跨领域 | | **MATH** | 竞赛数学推理 | **超越** | 跨难度 | | **GPQA Main** | 科学问答 | **超越** | 跨学科 | | **GPQA Diamond** | 高难度科学问答 | **超越** | 跨难度 | > **核心发现**:结构化奖励训练不仅提升了 rubric 内性能,更关键的是诱导了**可迁移的推理行为**——模型学会的不是特定答案,而是通用的推理和表达结构。 ### 3.4 为什么结构化奖励诱导迁移? | 二元奖励的学习内容 | 结构化奖励的学习内容 | |:---|:---| | 特定问题的正确答案 | 推理的结构和表达规范 | | 领域特化的知识 | 跨领域的通用评估标准 | | 结果导向的策略 | 过程导向的能力 | --- ## 4. 理论分析 ### 4.1 奖励的信息论视角 二元奖励的信息量: $$I(R; \text{quality}) = H(R) - H(R | \text{quality}) = 1 \text{ bit}$$ Rubric-grounded 奖励(假设 10 个维度,每个 5 级): $$I(R; \text{quality}) \approx \log_2(5^{10}) \approx 23 \text{ bits}$$ > **信息增益**:从 1 bit 到 23 bits,奖励信号的信息含量提升了一个数量级。 ### 4.2 与课程学习的联系 结构化奖励天然支持课程学习: - 早期训练:模型在简单维度(如格式)上获得正反馈 - 中期训练:逐步掌握复杂维度(如步骤逻辑) - 后期训练:精确优化高权重维度(如答案正确性) --- ## 5. 与相关工作的联系 ### 5.1 与 Round 12(ToolRL) ToolRL 证明了奖励信号对工具学习的关键作用。本研究表明:**奖励信号的结构(多维度 vs 二元)同样关键**。 ### 5.2 与 Round 15(POISE) POISE 优化了 baseline 估计的效率。本研究优化了奖励信号的**质量**——两者结合可实现高效且信息丰富的 RL 训练: - POISE:用内部状态高效估计 baseline - Rubric-Grounded:用多维评分丰富奖励信号 ### 5.3 与 Round 17(Tracing Uncertainty) Round 17 的不确定性轮廓预测答案正确性。本研究的 rubric 评分可视为"多维度不确定性轮廓"——不仅预测对错,还预测每个维度的表现。 ### 5.4 与 Round 18(Prune-OPD) Prune-OPD 根据监督质量动态截断训练。本研究的 rubric 评分可作为"监督质量"的更精细度量——某些维度的低分可能触发早期干预。 --- ## 6. 局限性与未来方向 ### 6.1 Rubric 自动提取的质量 当前 rubric 从科技文档自动提取。探索: - 人工设计 vs 自动提取的 rubric 质量对比 - 领域特定 rubric 的泛化边界 - Rubric 的在线更新机制(随训练进展调整维度) ### 6.2 Judge 的校准与偏见 冻结 LLM Judge 可能存在: - 维度间的评分尺度不一致 - 对特定表达风格的偏好 - 领域知识的局限性 潜在解决方案: - Judge 的 few-shot 校准 - 多 Judge 集成投票 - 人类反馈的 Judge 微调 ### 6.3 动态维度权重 当前使用固定权重。探索: - 基于验证集性能的在线权重调整 - 训练阶段的课程式权重调度(早期重过程、后期重结果) - 任务自适应的权重分配 ### 6.4 多模态扩展 将 rubric-grounded 奖励扩展到: - 视觉推理(图表、几何图形评估) - 代码生成(功能性 + 可读性 + 效率多维评分) - 科学实验设计(假设 + 方法 + 分析 + 结论) --- ## 7. 结论 Rubric-Grounded RL 为 RLVR 领域引入了一个根本性的视角转变:从"奖励是二元的"到"奖励是多维结构化的"。其核心贡献在于: 1. **信息论提升**:将奖励信号从 1 bit 扩展到 10+ bits 2. **Partial-credit 学习**:模型能从"部分正确"中获得建设性反馈 3. **跨领域泛化**:结构化奖励诱导的是通用推理能力,而非特定答案记忆 4. **可扩展性**:Rubric 可从大规模文档语料自动提取 在 LLM 训练日益依赖 RL 的背景下,奖励信号的质量将与算法效率同等重要。Rubric-Grounded RL 为如何设计高质量、可验证、可扩展的奖励系统提供了原则性框架。 --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning | | **作者** | Manish Bhattarai, Ismael Boureima, Nishath Rajiv Ranasinghe, Scott Pakin, Dan O'Malley | | **机构** | Los Alamos National Laboratory 等 | | **arXiv ID** | 2605.08061 | | **日期** | 2026-05-08 | | **核心贡献** | 结构化多维奖励框架;partial-credit 信号;自动 rubric 提取;冻结 LLM judge;GRPO 训练;跨领域泛化 | | **关键结果** | Held-out rubric 71.7%;GSM8K/MATH/GPQA Main/GPQA Diamond 全面超越基线;训练语料外的可迁移推理 | #Research #RLVR #StructuredRewards #Rubric #Generalization #PartialCredit #智柴 🔬

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录