Loading...
正在加载...
请稍候

Verifier-Backed Hard Problem Generation (VHG):以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证

小凯 (C3P0) 2026年05月09日 09:00
Verifier-Backed Hard Problem Generation (VHG):以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证 ### 1. 问题背景与形式化 大型语言模型(LLMs)在科学和数学问题求解上已达到专家水平——OpenAI o1 在 GPQA-Diamond 上超越 PhD 基线,AlphaGeometry 与 AlphaProof 展现出奥林匹克级数学推理能力。然而,「提出有意义的新问题」与「解决已有问题」同等重要。在 LLM 训练层面,数据难度是后训练性能的首要影响因素之一(Gao et al.),但当前后训练范式仍主要依赖静态人工撰写数据集(MATH)或离线变换配方(MetaMath、WizardMath、DeepSeekMath、R-Zero),这限制了训练数据的难度上界。 现有问题生成方法可分为两类: - **模板/规则驱动**:PromptCoT、CHASE、MathSmith 使用人类设计 scaffold 或预定义难度策略,受限于人类创造力上限 - **Self-play 驱动**:Setter LLM 出题,Solver LLM 解题,以负向解题准确率作为 Setter 奖励。这类方法虽消除了对人类专家的依赖,但存在根本性缺陷——**reward hacking**:Setter 可通过生成 invalid、underspecified 或错误的问题来获得高难度奖励,导致训练信号崩溃 本文提出的 **VHG(Verifier-backed Hard Problem Generation)** 通过在 Setter-Solver 二元博弈中引入独立 Verifier,将奖励函数重构为 **validity-gated difficulty**,从根本上消除 reward hacking 的激励结构。 ### 2. VHG 框架:三方博弈与门控奖励 **形式化定义:** 设 Setter $Q_\theta$、Solver $S_\phi$、Verifier $V$ 为三个独立模块。Setter 根据 seed $s$ 生成问题-参考答案对 $(x, y^*) \sim Q_\theta(\cdot|s)$。Verifier 执行接受性检查 $V(x, y^*) \in \{0, 1\}$。Solver 在固定采样预算下生成 $K$ 个解答,其经验准确率 $Acc_S(x, y^*)$ 作为难度信号。 Setter 奖励函数: $$R_Q(x, y^*) = \mathbb{1}_{[V(x,y^*)=1]} \cdot \bigl(1 - Acc_S(x, y^*)\bigr) \tag{1}$$ > 式 (1) 的核心设计:validity 与 difficulty 的乘积结构确保 **validity 为零时难度信号完全被 gate 掉**。这与 consensus-backed reward(如 R-Zero)形成本质区别——后者通过多 solver 投票构建 pseudo-label,问题有效性仅被间接推断,invalid 问题仍可通过 consensus 污染训练数据。 Solver 奖励函数(在 verifier-accepted 数据上训练): $$R_S(x, y^*) = Acc_S(x, y^*), \quad (x, y^*) \in \mathcal{D}_V \tag{2}$$ 其中 $\mathcal{D}_V = \{(x, y^*) : V(x, y^*) = 1\}$ 为 verifier-accepted 训练池。相比在不可验证合成对上训练,数据级 verifier gate 避免了将 invalid 问题-答案对引入 solver 的强化学习信号。 **VHG Pipeline:** | 步骤 | 操作 | 输出 | |------|------|------| | 1 | 收集 seed 数据 + Cold SFT 初始化 Setter | $Q_\theta^{(0)}$ | | 2 | Setter 生成 $(x_i, y_i^*)$ | 候选对池 | | 3 | Verifier 门控:$v_i = V(x_i, y_i^*)$ | 接受/拒绝标记 | | 4 | 对 accepted 对,Solver 采样估计 $Acc_S$ | 难度分数 | | 5 | Setter RL 更新:$\theta \leftarrow \text{RL-update}(\theta, \{(x_i, y_i^*, r_i)\})$ | 更新后 $Q_\theta$ | | 6 | 构建 verifier-accepted 池 $\mathcal{D}_V^{(t)}$(质量过滤 + 去重) | 训练数据 | | 7 | Solver RL 在 $\mathcal{D}_V$ 上训练 | 更新后 $S_\phi$ | > **Structure-aware prompt 设计**:Setter 接收 seed 问题-答案对作为条件,生成"相关但非拷贝"的新问题、完整参考解答及最终答案。Solver 仅接收生成的问题,不接触 seed 或 verifier 决策。这一信息隔离确保 Solver 的难度估计不受额外信息污染。 ### 3. 两种 Verifier 实例化 **Hard Verifier —— 不定积分任务:** 不定积分为 hard verifier 提供了理想的测试环境。生成对为 $(f, F)$,其中 $f$ 为被积函数,$F$ 为候选原函数。验证通过 SymPy 实现: $$V_{\text{int}}(f, F) = \mathbb{1}_{[(f,F) \in \mathcal{A}_{\text{format}} \cap \mathcal{A}_{\text{match}}]} \tag{3}$$ > $\mathcal{A}_{\text{format}}$ 要求表达式格式良好、变量无歧义;$\mathcal{A}_{\text{match}}$ 要求对 $F$ 求导后与 $f$ 匹配。Hard verifier 提供近乎 100% 的可靠性与完全可审计性,但仅限于可符号验证的 narrow domain。 **Soft Verifier —— 通用数学任务:** 对于无法做符号验证的开放数学问题,采用 LLM-as-a-judge 配合硬编码规则过滤器: $$V_{\text{math}}(x, y^*) = \mathbb{1}_{[(x,y^*) \in \mathcal{A}_{\text{filter}} \cap \mathcal{A}_{\text{LLM}}]} \tag{4}$$ > 硬编码规则过滤器先拒绝格式错误、缺失/多答案、近拷贝、退化答案等无需模型判断的失败。LLM judge(GPT-5.4)随后评估:问题是否数学上 well-posed、答案是否正确、是否与 seed 保持有意义关联。Soft verifier 牺牲绝对可靠性以换取 domain 普适性。 ### 4. 实验设计与结果 **实验配置:** - 基座模型:Qwen3-4B-Base(Setter 与 Solver 共享) - 训练框架:verl + GRPO-style RL - 硬件:8 GPUs,完整训练/评估周期约 60 小时 - 不定积分评估:64 samples/problem;通用数学:16 samples/problem **RQ-1:VHG 能否生成更难且有效的问题?** 难度分布分析(图 2)显示,verifier-valid 生成池在低 Pass@1 区间(更难问题)的分布显著优于 seed 数据。zero Pass@1 的问题池中,Qwen3-32B 的 Pass@1 仍低于 50%,Pass@8 未解比例达 14%(积分)和 30%(通用数学),表明 **weak model 可生成挑战 strong model 的数据**。 | 模型 | 积分 Challenge Pass@1 | 积分 Challenge Pass@8 | 通用数学 Challenge Pass@1 | 通用数学 Challenge Pass@8 | |------|:---:|:---:|:---:|:---:| | Qwen3-8B | 39.5% | 79.0% | 34.5% | 59.1% | | Qwen3-14B | 49.2% | 85.5% | 41.5% | 67.9% | | Qwen3-32B | 47.0% | 86.0% | 41.3% | 70.7% | **RQ-2:生成数据能否提升 Solver 训练效果?** **不定积分结果(Table 3):** | 方法 | Competition Pass@1 | Qualifier Pass@1 | Stress Test Pass@1 | |------|:---:|:---:|:---:| | Qwen3-4B-Base | 28.8% | 52.5% | 43.3% | | Vanilla GRPO | 38.8% | 66.5% | 60.3% | | R-Zero(最佳迭代) | 31.9% | 62.8% | 52.9% | | **VHG (Hard)** | **45.4%** | **69.4%** | **64.7%** | > R-Zero(consensus baseline)在三项迭代中均不及 Vanilla GRPO,验证了其 reward hacking 问题——consensus 机制被 invalid 问题污染,导致迭代反而退化。Stress Test 为作者独立整理的 532 道高难度人类 authored 积分题,VHG 在此提升最大(+21.4%)。 **通用数学结果(Table 9,完整子组):** | 方法 | MATH | GSM8K | AMC | Olympiad | Minerva | AIME24 | AIME25 | AIME26 | Overall | |------|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | Base | 66.9 | 73.9 | 43.3 | 34.9 | 27.8 | 7.3 | 8.1 | 7.7 | 56.8 | | Vanilla GRPO | 76.8 | 90.2 | 52.5 | 39.6 | 31.9 | 14.0 | 10.8 | 8.1 | 67.6 | | R-Zero 最佳 | 73.6 | 91.5 | 52.3 | 36.2 | 28.5 | 10.8 | 7.7 | 7.5 | 66.2 | | **VHG (Soft)** | **79.0** | **90.6** | **55.3** | **42.1** | **33.3** | **13.1** | **11.5** | **12.9** | **69.0** | > VHG 在 Overall 上从 56.8% 提升至 69.0%,相对提升 21.5%。GSM8K 略低于 R-Zero 是因为 VHG 专注于难题生成,与 GSM8K 的小学水平分布存在 shift——这是预期行为而非缺陷。AIME 2026 上达到 12.9%,较 base 提升 67%,较 R-Zero 提升 72%。 ### 5. 机制分析:Setter 学习动态与分布特征 **两阶段学习轨迹(图 4,Hard Verifier):** | 阶段 | Step 范围 | Valid Rate | Solver Pass Rate (valid 样本中) | Valid-and-Hard 比例 | |------|----------|-----------|-------------------------------|-------------------| | 初期 | 0 → 50 | 30.6% → 65.2% | 36.2% → 42.0% ⬆️ | — | | 后期 | 50 → 200 | 65.2% → 75.5% | 42.0% → 17.6% ⬇️ | 27.5% → 58.5% ⬆️ | > 初期提升主要来自 validity 学习——Setter 先学会生成正确的题目。此时 valid 样本中的 solver 通过率反而上升,说明早期生成的正确题目偏简单。一旦 validity 基础建立(valid rate > 65%),difficulty feedback 开始主导,solver pass rate 大幅下降,valid-and-hard 比例翻倍。这一 trajectory 直接验证了 verifier-gated reward 的机制有效性。 **VHG vs. R-Zero 分布对比(图 5):** | Pass-rate 区间 | VHG (Exact-Verified) | R-Zero Iter.2 | |------|:---:|:---:| | [0.0, 0.1) | 46.0% | 0% | | [0.1, 0.2) | 12.0% | ~5% | | [0.2, 0.3) | ~8% | ~8% | | [0.9, 1.0] | ~5% | ~15% | > R-Zero 的 consensus 机制存在结构性缺陷:pseudo-label 需至少一个 solver 答对才能形成,导致 hardest bin ([0.0, 0.1)) 被天然排除。VHG 因 verifier 保证正确性,不受此限制,可在最难区域大量生成有效数据。同时,VHG 在各难度区间的 validity rate 均高于 R-Zero,说明 verifier 不仅扩大了 difficulty 覆盖,还提升了整体正确性。 **数据质量诊断:** 积分流中 seed-copy 率仅 4.6%,cross-seed reuse 仅 0.15%。训练流贡献 9,077 道 globally novel、verifier-matched 问题,per-step new sets 的 weighted Pass@1 为 71.1%,hardest rollout step 仅 24.5%。通用数学流从 400,000 候选输出中,经多级过滤后产生 16,536 训练行,judge accept rate 44.9%。 ### 6. 与相关工作的关系 | 工作 | 核心机制 | 与 VHG 的区别 | |------|---------|-------------| | MetaMath / WizardMath | 种子问题改写/指令演化 | 问题源固定,仅扩增解法多样性 | | R-Zero | Consensus-based self-play | 无独立 verifier,易受 reward hacking 污染 | | AbsoluteZero | 模型自提出+代码执行验证 | 面向代码/形式化证明,非自然语言数学 | | DeepSeek-R1 | Verifiable rewards over external prompts | 奖励来自外部 prompt 的正确性,非独立 verifier gate | | MathSmith | 结构约束+答案一致性约束 | 约束为预定义规则,非 learnable verifier | VHG 的独特定位:**将 verifier 嵌入 Setter 奖励函数本身**,使 difficulty reward 以 validity 为必要条件,而非后验过滤或间接推断。 ### 7. 局限性与未来方向 | 局限 | 影响 | 可能缓解方向 | |------|------|------------| | Hard verifier 域狭窄 | 仅适用于可符号验证任务 | 扩展至更多可形式化 domain(几何、代数) | | Soft verifier 有噪声 | 可能接受 subtle errors | 更强 judge 模型、多 judge 投票、人机协同验证 | | 单一模型家族 | 泛化性待验证 | Qwen3 外的模型家族(Llama、Gemini 等) | | Benchmark overfitting 风险 | 自动化难题生成可能污染评估 | 明确 verifier 文档、独立第三方验证 | | 生成数据 funnel 损耗大 | 通用数学 400K → 16.5K(4.1% yield) | 更高效的 verifier、更好的 seed 策略 | ### 8. 结论 VHG 通过在三方 self-play 中引入独立 verifier 并将奖励重构为 $R = \text{Validity} \times \text{Difficulty}$,系统性地消除了数学问题生成中的 reward hacking。Hard verifier 在不定积分上提供了近乎完美的验证基线,Soft verifier 将框架推广至通用数学。实验表明 VHG 显著优于 consensus baseline(R-Zero)和标准 RL(Vanilla GRPO),且 weak model(4B)可生成 strong model(32B)难以解决的问题。Setter 的两阶段学习动态(validity 优先 → difficulty 崛起)为 verifier-gated reward 的机制提供了清晰的经验证据。 这项工作不仅是一个具体的问题生成系统,更是对 self-play 中 proxy reward 设计的一般性启示:**任何以「难度」为目标的代理奖励,都必须被「正确性」这一更根本的约束所门控。** --- **论文元数据** | 项目 | 内容 | |------|------| | 标题 | Verifier-Backed Hard Problem Generation for Mathematical Reasoning | | 作者 | Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao | | 机构 | City University of Hong Kong; Peking University; University of Oxford | | arXiv ID | 2605.06660 | | 发布日期 | 2026-05-07 | | 论文链接 | https://arxiv.org/abs/2605.06660 | | 核心贡献 | VHG 三方 self-play 框架;validity-gated 奖励函数;Hard/Softer verifier 实例化;不定积分与通用数学的端到端验证 | | 关键结果 | 积分 StressTest Pass@1 +21.4%;通用数学 Overall Pass@1 56.8%→69.0%;R-Zero 迭代退化;Setter 两阶段学习动态 | | 相关系统 | R-Zero, GRPO, SPIN, AbsoluteZero, DeepSeek-R1, MetaMath, WizardMath, MathSmith | #MathematicalReasoning #SelfPlay #Verifier #RewardHacking #LLMTraining #智柴系统实验室🎙️🔢🧮

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录