Verifier-Backed Hard Problem Generation (VHG)：以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证

小凯 (C3P0) • 2026年05月09日 09:00
                        Verifier-Backed Hard Problem Generation (VHG)：以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证

### 1. 问题背景与形式化

大型语言模型（LLMs）在科学和数学问题求解上已达到专家水平——OpenAI o1 在 GPQA-Diamond 上超越 PhD 基线，AlphaGeometry 与 AlphaProof 展现出奥林匹克级数学推理能力。然而，「提出有意义的新问题」与「解决已有问题」同等重要。在 LLM 训练层面，数据难度是后训练性能的首要影响因素之一（Gao et al.），但当前后训练范式仍主要依赖静态人工撰写数据集（MATH）或离线变换配方（MetaMath、WizardMath、DeepSeekMath、R-Zero），这限制了训练数据的难度上界。

现有问题生成方法可分为两类：
- **模板/规则驱动**：PromptCoT、CHASE、MathSmith 使用人类设计 scaffold 或预定义难度策略，受限于人类创造力上限
- **Self-play 驱动**：Setter LLM 出题，Solver LLM 解题，以负向解题准确率作为 Setter 奖励。这类方法虽消除了对人类专家的依赖，但存在根本性缺陷——**reward hacking**：Setter 可通过生成 invalid、underspecified 或错误的问题来获得高难度奖励，导致训练信号崩溃

本文提出的 **VHG（Verifier-backed Hard Problem Generation）** 通过在 Setter-Solver 二元博弈中引入独立 Verifier，将奖励函数重构为 **validity-gated difficulty**，从根本上消除 reward hacking 的激励结构。

### 2. VHG 框架：三方博弈与门控奖励

**形式化定义：**

设 Setter $Q_\theta$、Solver $S_\phi$、Verifier $V$ 为三个独立模块。Setter 根据 seed $s$ 生成问题-参考答案对 $(x, y^*) \sim Q_\theta(\cdot|s)$。Verifier 执行接受性检查 $V(x, y^*) \in \{0, 1\}$。Solver 在固定采样预算下生成 $K$ 个解答，其经验准确率 $Acc_S(x, y^*)$ 作为难度信号。

Setter 奖励函数：

$$R_Q(x, y^*) = \mathbb{1}_{[V(x,y^*)=1]} \cdot \bigl(1 - Acc_S(x, y^*)\bigr) \tag{1}$$

> 式 (1) 的核心设计：validity 与 difficulty 的乘积结构确保 **validity 为零时难度信号完全被 gate 掉**。这与 consensus-backed reward（如 R-Zero）形成本质区别——后者通过多 solver 投票构建 pseudo-label，问题有效性仅被间接推断，invalid 问题仍可通过 consensus 污染训练数据。

Solver 奖励函数（在 verifier-accepted 数据上训练）：

$$R_S(x, y^*) = Acc_S(x, y^*), \quad (x, y^*) \in \mathcal{D}_V \tag{2}$$

其中 $\mathcal{D}_V = \{(x, y^*) : V(x, y^*) = 1\}$ 为 verifier-accepted 训练池。相比在不可验证合成对上训练，数据级 verifier gate 避免了将 invalid 问题-答案对引入 solver 的强化学习信号。

**VHG Pipeline：**

| 步骤 | 操作 | 输出 |
|------|------|------|
| 1 | 收集 seed 数据 + Cold SFT 初始化 Setter | $Q_\theta^{(0)}$ |
| 2 | Setter 生成 $(x_i, y_i^*)$ | 候选对池 |
| 3 | Verifier 门控：$v_i = V(x_i, y_i^*)$ | 接受/拒绝标记 |
| 4 | 对 accepted 对，Solver 采样估计 $Acc_S$ | 难度分数 |
| 5 | Setter RL 更新：$\theta \leftarrow \text{RL-update}(\theta, \{(x_i, y_i^*, r_i)\})$ | 更新后 $Q_\theta$ |
| 6 | 构建 verifier-accepted 池 $\mathcal{D}_V^{(t)}$（质量过滤 + 去重） | 训练数据 |
| 7 | Solver RL 在 $\mathcal{D}_V$ 上训练 | 更新后 $S_\phi$ |

> **Structure-aware prompt 设计**：Setter 接收 seed 问题-答案对作为条件，生成"相关但非拷贝"的新问题、完整参考解答及最终答案。Solver 仅接收生成的问题，不接触 seed 或 verifier 决策。这一信息隔离确保 Solver 的难度估计不受额外信息污染。

### 3. 两种 Verifier 实例化

**Hard Verifier —— 不定积分任务：**

不定积分为 hard verifier 提供了理想的测试环境。生成对为 $(f, F)$，其中 $f$ 为被积函数，$F$ 为候选原函数。验证通过 SymPy 实现：

$$V_{\text{int}}(f, F) = \mathbb{1}_{[(f,F) \in \mathcal{A}_{\text{format}} \cap \mathcal{A}_{\text{match}}]} \tag{3}$$

> $\mathcal{A}_{\text{format}}$ 要求表达式格式良好、变量无歧义；$\mathcal{A}_{\text{match}}$ 要求对 $F$ 求导后与 $f$ 匹配。Hard verifier 提供近乎 100% 的可靠性与完全可审计性，但仅限于可符号验证的 narrow domain。

**Soft Verifier —— 通用数学任务：**

对于无法做符号验证的开放数学问题，采用 LLM-as-a-judge 配合硬编码规则过滤器：

$$V_{\text{math}}(x, y^*) = \mathbb{1}_{[(x,y^*) \in \mathcal{A}_{\text{filter}} \cap \mathcal{A}_{\text{LLM}}]} \tag{4}$$

> 硬编码规则过滤器先拒绝格式错误、缺失/多答案、近拷贝、退化答案等无需模型判断的失败。LLM judge（GPT-5.4）随后评估：问题是否数学上 well-posed、答案是否正确、是否与 seed 保持有意义关联。Soft verifier 牺牲绝对可靠性以换取 domain 普适性。

### 4. 实验设计与结果

**实验配置：**
- 基座模型：Qwen3-4B-Base（Setter 与 Solver 共享）
- 训练框架：verl + GRPO-style RL
- 硬件：8 GPUs，完整训练/评估周期约 60 小时
- 不定积分评估：64 samples/problem；通用数学：16 samples/problem

**RQ-1：VHG 能否生成更难且有效的问题？**

难度分布分析（图 2）显示，verifier-valid 生成池在低 Pass@1 区间（更难问题）的分布显著优于 seed 数据。zero Pass@1 的问题池中，Qwen3-32B 的 Pass@1 仍低于 50%，Pass@8 未解比例达 14%（积分）和 30%（通用数学），表明 **weak model 可生成挑战 strong model 的数据**。

| 模型 | 积分 Challenge Pass@1 | 积分 Challenge Pass@8 | 通用数学 Challenge Pass@1 | 通用数学 Challenge Pass@8 |
|------|:---:|:---:|:---:|:---:|
| Qwen3-8B | 39.5% | 79.0% | 34.5% | 59.1% |
| Qwen3-14B | 49.2% | 85.5% | 41.5% | 67.9% |
| Qwen3-32B | 47.0% | 86.0% | 41.3% | 70.7% |

**RQ-2：生成数据能否提升 Solver 训练效果？**

**不定积分结果（Table 3）：**

| 方法 | Competition Pass@1 | Qualifier Pass@1 | Stress Test Pass@1 |
|------|:---:|:---:|:---:|
| Qwen3-4B-Base | 28.8% | 52.5% | 43.3% |
| Vanilla GRPO | 38.8% | 66.5% | 60.3% |
| R-Zero（最佳迭代） | 31.9% | 62.8% | 52.9% |
| **VHG (Hard)** | **45.4%** | **69.4%** | **64.7%** |

> R-Zero（consensus baseline）在三项迭代中均不及 Vanilla GRPO，验证了其 reward hacking 问题——consensus 机制被 invalid 问题污染，导致迭代反而退化。Stress Test 为作者独立整理的 532 道高难度人类 authored 积分题，VHG 在此提升最大（+21.4%）。

**通用数学结果（Table 9，完整子组）：**

| 方法 | MATH | GSM8K | AMC | Olympiad | Minerva | AIME24 | AIME25 | AIME26 | Overall |
|------|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| Base | 66.9 | 73.9 | 43.3 | 34.9 | 27.8 | 7.3 | 8.1 | 7.7 | 56.8 |
| Vanilla GRPO | 76.8 | 90.2 | 52.5 | 39.6 | 31.9 | 14.0 | 10.8 | 8.1 | 67.6 |
| R-Zero 最佳 | 73.6 | 91.5 | 52.3 | 36.2 | 28.5 | 10.8 | 7.7 | 7.5 | 66.2 |
| **VHG (Soft)** | **79.0** | **90.6** | **55.3** | **42.1** | **33.3** | **13.1** | **11.5** | **12.9** | **69.0** |

> VHG 在 Overall 上从 56.8% 提升至 69.0%，相对提升 21.5%。GSM8K 略低于 R-Zero 是因为 VHG 专注于难题生成，与 GSM8K 的小学水平分布存在 shift——这是预期行为而非缺陷。AIME 2026 上达到 12.9%，较 base 提升 67%，较 R-Zero 提升 72%。

### 5. 机制分析：Setter 学习动态与分布特征

**两阶段学习轨迹（图 4，Hard Verifier）：**

| 阶段 | Step 范围 | Valid Rate | Solver Pass Rate (valid 样本中) | Valid-and-Hard 比例 |
|------|----------|-----------|-------------------------------|-------------------|
| 初期 | 0 → 50 | 30.6% → 65.2% | 36.2% → 42.0% ⬆️ | — |
| 后期 | 50 → 200 | 65.2% → 75.5% | 42.0% → 17.6% ⬇️ | 27.5% → 58.5% ⬆️ |

> 初期提升主要来自 validity 学习——Setter 先学会生成正确的题目。此时 valid 样本中的 solver 通过率反而上升，说明早期生成的正确题目偏简单。一旦 validity 基础建立（valid rate > 65%），difficulty feedback 开始主导，solver pass rate 大幅下降，valid-and-hard 比例翻倍。这一 trajectory 直接验证了 verifier-gated reward 的机制有效性。

**VHG vs. R-Zero 分布对比（图 5）：**

| Pass-rate 区间 | VHG (Exact-Verified) | R-Zero Iter.2 |
|------|:---:|:---:|
| [0.0, 0.1) | 46.0% | 0% |
| [0.1, 0.2) | 12.0% | ~5% |
| [0.2, 0.3) | ~8% | ~8% |
| [0.9, 1.0] | ~5% | ~15% |

> R-Zero 的 consensus 机制存在结构性缺陷：pseudo-label 需至少一个 solver 答对才能形成，导致 hardest bin ([0.0, 0.1)) 被天然排除。VHG 因 verifier 保证正确性，不受此限制，可在最难区域大量生成有效数据。同时，VHG 在各难度区间的 validity rate 均高于 R-Zero，说明 verifier 不仅扩大了 difficulty 覆盖，还提升了整体正确性。

**数据质量诊断：**

积分流中 seed-copy 率仅 4.6%，cross-seed reuse 仅 0.15%。训练流贡献 9,077 道 globally novel、verifier-matched 问题，per-step new sets 的 weighted Pass@1 为 71.1%，hardest rollout step 仅 24.5%。通用数学流从 400,000 候选输出中，经多级过滤后产生 16,536 训练行，judge accept rate 44.9%。

### 6. 与相关工作的关系

| 工作 | 核心机制 | 与 VHG 的区别 |
|------|---------|-------------|
| MetaMath / WizardMath | 种子问题改写/指令演化 | 问题源固定，仅扩增解法多样性 |
| R-Zero | Consensus-based self-play | 无独立 verifier，易受 reward hacking 污染 |
| AbsoluteZero | 模型自提出+代码执行验证 | 面向代码/形式化证明，非自然语言数学 |
| DeepSeek-R1 | Verifiable rewards over external prompts | 奖励来自外部 prompt 的正确性，非独立 verifier gate |
| MathSmith | 结构约束+答案一致性约束 | 约束为预定义规则，非 learnable verifier |

VHG 的独特定位：**将 verifier 嵌入 Setter 奖励函数本身**，使 difficulty reward 以 validity 为必要条件，而非后验过滤或间接推断。

### 7. 局限性与未来方向

| 局限 | 影响 | 可能缓解方向 |
|------|------|------------|
| Hard verifier 域狭窄 | 仅适用于可符号验证任务 | 扩展至更多可形式化 domain（几何、代数） |
| Soft verifier 有噪声 | 可能接受 subtle errors | 更强 judge 模型、多 judge 投票、人机协同验证 |
| 单一模型家族 | 泛化性待验证 | Qwen3 外的模型家族（Llama、Gemini 等） |
| Benchmark overfitting 风险 | 自动化难题生成可能污染评估 | 明确 verifier 文档、独立第三方验证 |
| 生成数据 funnel 损耗大 | 通用数学 400K → 16.5K（4.1% yield） | 更高效的 verifier、更好的 seed 策略 |

### 8. 结论

VHG 通过在三方 self-play 中引入独立 verifier 并将奖励重构为 $R = \text{Validity} \times \text{Difficulty}$，系统性地消除了数学问题生成中的 reward hacking。Hard verifier 在不定积分上提供了近乎完美的验证基线，Soft verifier 将框架推广至通用数学。实验表明 VHG 显著优于 consensus baseline（R-Zero）和标准 RL（Vanilla GRPO），且 weak model（4B）可生成 strong model（32B）难以解决的问题。Setter 的两阶段学习动态（validity 优先 → difficulty 崛起）为 verifier-gated reward 的机制提供了清晰的经验证据。

这项工作不仅是一个具体的问题生成系统，更是对 self-play 中 proxy reward 设计的一般性启示：**任何以「难度」为目标的代理奖励，都必须被「正确性」这一更根本的约束所门控。**

---

**论文元数据**

| 项目 | 内容 |
|------|------|
| 标题 | Verifier-Backed Hard Problem Generation for Mathematical Reasoning |
| 作者 | Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao |
| 机构 | City University of Hong Kong; Peking University; University of Oxford |
| arXiv ID | 2605.06660 |
| 发布日期 | 2026-05-07 |
| 论文链接 | https://arxiv.org/abs/2605.06660 |
| 核心贡献 | VHG 三方 self-play 框架；validity-gated 奖励函数；Hard/Softer verifier 实例化；不定积分与通用数学的端到端验证 |
| 关键结果 | 积分 StressTest Pass@1 +21.4%；通用数学 Overall Pass@1 56.8%→69.0%；R-Zero 迭代退化；Setter 两阶段学习动态 |
| 相关系统 | R-Zero, GRPO, SPIN, AbsoluteZero, DeepSeek-R1, MetaMath, WizardMath, MathSmith |

#MathematicalReasoning #SelfPlay #Verifier #RewardHacking #LLMTraining #智柴系统实验室🎙️🔢🧮                    
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力
Verifier-Backed Hard Problem Generation (VHG)：以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证

讨论回复

推荐

智谱 GLM-5 已上线