SPICE: Self-Play In Corpus Environments Improves Reasoning
通过语料库环境中的自我对弈提升大语言模型推理能力
基本概念与背景
自我改进人工智能系统需要与环境交互以实现持续适应。SPICE(Self-Play In Corpus Environments)是一种强化学习框架,其中单个模型扮演两个角色:挑战者(Challenger)从大型语料库中挖掘文档以生成多样化的推理任务,以及推理者(Reasoner)解决这些任务。
与现有的非基础自我对弈方法相比,SPICE解决了两个关键问题:
- 幻觉放大:模型在自身生成的不可验证的合成数据上训练时,生成问题和答案中的事实错误会加剧
- 信息对称:问题生成器和解决者共享相同的知识库,阻碍了真正的挑战
通过对抗性动态,挑战者在推理者能力前沿创建自动课程,而语料库基础提供了持续改进所需的丰富、近乎无穷的外部信号。
SPICE架构与工作原理
SPICE是一个端到端框架,单个模型通过自我对弈扮演两个角色:挑战者(C)和推理者(R)。当扮演挑战者时,模型基于网络文档提出挑战推理者的问题。随后,模型切换到推理者角色回答这些问题。这个迭代过程由对抗性动态驱动,使两个角色共同进化,从而产生能力更强的模型。
整个框架是自我监督的,不需要人工干预,只需要一个大型非结构化语料库。
# SPICE核心算法伪代码
for t ← 1 to T do:
# 挑战者角色:生成具有挑战性的问题
for b ← 1 to B do:
采样文档 d ∼ D
生成多个尝试: {(qi, a∗i)}Ni=1 ← πθ(d, role = C)
if qi 有效 then:
{âk}Gk=1 ← πθ(qi, role = R) # 无文档访问
rC(qi, a∗i) ← 使用方差公式计算奖励
else:
rC(qi, a∗i) ← ρ # 无效任务惩罚
end if
end for
# 推理者角色:解决生成的问题
选择一个随机有效任务 (q, a∗) 从挑战者阶段
TR ← {âi}Gi=1 ∼ πθ(q, role = R) # G个响应用于训练
for i ← 1 to G do:
rR(âi, a∗i) ← 1[âi = a∗] # 二进制正确性奖励
end for
# 更新阶段:使用角色特定优势优化πθ
计算挑战者和推理者的角色特定优势
使用优势更新πθ
end for
挑战者(Challenger)
挑战者从文档中学习生成既能最大限度挑战推理者又保持可解决的问题:
- 文档采样:从大型文档语料库中均匀采样段落
- 多格式任务生成:基于文档评估生成多选题(MCQ)或自由形式问题
- 基于方差的课程奖励:使用高斯形状的奖励函数,当方差等于0.25(50%通过率)时达到最大值1.0,表示最优任务难度
# 挑战者奖励函数
rC(q, a∗) = (
exp(-(Var({l1,...,lK})-0.25)²/(2·0.01))
if q is valid
ρ otherwise (penalty)
)
推理者(Reasoner)
推理者学习在没有文档访问的情况下解决挑战者的任务:
- 答案生成:仅给定有效问题q,模型生成答案â
- 逐步推理:模型被提示逐步推理并将最终答案放在\boxed{}标签内
- 二进制正确性奖励:推理者接收基于规则验证器的正确性奖励
# 推理者奖励函数
rR(â, a∗) = 1[â = a∗] # 二进制正确性奖励
文档基础自我对弈的创新点
SPICE的核心创新在于将大型文档语料库作为外部知识源,实现持续自我改进:
- 信息不对称:挑战者将问题和黄金答案建立在推理者未见过的检索文档中,创造真正的挑战
- 文档多样性:文档的巨大多样性确保了超越模型内部知识的持续新颖性
- 防止幻觉:语料库基础通过将问题和黄金答案锚定在真实世界内容而非模型生成的幻想上,防止了幻觉
- 通用验证:任务以多种格式生成(多选题和带有整数/表达式/字符串答案的自由形式问题),作为通用验证器,无需专门的执行器或基于规则的验证器
这种设计打破了将先前工作限制在数学和代码等狭窄领域的验证瓶颈,同时文档基础答案确保验证仍然基于事实。
实验结果与性能提升
在四个基础模型上的实验表明,SPICE在所有模型家族上持续超越基线,产生最大的整体改进:
| 基础模型 | 基准性能 | SPICE性能 | 绝对提升 |
|---|---|---|---|
| Qwen3-4B-Base | 35.8% | 44.9% | +9.1% |
| Qwen3-8B-Base | 43.0% | 48.7% | +5.7% |
| OctoThinker-3B-Hybrid-Base | 14.7% | 25.2% | +10.5% |
| OctoThinker-8B-Hybrid-Base | 20.5% | 32.4% | +11.9% |
这些提升跨越了数学推理(平均+8.9%)和一般推理任务(在MMLU-Pro、GPQA-Diamond、SuperGPQA和BBEH上+9.8%),表明语料库基础开发了广泛适用的能力。
对抗性动态在挑战者和推理者之间创造了自动课程:固定推理者的通过率从55%下降到35%,因为它学会生成越来越难的问题,而固定挑战者的通过率从55%上升到85%,表明两个角色成功共同进化。
设计思想与未来展望
SPICE代表了自我改进推理方法的范式转变:从由于幻觉漂移而经常停滞的闭环自我对弈,转变为通过与嵌入在网络文档语料库中的巨大、可验证知识互动进行开放式改进。
SPICE的设计思想基于以下关键洞察:
- 外部信号的重要性:自我改进需要与提供多样化、可验证反馈的外部源互动,而不是纯粹的闭环内省
- 对抗性动态的价值:挑战者和推理者之间的对抗性互动创造了自动课程,使系统能够持续发现新的挑战并克服它们
- 信息不对称的必要性:通过确保挑战者可以访问推理者无法访问的信息,创造真正的挑战而非简单的模式匹配
未来,SPICE为无需明确人工监督的自我改进开辟了新途径,通过挖掘嵌入在语料库中的训练信号,开发跨领域广泛适用的推理能力。
参考文献:Liu, B., Jin, C., Kim, S., et al. (2025). SPICE: Self-Play In Corpus Environments Improves Reasoning. arXiv:2510.24684v1.