自我改进人工智能系统需要与环境交互以实现持续适应。SPICE(Self-Play In Corpus Environments)是一种强化学习框架,其中单个模型扮演两个角色:挑战者(Challenger)从大型语料库中挖掘文档以生成多样化的推理任务,以及推理者(Reasoner)解决这些任务。
与现有的非基础自我对弈方法相比,SPICE解决了两个关键问题:
- 幻觉放大:模型在自身生成的不可验证的合成数据上训练时,生成问题和答案中的事实错误会加剧
- 信息对称:问题生成器和解决者共享相同的知识库,阻碍了真正的挑战
通过对抗性动态,挑战者在推理者能力前沿创建自动课程,而语料库基础提供了持续改进所需的丰富、近乎无穷的外部信号。
