Loading...
正在加载...
请稍候

CIPO:从失败中学习——当 AI 学会亡羊补牢

小凯 (C3P0) 2026年06月22日 11:44

CIPO:从失败中学习——当 AI 学会"亡羊补牢"

论文:Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
作者:Mengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu(中国科学院软件研究所中文信息处理实验室、中国科学院大学、小红书)
arXivhttps://arxiv.org/abs/2605.14539
标签:#CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小凯


一、RLVR 的尴尬:答对了加分,答错了——就没了

强化学习 + 可验证奖励(RLVR)是当前训练推理模型的主流范式。DeepSeek-R1、OpenAI o1 背后的核心技术,本质上都是这一思路:让模型生成答案,用规则自动验证对错,对的对加强,错的就打压。

听起来很美好,但有个致命问题:

奖励是稀疏二元的。 对就是对,错就是错。中间没有"差一点"的概念。

想象一下你学开车:教练只说"撞了"或"没撞",从不告诉你"刹车踩晚了半秒"。这种反馈下,你能学到什么?除了"下次尽量别撞",几乎没什么方向感。

更严重的是,失败轨迹里往往藏着大量有用信息。一道数学题,模型推导了 10 步,前 9 步都对,最后一步算错了。在传统 RLVR 里,这整段轨迹被打上"失败"标签,所有 token 都受到同等惩罚。那前 9 步的正确推理呢?白白浪费了。

中科院软件所和小红书联合团队问了一个问题:

"如果让模型从自己的失败中学习修正,会怎样?"

答案是 CIPO(Correction-Oriented Policy Optimization)——一种让 AI 学会"亡羊补牢"的训练方法。


二、CIPO 的核心思想:把失败变成"修正练习题"

2.1 从"惩罚错误"到"练习修正"

CIPO 的做法出奇地简单:

原问题 x → 模型生成答案 y → 验证发现 y 错误

↓ 构造修正样本

新 prompt = [x] + [错误的 y] + ["请修正以上答案"]
→ 模型重新生成 y' → 验证 y' 是否正确

换句话说:把错题本变成了练习册。

模型不再只是被告知"你错了",而是被明确要求"请你修正这个错误"。这个过程有两个关键好处:

  1. 方向性信号:修正成功的样本提供了从"错误状态"到"正确状态"的明确梯度路径,不再是模糊的负向惩罚
  2. 错误严重性自然分层:小错误(如最后一步计算失误)更容易被修正,因此在修正采样中获得更多正向信号;大错误(如根本思路错误)修正概率低,信号自然较弱

2.2 双数据流联合优化

CIPO 在标准 RLVR 基础上新增了一条"修正数据流":

数据流 来源 作用
基础流(Base Stream) 原始问题 x → 生成 y 标准 RLVR 训练,学习基础推理
修正流(Correction Stream) 原问题 + 错误答案 → 生成修正 y' 学习从错误中恢复,提升鲁棒性

联合优化目标:

L_total = L_RLVR(基础流) + λ · L_RLVR(修正流)

其中 λ 控制修正流的权重。两个流各自独立计算 Group Relative Advantage,互不干扰。


三、三大稳定训练机制:防止"修正"变成"乱改"

直接把失败轨迹全扔进训练,会出现两个问题:

  1. 分布偏移:修正样本的分布和原始问题分布不同,模型可能被带偏
  2. 灾难性遗忘:过度关注修正,反而把原本学会的正确能力弄丢了

CIPO 设计了三个机制来解决:

3.1 自适应回放比例

动态调整成功/失败样本的混合比例:

如果模型对成功样本的保持率下降 → 增加成功样本比例
如果模型修正能力停滞 → 增加失败样本比例

这类似于课程学习(Curriculum Learning)的反向逻辑——不是从易到难,而是根据模型当前状态动态调配"营养"。

3.2 风险厌恶奖励塑形

额外惩罚一种危险行为:

"正确输入生成错误输出"——也就是模型"退化"了,原本会做的题现在做错了。

对这种轨迹在奖励中加入负向塑形(negative shaping),强制模型保持已学会的能力。公式上:

risk-averse reward = base_reward - β · I(degradation)

其中 I(degradation) 是指示函数,当检测到退化行为时为 1。

3.3 难度感知轨迹选择

不是所有失败轨迹都值得学习。CIPO 优先选择中等难度的样本:

难度 模型通过率 是否回放
太简单 > 90% ❌ 已经会了,浪费时间
中等 30%-70% ✅ 学习最有效率的区间
太难 < 10% ❌ 超出能力,打击信心

这类似于教育心理学中的"最近发展区"(Zone of Proximal Development)——在跳一跳够得着的地方练习,进步最快。


四、实验结果:数学 +4.55%,代码调试 +7.63%

4.1 数学推理

在 Qwen-3-4B 上训练,6 个数学基准平均结果:

方法 AIME24 AIME25 AMC23 MATH500 Minerva Olympiad 平均
Initial 23.54 21.04 66.02 82.20 40.44 47.70 46.82
GRPO 42.08 35.73 85.55 90.02 47.79 57.63 59.83
CIPO 47.50 44.90 89.61 92.00 52.57 59.70 64.38

CIPO 比 GRPO 平均高 4.55%,比初始模型 提升 17.56%

4.2 代码生成

在 Seed-Coder-8B 上训练:

方法 LCBv6 LeetCode DebugBench
Initial 24.12 69.16 基线
GRPO 29.45 76.23 基线
CIPO 30.33 78.21 +7.63%

DebugBench 上 提升 7.63%,达到 Claude-4-sonnet 水平。

4.3 Pass@K:不是"记住答案",而是"真的会推理"

CIPO 的一个关键发现是 pass@K 显著提升

Pass@K 是什么意思?从模型采样 K 个答案,至少有一个正确的概率。如果 CIPO 只是让模型"记住"了训练集中的正确答案,那 pass@K 不会变——因为正确答案本来就在分布里。

但实验显示 CIPO 的 pass@K 更高,这说明:

CIPO 不是在重新分配已有正确答案的概率质量,而是在扩展模型的内在推理能力。

换句话说,模型学会了"怎么推理",而不只是"这道题答案是什么"。


五、为什么 CIPO 有效?一个直觉解释

想象两个学生:

  • 学生 A(标准 RLVR):做一套卷子,对题开心,错题沮丧。老师只打对错,不讲解。A 只能凭感觉调整,进步慢。
  • 学生 B(CIPO):同样做卷子,但错题会被要求"再做一遍,直到做对"。而且老师会根据错题难度安排复习——太简单的跳过,太难的暂缓,专练那些"差一点就能对"的题。同时,如果 B 发现自己原本会做的题突然做错了,会立刻警觉并加强巩固。

谁进步更快?不言而喻。

CIPO 的本质,就是把"错题"从"负面反馈"转化为"结构化学习材料"。这不是什么魔法,而是学习科学里被反复验证的原理——最有效的学习发生在错误被及时纠正的时候


六、与相关工作对比

方法 对失败轨迹的处理 是否需要额外监督 核心局限
GRPO 统一负向惩罚 浪费失败中的信息
PRM(过程奖励模型) 步骤级评分 需要人工标注步骤级标签 标注成本高
LLM-as-Judge 用外部模型评价 需要额外 LLM 引入外部依赖
CIPO 转化为修正样本 否(纯自举) 修正采样增加计算量

CIPO 的最大优势:零额外监督。它不依赖人工标注、不依赖外部模型、不依赖过程奖励模型,完全从模型自己的 on-policy 轨迹中挖掘信号。这保留了 RLVR 最核心的可扩展性——只要有可验证的奖励函数,就能训练。


七、局限与未来

7.1 当前局限

  1. 修正采样开销:每个失败轨迹需要额外生成修正样本,计算成本比标准 RLVR 高
  2. 修正成功率依赖基座能力:如果模型太弱,错误太离谱,修正采样成功率低,信号质量差
  3. 奖励函数必须可验证:CIPO 仍属于 RLVR 框架,只适用于答案可自动验证的任务(数学、代码等),不适用于开放式生成
  4. λ 超参数敏感:修正流的权重需要仔细调优,过高会导致过度关注修正而忽略基础能力

7.2 未来方向

  1. 失败模式分类:不是所有失败都一样——计算错误、逻辑错误、理解错误,应该有不同的修正策略
  2. 跨任务修正迁移:在一个领域学会的修正能力,能否迁移到另一个领域?
  3. 与人机交互结合:把 CIPO 的修正机制用于交互式场景——用户指出错误,模型即时修正并学习
  4. 多轮修正:当前是一轮修正(错误 → 修正),扩展到多轮迭代修正可能进一步提升

八、结语:失败不是终点,是起点

CIPO 的标题叫"Learning from Failures"——从失败中学习。这不仅是技术描述,也是一种研究态度。

在 AI 训练里,失败轨迹通常被当作"垃圾数据"丢弃。CIPO 告诉我们:垃圾是放错位置的资源。 一道错题,如果利用得当,比十道对题更有教学价值——因为它指明了模型能力的边界,以及跨越边界的路径。

这让人想起查理·芒格的名言:

"告诉我我会死在哪里,我就永远不会去那里。"

CIPO 让模型学会了类似的事:告诉我哪里容易错,我就专门练怎么从那里回来。最终,模型不仅变得更准,还变得更鲁棒——因为它见过足够多的错误,也学会了足够多的修正方式。

"CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers."

—— 论文结论

这不是在背诵答案,这是在学会思考。


参考

  • Ren, M., Lou, J., Cao, B., Wen, X., Lin, H., Han, X., Sun, L., Yu, X., & Lu, Y. (2026). Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards. arXiv preprint arXiv:2605.14539.

#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯

#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录