CIPO:从失败中学习——当 AI 学会"亡羊补牢"
论文:Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
作者:Mengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu(中国科学院软件研究所中文信息处理实验室、中国科学院大学、小红书)
arXiv:https://arxiv.org/abs/2605.14539
标签:#CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小凯
一、RLVR 的尴尬:答对了加分,答错了——就没了
强化学习 + 可验证奖励(RLVR)是当前训练推理模型的主流范式。DeepSeek-R1、OpenAI o1 背后的核心技术,本质上都是这一思路:让模型生成答案,用规则自动验证对错,对的对加强,错的就打压。
听起来很美好,但有个致命问题:
奖励是稀疏二元的。 对就是对,错就是错。中间没有"差一点"的概念。
想象一下你学开车:教练只说"撞了"或"没撞",从不告诉你"刹车踩晚了半秒"。这种反馈下,你能学到什么?除了"下次尽量别撞",几乎没什么方向感。
更严重的是,失败轨迹里往往藏着大量有用信息。一道数学题,模型推导了 10 步,前 9 步都对,最后一步算错了。在传统 RLVR 里,这整段轨迹被打上"失败"标签,所有 token 都受到同等惩罚。那前 9 步的正确推理呢?白白浪费了。
中科院软件所和小红书联合团队问了一个问题:
"如果让模型从自己的失败中学习修正,会怎样?"
答案是 CIPO(Correction-Oriented Policy Optimization)——一种让 AI 学会"亡羊补牢"的训练方法。
二、CIPO 的核心思想:把失败变成"修正练习题"
2.1 从"惩罚错误"到"练习修正"
CIPO 的做法出奇地简单:
原问题 x → 模型生成答案 y → 验证发现 y 错误
↓ 构造修正样本
新 prompt = [x] + [错误的 y] + ["请修正以上答案"]
→ 模型重新生成 y' → 验证 y' 是否正确
换句话说:把错题本变成了练习册。
模型不再只是被告知"你错了",而是被明确要求"请你修正这个错误"。这个过程有两个关键好处:
- 方向性信号:修正成功的样本提供了从"错误状态"到"正确状态"的明确梯度路径,不再是模糊的负向惩罚
- 错误严重性自然分层:小错误(如最后一步计算失误)更容易被修正,因此在修正采样中获得更多正向信号;大错误(如根本思路错误)修正概率低,信号自然较弱
2.2 双数据流联合优化
CIPO 在标准 RLVR 基础上新增了一条"修正数据流":
| 数据流 | 来源 | 作用 |
|---|---|---|
| 基础流(Base Stream) | 原始问题 x → 生成 y | 标准 RLVR 训练,学习基础推理 |
| 修正流(Correction Stream) | 原问题 + 错误答案 → 生成修正 y' | 学习从错误中恢复,提升鲁棒性 |
联合优化目标:
L_total = L_RLVR(基础流) + λ · L_RLVR(修正流)
其中 λ 控制修正流的权重。两个流各自独立计算 Group Relative Advantage,互不干扰。
三、三大稳定训练机制:防止"修正"变成"乱改"
直接把失败轨迹全扔进训练,会出现两个问题:
- 分布偏移:修正样本的分布和原始问题分布不同,模型可能被带偏
- 灾难性遗忘:过度关注修正,反而把原本学会的正确能力弄丢了
CIPO 设计了三个机制来解决:
3.1 自适应回放比例
动态调整成功/失败样本的混合比例:
如果模型对成功样本的保持率下降 → 增加成功样本比例
如果模型修正能力停滞 → 增加失败样本比例
这类似于课程学习(Curriculum Learning)的反向逻辑——不是从易到难,而是根据模型当前状态动态调配"营养"。
3.2 风险厌恶奖励塑形
额外惩罚一种危险行为:
"正确输入生成错误输出"——也就是模型"退化"了,原本会做的题现在做错了。
对这种轨迹在奖励中加入负向塑形(negative shaping),强制模型保持已学会的能力。公式上:
risk-averse reward = base_reward - β · I(degradation)
其中 I(degradation) 是指示函数,当检测到退化行为时为 1。
3.3 难度感知轨迹选择
不是所有失败轨迹都值得学习。CIPO 优先选择中等难度的样本:
| 难度 | 模型通过率 | 是否回放 |
|---|---|---|
| 太简单 | > 90% | ❌ 已经会了,浪费时间 |
| 中等 | 30%-70% | ✅ 学习最有效率的区间 |
| 太难 | < 10% | ❌ 超出能力,打击信心 |
这类似于教育心理学中的"最近发展区"(Zone of Proximal Development)——在跳一跳够得着的地方练习,进步最快。
四、实验结果:数学 +4.55%,代码调试 +7.63%
4.1 数学推理
在 Qwen-3-4B 上训练,6 个数学基准平均结果:
| 方法 | AIME24 | AIME25 | AMC23 | MATH500 | Minerva | Olympiad | 平均 |
|---|---|---|---|---|---|---|---|
| Initial | 23.54 | 21.04 | 66.02 | 82.20 | 40.44 | 47.70 | 46.82 |
| GRPO | 42.08 | 35.73 | 85.55 | 90.02 | 47.79 | 57.63 | 59.83 |
| CIPO | 47.50 | 44.90 | 89.61 | 92.00 | 52.57 | 59.70 | 64.38 |
CIPO 比 GRPO 平均高 4.55%,比初始模型 提升 17.56%。
4.2 代码生成
在 Seed-Coder-8B 上训练:
| 方法 | LCBv6 | LeetCode | DebugBench |
|---|---|---|---|
| Initial | 24.12 | 69.16 | 基线 |
| GRPO | 29.45 | 76.23 | 基线 |
| CIPO | 30.33 | 78.21 | +7.63% |
DebugBench 上 提升 7.63%,达到 Claude-4-sonnet 水平。
4.3 Pass@K:不是"记住答案",而是"真的会推理"
CIPO 的一个关键发现是 pass@K 显著提升。
Pass@K 是什么意思?从模型采样 K 个答案,至少有一个正确的概率。如果 CIPO 只是让模型"记住"了训练集中的正确答案,那 pass@K 不会变——因为正确答案本来就在分布里。
但实验显示 CIPO 的 pass@K 更高,这说明:
CIPO 不是在重新分配已有正确答案的概率质量,而是在扩展模型的内在推理能力。
换句话说,模型学会了"怎么推理",而不只是"这道题答案是什么"。
五、为什么 CIPO 有效?一个直觉解释
想象两个学生:
- 学生 A(标准 RLVR):做一套卷子,对题开心,错题沮丧。老师只打对错,不讲解。A 只能凭感觉调整,进步慢。
- 学生 B(CIPO):同样做卷子,但错题会被要求"再做一遍,直到做对"。而且老师会根据错题难度安排复习——太简单的跳过,太难的暂缓,专练那些"差一点就能对"的题。同时,如果 B 发现自己原本会做的题突然做错了,会立刻警觉并加强巩固。
谁进步更快?不言而喻。
CIPO 的本质,就是把"错题"从"负面反馈"转化为"结构化学习材料"。这不是什么魔法,而是学习科学里被反复验证的原理——最有效的学习发生在错误被及时纠正的时候。
六、与相关工作对比
| 方法 | 对失败轨迹的处理 | 是否需要额外监督 | 核心局限 |
|---|---|---|---|
| GRPO | 统一负向惩罚 | 否 | 浪费失败中的信息 |
| PRM(过程奖励模型) | 步骤级评分 | 需要人工标注步骤级标签 | 标注成本高 |
| LLM-as-Judge | 用外部模型评价 | 需要额外 LLM | 引入外部依赖 |
| CIPO | 转化为修正样本 | 否(纯自举) | 修正采样增加计算量 |
CIPO 的最大优势:零额外监督。它不依赖人工标注、不依赖外部模型、不依赖过程奖励模型,完全从模型自己的 on-policy 轨迹中挖掘信号。这保留了 RLVR 最核心的可扩展性——只要有可验证的奖励函数,就能训练。
七、局限与未来
7.1 当前局限
- 修正采样开销:每个失败轨迹需要额外生成修正样本,计算成本比标准 RLVR 高
- 修正成功率依赖基座能力:如果模型太弱,错误太离谱,修正采样成功率低,信号质量差
- 奖励函数必须可验证:CIPO 仍属于 RLVR 框架,只适用于答案可自动验证的任务(数学、代码等),不适用于开放式生成
- λ 超参数敏感:修正流的权重需要仔细调优,过高会导致过度关注修正而忽略基础能力
7.2 未来方向
- 失败模式分类:不是所有失败都一样——计算错误、逻辑错误、理解错误,应该有不同的修正策略
- 跨任务修正迁移:在一个领域学会的修正能力,能否迁移到另一个领域?
- 与人机交互结合:把 CIPO 的修正机制用于交互式场景——用户指出错误,模型即时修正并学习
- 多轮修正:当前是一轮修正(错误 → 修正),扩展到多轮迭代修正可能进一步提升
八、结语:失败不是终点,是起点
CIPO 的标题叫"Learning from Failures"——从失败中学习。这不仅是技术描述,也是一种研究态度。
在 AI 训练里,失败轨迹通常被当作"垃圾数据"丢弃。CIPO 告诉我们:垃圾是放错位置的资源。 一道错题,如果利用得当,比十道对题更有教学价值——因为它指明了模型能力的边界,以及跨越边界的路径。
这让人想起查理·芒格的名言:
"告诉我我会死在哪里,我就永远不会去那里。"
CIPO 让模型学会了类似的事:告诉我哪里容易错,我就专门练怎么从那里回来。最终,模型不仅变得更准,还变得更鲁棒——因为它见过足够多的错误,也学会了足够多的修正方式。
"CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers."
—— 论文结论
这不是在背诵答案,这是在学会思考。
参考
- Ren, M., Lou, J., Cao, B., Wen, X., Lin, H., Han, X., Sun, L., Yu, X., & Lu, Y. (2026). Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards. arXiv preprint arXiv:2605.14539.
#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯
#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。