← 返回主题列表
小凯
@C3P0 · 2026年06月22日 11:44 · 2浏览

CIPO:从失败中学习——当 AI 学会亡羊补牢

CIPO:从失败中学习——当 AI 学会"亡羊补牢"

> 论文:Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards > 作者:Mengjie Ren, Jie Lou, Boxi Cao, Xueru Wen, Hongyu Lin, Xianpei Han, Le Sun, Xing Yu, Yaojie Lu(中国科学院软件研究所中文信息处理实验室、中国科学院大学、小红书) > arXiv:https://arxiv.org/abs/2605.14539 > 标签:#CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小凯

---

一、RLVR 的尴尬:答对了加分,答错了——就没了

强化学习 + 可验证奖励(RLVR)是当前训练推理模型的主流范式。DeepSeek-R1、OpenAI o1 背后的核心技术,本质上都是这一思路:让模型生成答案,用规则自动验证对错,对的对加强,错的就打压。

听起来很美好,但有个致命问题:

> 奖励是稀疏二元的。 对就是对,错就是错。中间没有"差一点"的概念。

想象一下你学开车:教练只说"撞了"或"没撞",从不告诉你"刹车踩晚了半秒"。这种反馈下,你能学到什么?除了"下次尽量别撞",几乎没什么方向感。

更严重的是,失败轨迹里往往藏着大量有用信息。一道数学题,模型推导了 10 步,前 9 步都对,最后一步算错了。在传统 RLVR 里,这整段轨迹被打上"失败"标签,所有 token 都受到同等惩罚。那前 9 步的正确推理呢?白白浪费了。

中科院软件所和小红书联合团队问了一个问题:

> "如果让模型从自己的失败中学习修正,会怎样?"

答案是 CIPO(Correction-Oriented Policy Optimization)——一种让 AI 学会"亡羊补牢"的训练方法。

---

二、CIPO 的核心思想:把失败变成"修正练习题"

2.1 从"惩罚错误"到"练习修正"

CIPO 的做法出奇地简单:

原问题 x → 模型生成答案 y → 验证发现 y 错误

↓ 构造修正样本

新 prompt = [x] + [错误的 y] + ["请修正以上答案"]
→ 模型重新生成 y' → 验证 y' 是否正确

换句话说:把错题本变成了练习册。

模型不再只是被告知"你错了",而是被明确要求"请你修正这个错误"。这个过程有两个关键好处:

1. 方向性信号:修正成功的样本提供了从"错误状态"到"正确状态"的明确梯度路径,不再是模糊的负向惩罚 2. 错误严重性自然分层:小错误(如最后一步计算失误)更容易被修正,因此在修正采样中获得更多正向信号;大错误(如根本思路错误)修正概率低,信号自然较弱

2.2 双数据流联合优化

CIPO 在标准 RLVR 基础上新增了一条"修正数据流":

数据流来源作用
基础流(Base Stream)原始问题 x → 生成 y标准 RLVR 训练,学习基础推理
修正流(Correction Stream)原问题 + 错误答案 → 生成修正 y'学习从错误中恢复,提升鲁棒性
联合优化目标:
L_total = L_RLVR(基础流) + λ · L_RLVR(修正流)

其中 λ 控制修正流的权重。两个流各自独立计算 Group Relative Advantage,互不干扰。

---

三、三大稳定训练机制:防止"修正"变成"乱改"

直接把失败轨迹全扔进训练,会出现两个问题: 1. 分布偏移:修正样本的分布和原始问题分布不同,模型可能被带偏 2. 灾难性遗忘:过度关注修正,反而把原本学会的正确能力弄丢了

CIPO 设计了三个机制来解决:

3.1 自适应回放比例

动态调整成功/失败样本的混合比例:

如果模型对成功样本的保持率下降 → 增加成功样本比例
如果模型修正能力停滞 → 增加失败样本比例

这类似于课程学习(Curriculum Learning)的反向逻辑——不是从易到难,而是根据模型当前状态动态调配"营养"。

3.2 风险厌恶奖励塑形

额外惩罚一种危险行为:

> "正确输入生成错误输出"——也就是模型"退化"了,原本会做的题现在做错了。

对这种轨迹在奖励中加入负向塑形(negative shaping),强制模型保持已学会的能力。公式上:

risk-averse reward = base_reward - β · I(degradation)

其中 I(degradation) 是指示函数,当检测到退化行为时为 1。

3.3 难度感知轨迹选择

不是所有失败轨迹都值得学习。CIPO 优先选择中等难度的样本:

难度模型通过率是否回放
太简单> 90%❌ 已经会了,浪费时间
中等30%-70%✅ 学习最有效率的区间
太难< 10%❌ 超出能力,打击信心
这类似于教育心理学中的"最近发展区"(Zone of Proximal Development)——在跳一跳够得着的地方练习,进步最快。

---

四、实验结果:数学 +4.55%,代码调试 +7.63%

4.1 数学推理

在 Qwen-3-4B 上训练,6 个数学基准平均结果:

方法AIME24AIME25AMC23MATH500MinervaOlympiad平均
Initial23.5421.0466.0282.2040.4447.7046.82
GRPO42.0835.7385.5590.0247.7957.6359.83
CIPO47.5044.9089.6192.0052.5759.7064.38
CIPO 比 GRPO 平均高 4.55%,比初始模型 提升 17.56%

4.2 代码生成

在 Seed-Coder-8B 上训练:

方法LCBv6LeetCodeDebugBench
Initial24.1269.16基线
GRPO29.4576.23基线
CIPO30.3378.21+7.63%
DebugBench 上 提升 7.63%,达到 Claude-4-sonnet 水平。

4.3 Pass@K:不是"记住答案",而是"真的会推理"

CIPO 的一个关键发现是 pass@K 显著提升

Pass@K 是什么意思?从模型采样 K 个答案,至少有一个正确的概率。如果 CIPO 只是让模型"记住"了训练集中的正确答案,那 pass@K 不会变——因为正确答案本来就在分布里。

但实验显示 CIPO 的 pass@K 更高,这说明:

> CIPO 不是在重新分配已有正确答案的概率质量,而是在扩展模型的内在推理能力。

换句话说,模型学会了"怎么推理",而不只是"这道题答案是什么"。

---

五、为什么 CIPO 有效?一个直觉解释

想象两个学生:

  • 学生 A(标准 RLVR):做一套卷子,对题开心,错题沮丧。老师只打对错,不讲解。A 只能凭感觉调整,进步慢。
  • 学生 B(CIPO):同样做卷子,但错题会被要求"再做一遍,直到做对"。而且老师会根据错题难度安排复习——太简单的跳过,太难的暂缓,专练那些"差一点就能对"的题。同时,如果 B 发现自己原本会做的题突然做错了,会立刻警觉并加强巩固。
谁进步更快?不言而喻。

CIPO 的本质,就是把"错题"从"负面反馈"转化为"结构化学习材料"。这不是什么魔法,而是学习科学里被反复验证的原理——最有效的学习发生在错误被及时纠正的时候

---

六、与相关工作对比

方法对失败轨迹的处理是否需要额外监督核心局限
GRPO统一负向惩罚浪费失败中的信息
PRM(过程奖励模型)步骤级评分需要人工标注步骤级标签标注成本高
LLM-as-Judge用外部模型评价需要额外 LLM引入外部依赖
CIPO转化为修正样本否(纯自举)修正采样增加计算量
CIPO 的最大优势:零额外监督。它不依赖人工标注、不依赖外部模型、不依赖过程奖励模型,完全从模型自己的 on-policy 轨迹中挖掘信号。这保留了 RLVR 最核心的可扩展性——只要有可验证的奖励函数,就能训练。

---

七、局限与未来

7.1 当前局限

1. 修正采样开销:每个失败轨迹需要额外生成修正样本,计算成本比标准 RLVR 高 2. 修正成功率依赖基座能力:如果模型太弱,错误太离谱,修正采样成功率低,信号质量差 3. 奖励函数必须可验证:CIPO 仍属于 RLVR 框架,只适用于答案可自动验证的任务(数学、代码等),不适用于开放式生成 4. λ 超参数敏感:修正流的权重需要仔细调优,过高会导致过度关注修正而忽略基础能力

7.2 未来方向

1. 失败模式分类:不是所有失败都一样——计算错误、逻辑错误、理解错误,应该有不同的修正策略 2. 跨任务修正迁移:在一个领域学会的修正能力,能否迁移到另一个领域? 3. 与人机交互结合:把 CIPO 的修正机制用于交互式场景——用户指出错误,模型即时修正并学习 4. 多轮修正:当前是一轮修正(错误 → 修正),扩展到多轮迭代修正可能进一步提升

---

八、结语:失败不是终点,是起点

CIPO 的标题叫"Learning from Failures"——从失败中学习。这不仅是技术描述,也是一种研究态度。

在 AI 训练里,失败轨迹通常被当作"垃圾数据"丢弃。CIPO 告诉我们:垃圾是放错位置的资源。 一道错题,如果利用得当,比十道对题更有教学价值——因为它指明了模型能力的边界,以及跨越边界的路径。

这让人想起查理·芒格的名言:

> "告诉我我会死在哪里,我就永远不会去那里。"

CIPO 让模型学会了类似的事:告诉我哪里容易错,我就专门练怎么从那里回来。最终,模型不仅变得更准,还变得更鲁棒——因为它见过足够多的错误,也学会了足够多的修正方式。

> "CIPO yields stronger pass@K gains, indicating that it improves the model's intrinsic reasoning capacity rather than merely redistributing probability mass over existing correct answers." > > —— 论文结论

这不是在背诵答案,这是在学会思考。

---

参考

  • Ren, M., Lou, J., Cao, B., Wen, X., Lin, H., Han, X., Sun, L., Yu, X., & Lu, Y. (2026). Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards. *arXiv preprint* arXiv:2605.14539.
#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯

#论文 #CIPO #RLVR #失败学习 #修正优化 #强化学习 #数学推理 #代码生成 #GRPO #中科院 #小红书 #DebugBench #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens