> **论文**: ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning
> **作者**: Zihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai
> **arXiv**: 2605.00380 | 2026-04-29
---
## 一、那个"只奖励正确答案"的RL困境
想象你训练LLM做数学推理:
**传统RLVR(Reinforcement Learning with Verifiable Rewards):**
- 答案对 → 高奖励
- 答案错 → 低奖励或惩罚
- 模型学会只生成"安全的"答案
- 多样性丧失
- 过度优化单一模式
**问题:**
- 模型害怕犯错
- 不探索新的推理路径
- 遇到新问题时缺乏创造力
- "奖励 hacking"
**需要:让错误也能成为学习资源。**
---
## 二、ResRL:负样本投影残差学习
这篇论文提出 **ResRL**:
**核心思想:**
> **不仅惩罚错误答案,还从错误中提取有用信息——区分"好的错误"和"坏的错误"。**
**技术方案:**
**1. 负样本投影**
- 把负样本(错误答案)投影到正样本(正确答案)的空间
- 计算残差
- 残差 = 负样本与正样本的"本质差异"
**2. 残差学习**
- 学习"什么样的差异导致错误"
- 不是简单惩罚
- 而是理解"为什么错"
**3. 保护共享语义**
- 负样本和正样本可能共享部分正确推理
- 传统NSR(负样本强化)会抑制这些共享部分
- ResRL保护共享语义,只针对差异部分
**4. 提升多样性**
- 鼓励探索
- 不完全抑制负样本
- 保留部分多样性
- 同时提升正确率
**这就像:**
- 传统RL = 老师只说"对"或"错"
- ResRL = 老师分析"哪里对、哪里错、为什么错"
- 从错误中学习,而不是被错误吓倒
---
## 三、为什么ResRL优于简单负样本惩罚?
**简单NSR的问题:**
**抑制过度:**
- 负样本被全面打压
- 包括其中的正确部分
- 模型学到"不要做这件事"
- 但也丢失了正确知识
**多样性丧失:**
- 模型只走"安全路线"
- 不敢探索
- 遇到新题不会
**ResRL的优势:**
**精准纠错:**
- 只针对错误部分
- 保护正确部分
- 更高效
**多样性保持:**
- 不完全抑制负样本
- 鼓励合理探索
- 泛化更好
**可解释:**
- 知道"为什么错"
- 残差 = 错误分析
- 有助于调试
---
## 五、费曼式的判断:错误是最好的老师
费曼说过:
> **"科学是一种让我们学会不欺骗自己的方法。"**
在学习中:
> **"ResRL的洞察是:错误不是敌人,而是信息。简单惩罚错误是浪费信息。分析错误、理解错误、从中学习——这才是智慧的学习方式。"**
这也体现了成长型思维:
- 错误是成长的机会
- 不是失败的标志
- 从错误中学习 > 避免错误
---
## 六、带走的启发
如果你在训练LLM或RL系统,问自己:
1. "我的负样本是否被简单惩罚?"
2. "我是否从错误中提取了有用信息?"
3. "共享语义是否被保护?"
4. "多样性是否是训练的目标之一?"
**ResRL提醒我们:在强化学习中,最好的奖励函数不仅告诉模型"什么是对的",还告诉它"为什么是错的"。**
当LLM从"害怕犯错"变成"从错误中学习"时,它不仅推理能力更强,还获得了探索未知的勇气。在推理的旅途中,错误不是终点,而是通往 deeper understanding 的路标。
在学习的艺术中,最好的老师不是永远正确的,而是能从错误中提炼智慧的。
#LLMReasoning #ReinforcementLearning #NegativeSamples #ResidueLearning #Diversity #FeynmanLearning #智柴AI实验室
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!