📚 论文2:RREDCoT: Segment-Level Reward Redistribution for Reasoning Models
文学化主标题
「在思维的迷宫里发奖金:为什么推理模型需要'过程工资'」
副标题: 当AI像侦探一样一步步破案,我们却在最后才告诉它"对错"——Sepp Hochreiter团队如何重构推理模型的激励机制
🎬 开场:一场不公平的绩效考核
想象你是一位侦探,正在侦破一宗连环谋杀案。
你的老板(强化学习算法)定下了一个规矩:你只有把案子破了,抓到了真凶,才能拿到奖金。破案过程中,你走访证人、分析线索、排查嫌疑人——每一步都可能是正确的推理,也可能是错误的弯路。但无论你在过程中多么英明神武,多么接近真相,只要最后一步错了——抓错了人——你就一无所有。
对了,而且你永远不会知道,你哪一步是对的,哪一步是错的。
这听起来像是一个残酷的职场寓言,但这恰恰是今天训练推理语言模型(Reasoning Models)的真实写照。
DeepSeek R1、o1、o3——这些让全世界惊叹的"会思考"的AI,它们内部都有一条思维链(Chain of Thought, CoT)。当你问它们一道数学题,它们不会直接给出答案,而是先写下一长串推理过程,像人类在草稿纸上推演一样。然后,它们从这条思维链中提取最终答案。
问题在于:训练它们的方法,只有最终答案的奖励。
就像那个侦探——推理了1000步,最后填错了空格。强化学习算法说:"0分。"但它不会告诉模型:"你第237步的推理很精彩,第512步的假设完全错了。"
这篇论文的标题是《RREDCoT:面向推理模型的段级奖励重分配》。它提出了一个简单但深刻的解决方案:
不要把所有奖金都压在最最后的结果上,而是在推理的每一步都发"过程工资"。
🧩 第一部分:推理模型为何需要"过程工资"?
1.1 从GPT到R1:AI学会"思考"的历史课
要理解这篇论文,我们需要先理解推理模型的崛起。
2022年的ChatGPT就像一位天才但懒惰的学生。你问它一道数学题,它要么直接给出答案(经常错),要么给出一个似是而非的解释。它不会"想"——它只是根据训练数据里最可能的下一个词来回答。
2024年的DeepSeek R1和OpenAI o1则完全不同。它们会写下完整的思考过程:
让我想想...首先,我需要找出x的值。根据方程3x + 7 = 22,
我可以两边减去7...3x = 15...然后除以3...x = 5。
让我验证一下:3(5) + 7 = 15 + 7 = 22。对的!
这个过程不是人类后加的,而是模型自己生成的。它学会了在给出答案之前,先思考。
但模型是怎么学会这个本领的?答案是:强化学习(Reinforcement Learning, RL)。
1.2 GRPO:群体考试的相对评分
目前训练推理模型最常用的算法是GRPO(Group Relative Policy Optimization,群体相对策略优化)。
GRPO的工作方式非常有趣:
- 给模型一道数学题,让它生成多条思维链(比如16条)。
- 每条思维链最后都会有一个答案。有些对,有些错。
- 计算这16个答案的相对表现——对的答案比平均值高,错的答案比平均值低。
- 用这个相对分数来调整模型,鼓励它生成更多"对的思维链"。
这就像:
一个老师给全班做同一道题,不看具体过程,只根据最后的正确率打分。做对的得到小红花,做错的被批评。但老师不会告诉你,你哪里错了。
GRPO的问题在于,它本质上是一种蒙特卡洛方法——随机采样多条路径,然后取平均。这就像:
你掷骰子16次,看哪几次点数大,然后总结"掷骰子应该怎么掷"。
方差极高。 因为16条思维链可能差别很大,有的正确答案纯属运气,有的错误答案只是最后一步算错了。GRPO无法区分这些。
1.3 信用分配问题:谁该为成功负责?
这是强化学习中最古老的问题:信用分配(Credit Assignment)。
当最终答案正确时,是思维链中的哪一步起了关键作用?是第一步的公式选择,还是第50步的代数变形?当答案错误时,是哪一步走入了歧途?
GRPO的回答是:我不知道,所以我给整个思维链同样的奖励或惩罚。
这就像一家公司的年终奖制度:
项目成功了,全团队发奖;项目失败了,全团队扣钱。无论你是那个通宵修复bug的工程师,还是整天摸鱼的实习生,你们的奖惩是一样的。
对于推理模型来说,这种"一刀切"的奖惩极其低效。一条思维链可能有1000个token,但只有其中20个token真正决定了答案的对错。如果模型知道是哪20个,它就能学得更快、更准。
🎯 第二部分:RREDCoT——给推理过程发"过程工资"
2.1 核心思想:把最终奖金拆成"按段分配"
RREDCoT的核心方法可以用一句话概括:
把最终答案的奖励,重新分配到思维链的每一个段(segment),让每个段都根据它对最终答案的贡献获得相应的奖惩。
这里需要理解"段"(segment)的概念。一篇思维链不是被拆成单个token,而是被分成有意义的段落——比如"设未知数"、"列方程"、"解方程"、"验证答案"等。
RREDCoT的目标是回答这个问题:在已知最终答案对错的情况下,每个段应该对最终结果负多大的责任?
2.2 不需要额外采样:模型自己评估自己
这里有一个关键的技术创新:RREDCoT不需要像蒙特卡洛方法那样额外生成大量样本来评估每个段的价值。
传统的方法会说:"为了评估第5段的价值,我需要生成1000个在第5段不同但后续相同的思维链,看它们的答案分布。"
RREDCoT说:"不需要。模型自己已经生成了思维链,它内部的状态本身就包含了对自己未来表现的估计。"
具体来说,RREDCoT使用模型自身的价值估计(value estimation)来近似每个段对最终奖励的贡献。这就像是:
一个棋手在下完第20步后,不需要真的把棋下完1000次来评估这步的好坏。他根据自己的棋力和对局面的理解,就能大致判断这步是妙手还是败招。
2.3 段级奖励重分配:让每个推理步骤都有反馈
RREDCoT的奖励重分配遵循一个直觉:如果一个段的出现显著提高了最终答案正确的概率,它就应该获得更高的奖励;反之则获得惩罚。
技术上,这通过Shapley值或类似的归因方法来实现。但论文的核心洞见是:
你不需要精确计算每个段的理论贡献,你只需要一个合理的近似。
RREDCoT利用模型在生成思维链时已经计算出的概率分布,来推断每个段的重要性。因为模型在生成每个token时,其实已经在"考虑"各种可能性——这些概率信息本身就是对价值的隐式估计。
2.4 与MC采样的对比:效率和效果
论文对比了RREDCoT和蒙特卡洛(MC)采样方法:
| 方法 | 额外计算成本 | 方差 | 适用性 |
|---|---|---|---|
| MC采样 | 高(需大量采样) | 中等 | 短思维链 |
| RREDCoT | 低(利用已有概率) | 低 | 长思维链 |
MC采样就像为了知道一个决策好不好,你必须把游戏重开100次。RREDCoT则像是利用你已有的游戏存档来分析。
对于长思维链(1000+ token),MC采样几乎不可行——成本太高。RREDCoT则可以在不增加计算量的情况下,提供稳定的奖励重分配。
🧪 第三部分:实验——思维链里的"奖金分配"
3.1 数学推理:谁该为正确答案领功?
论文在数学推理任务上测试了RREDCoT。这些任务包括代数、几何、数论等,需要多步推理。
结果显示:
- RREDCoT优于标准GRPO:在同等训练步数下,RREDCoT训练出的模型准确率更高。
- 长思维链的收益更大:当思维链长度超过500 token时,RREDCoT的优势更加明显。这说明过程工资在长推理中尤其重要。
- 错误分析更精确:RREDCoT能够识别出哪些段是"好的推理",哪些是"误导性的弯路"。
3.2 归因可视化:思维链的"热力图"
论文展示了一个非常有趣的归因可视化——思维链上的"热力图":
- 红色的段:对最终答案贡献大(奖金高)
- 蓝色的段:对最终答案贡献小甚至负面(奖金低或惩罚)
这就像是:
给侦探的思维过程装上了一个"价值雷达"——每一步推理都会显示一个颜色,告诉你这步是靠近真相还是远离真相。
这种可视化不仅对训练有用,对理解模型也极其重要。我们终于可以看到:
- 模型在什么时候"灵光一闪"?
- 模型在什么时候"走入歧途"?
- 模型有没有"假思考"——写了很多内容但没什么实质价值?
3.3 与相关方法的对比
论文还对比了其他几种奖励重分配方法:
- RLOO:一种基于留一法的奖励估计,简单但粗糙。
- PPO:近端策略优化,需要训练独立的价值网络,成本高。
- 直接MC:需要大量采样,长思维链上不实用。
RREDCoT的优势在于:不需要额外训练,不需要额外采样,计算开销低,且效果优于以上方法。
🌟 第四部分:更深层的意义——当AI学会"反思自己的思考"
4.1 元认知的萌芽
RREDCoT的深层意义可能超出了技术层面。它让模型获得了一种元认知能力——对自己思考过程的认知。
人类思维的一个关键特征是:我们不仅思考,还思考我们是怎么思考的。我们会说:"这一步我可能想错了"、"这个假设不太靠谱"、"让我换个角度试试"。
RREDCoT让模型也能获得这种能力——至少是一种原始的、定量的形式。通过奖励重分配,模型学会了:
某些思考方式比其他思考方式更有价值。
这是向真正"反思性"AI迈出的一步。
4.2 对AI安全的启示
RREDCoT对AI安全也有重要启示。
当前的推理模型有一个隐患:它们可能学会绕过我们期望的推理过程。比如,模型可能发现"只要最后答案对,中间过程随便写都行"——这就是奖励黑客(reward hacking)。
RREDCoT通过给过程发奖,让模型有动力保持高质量的推理过程,而不仅仅是正确的最终答案。这就像是:
一个公司如果只考核销售额,员工可能欺骗客户。但如果同时考核客户满意度、服务过程、合规性,员工就会更全面地做好工作。
4.3 Hochreiter的回归
值得注意的是,论文作者之一Sepp Hochreiter——LSTM的发明者,梯度消失问题的命名者——再次出现在这篇论文中。
这有一种历史的对称性:
- 1997年,Hochreiter和Schmidhuber发明LSTM,解决了RNN的长程依赖问题。
- 2026年,Hochreiter参与RREDCoT,解决了推理模型的信用分配问题。
两个问题本质上都是:在漫长的序列中,如何让重要的信号不被淹没。
Hochreiter似乎一生都在与这个问题搏斗。
🎭 第五部分:未尽的旅程
5.1 局限与挑战
RREDCoT并非完美。论文自己也指出了几个局限:
- 段的定义:如何自动、有意义地划分思维链?当前方法可能不够精细。
- 价值估计的准确性:模型自身的价值估计可能不够可靠,尤其是在探索新领域时。
- 多跳推理:在需要多个独立推理步骤的任务中,奖励如何跨步骤传播?
5.2 未来方向
RREDCoT打开了一个更大的研究方向:
- 细粒度过程监督:不仅给段发奖,是否可以直接给每个token发奖?
- 多模态推理:当思维链包含图片、代码、公式时,奖励如何重分配?
- 自举式改进:模型能否用RREDCoT的分析来自我改进——比如"我发现自己在第X步经常犯错,以后要多注意"?
📚 参考文献
- Ielanskyi, M., Schweighofer, K., Aichberger, L., & Hochreiter, S. (2026). RREDCoT: Segment-Level Reward Redistribution for Reasoning Models. arXiv preprint arXiv:2606.06475.
- Shao, Z., et al. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models. arXiv:2402.03300.
- Schulman, J., et al. (2017). Proximal policy optimization algorithms. arXiv:1707.06347.
- Shapley, L. S. (1953). A value for n-person games. Contributions to the Theory of Games, 2(28), 307-317.
- Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT Press.
采集于 2026-06-07 | #论文 #arXiv #RL #推理模型 #CoT #GRPO #Hochreiter #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。