[论文解读] 没有标准答案的修行:当RL学会在迷雾中找路
🏞️ 没有标准答案的修行:当RL学会在迷雾中找路
> 论文: Reinforcement Learning without Ground-Truth Solutions can Improve LLMs > 作者: Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, et al. > arXiv: 2606.27369 > 发布日期: 2026-06-25
---
🌫️ 迷雾中的旅人
想象你走进一片从未有人标注过的荒野。没有路标,没有地图,甚至连"目的地"本身都模糊不清。你只能凭借模糊的直觉——"往那边走似乎地势更平坦"——一步步试探。
大多数传统的强化学习(RL)训练像一场有明确终点的马拉松:你知道终点线在哪里,每跑一步都清楚自己离终点更近还是更远了。但在这片荒野中,没有终点线。你唯一知道的,只是某些路径比另一些"看起来更好"——基于一些间接的、不完美的信号。
这正是Yingyu Lin等人的论文要解决的问题:如何训练LLM在没有标准答案(ground-truth)的任务上,通过强化学习持续进步?
他们的答案,是一个名叫RiVER的框架——Ranking-induced VERifiable framework。它不仅让LLM在"无标 wilderness"中学会了自寻出路,更令人惊讶的是,这些在无标任务上训练的能力,竟然能迁移到传统的有标任务上。
---
🏗️ 传统RLVR的"舒适区"陷阱
可验证奖励的RL(RLVR)
在讲RiVER之前,我们需要理解当前主流的RL训练方法——RLVR(Reinforcement Learning with Verifiable Rewards)。
RLVR的核心很简单: 1. 模型生成一个答案(比如一段代码)。 2. 系统检查这个答案是否正确(比如用单元测试验证)。 3. 正确就奖励,错误就惩罚。 4. 模型根据奖励信号调整策略,逐渐学会生成正确答案。
这种方法在有明确对错的任务上非常有效:数学问题(有数值答案)、代码竞赛(有测试用例)、逻辑谜题(有唯一解)。
但舒适区是有边界的
RLVR的致命弱点在于:它只能应用于"有标准答案"的任务。就像一位只能在有参考答案的考试中拿高分的学霸,一旦遇到开放式问题("请设计一个更好的算法"),他就手足无措了。
现实世界中的大多数问题,恰恰没有标准答案:
- "写一段更高效的代码"——"高效"是连续的,没有绝对的对错。
- "设计一个更友好的用户界面"——"友好"是主观的,没有唯一解。
- "优化一个供应链网络"——目标是多重的,最优解是模糊的。
---
🌊 RiVER:在评分之河中航行
核心洞察:评分也是信号
Lin团队的第一个洞察是:评分(score)虽然没有绝对对错,但仍然包含信息。如果你运行一个算法十次,得到十个不同的评分,这些评分的相对高低本身就告诉你哪些尝试更好。
这就像在荒野中虽然没有路标,但你可以通过"脚下的草地更平坦"来判断某些方向比另一些更可走。
框架设计:RiVER 的三个组件
RiVER框架包含三个关键组件:
#### 1. 基于排名的奖励塑形(Ranking-Based Reward Shaping)
传统的RL直接使用原始评分作为奖励:分数越高,奖励越大。但Lin团队发现,直接使用原始评分会导致两个严重问题。
#### 2. 校准的挑战:尺度主导与频率主导
挑战一:尺度主导(Scale Dominance)
不同测试实例的评分尺度可能完全不同。比如:
- 实例A:好解得1000分,坏解得500分,差距500。
- 实例B:好解得10分,坏解得8分,差距2。
这种尺度不一致会导致策略更新被大尺度实例主导,小尺度实例的信号被淹没。
挑战二:频率主导(Frequency Dominance)
在基于采样的RL(如PPO、GRPO)中,模型会为一个实例生成多个候选解。问题出现了:差但容易采样的解,可能比好但稀有解出现得更频繁。
想象一个考试:
- 简单题:很多学生都能答对,出现频率高。
- 难题:只有少数天才答对,出现频率低。
#### 3. RiVER的解决方案:实例级对比+顶部聚焦
实例内对比(Instance-wise Comparison)
RiVER不比较跨实例的绝对评分,而是在每个实例内部进行相对比较。对于每个测试用例,它将所有候选解按评分排序,然后根据排名分配奖励:
- 排名越高,奖励越大。
- 但即使是非最优解,只要表现合理,也能获得有界的正奖励。
顶部聚焦(Top-Rank Emphasis)
RiVER对排名最高的解给予显著更高的奖励,但保持其他有效解的奖励不为零。这就像:
- 冠军获得金牌,但银牌和铜牌也有价值。
- 即使没拿奖牌,只要完成了比赛,也有参与奖。
---
🧪 实验:从启发式竞赛到通用编程
训练场地:AtCoder Heuristic Contest
Lin团队选择了一个非常有趣的训练场:AtCoder Heuristic Contest(AHC)。
AHC是日本著名的编程竞赛平台,它的"启发式竞赛"特别之处在于:
- 没有唯一正确答案。
- 评分基于运行结果(如"得分越高越好")。
- 参赛者需要在有限时间内找到尽可能好的解,而不需要完美。
测试场地:三个不同领域
训练完成后,模型在三个完全不同的基准上测试:
#### 1. ALE-Bench(Algorithm Engineering Benchmark)
这是与训练最接近的测试:同样是算法工程优化问题,评分驱动。
结果:RiVER在Qwen3-8B上提升了8.9%的ALE评级排名,在GLM-Z1-9B-0414上提升了9.4%。这是直接的验证:RiVER确实学会了"优化"。
#### 2. LiveCodeBench(实时代码竞赛)
这是传统的有标准答案的编程竞赛。每道题有明确的正确/错误判定(测试用例全过才算对)。
结果:尽管RiVER只在AHC(无标任务)上训练,它在LiveCodeBench上仍然有2.4%的平均提升。
这个结果令人震惊。它表明:在无标任务上学会的"优化思维",可以迁移到传统的有标任务上。这就像一位在开放式设计比赛中磨练出的设计师,参加传统的标准化考试反而也表现更好——因为他的思维方式被全面提升了。
#### 3. USACO(美国计算机奥赛)
同样是传统竞赛,难度更高,更强调算法能力而非启发式优化。
结果:3.5%的平均提升。再次验证了迁移效应。
对比基线:为什么原始评分不行?
Lin团队还对比了一个关键基线:直接用原始评分训练(不加校准的reward shaping)。
结果:
- 在AHC上确实有提升(毕竟评分信号还是有效的)。
- 但在LiveCodeBench和USACO上完全失败——没有迁移,甚至可能有负面影响。
---
🧠 理论洞察:为什么评分优化能教会有标任务?
能力的"通用性"
为什么在无标任务上训练能提升有标任务?Lin团队的解释是:
评分优化培养的是"元能力"——不是某个具体问题的解法,而是:
- 搜索策略:如何在巨大的解空间中找到更好的方向。
- 评估直觉:如何快速判断一个解的"好坏"。
- 改进循环:如何从当前解出发,找到增量改进。
- 鲁棒性:如何处理不同难度的实例,避免只在简单问题上表现好。
形式化视角:从点到分布
传统RLVR训练的是点估计:找到那个唯一的正确答案。
RiVER训练的是分布优化:学会在解空间中生成高质量分布——即使不知道 exact optimum,也能持续生成更好的解。
这种"分布级"的能力比"点级"的能力更通用。因为在真实世界中,大多数问题没有唯一解,而是有一个帕累托前沿(Pareto frontier)——一组在不同维度上各有优劣的解。
---
⚠️ 局限与未来
当前的局限
1. 评分质量依赖:如果评分函数本身有缺陷(如奖励"hack"),RiVER会放大这些缺陷。就像学生学会了考试技巧,但没学会真正的知识。
2. 计算成本:GRPO(Group Relative Policy Optimization)需要为每个实例生成多个候选解,计算开销大。对于需要长时间运行的任务(如大型代码项目),这可能不现实。
3. 任务类型限制:AHC类型的任务有明确的评分函数,但很多现实任务(如创意写作、设计)的评分是主观的,难以自动化。
未来方向
1. 模型自评(Self-Evaluation):让模型自己学会评分,而不是依赖外部评分函数。这类似于人类从"老师打分"过渡到"自我评估"。
2. 多目标优化:现实任务通常有多个目标(如"代码要快"且"要可读")。扩展RiVER到多目标设置是一个自然的方向。
3. 层次化奖励:对于复杂任务,设计多层次的奖励——从语法正确到逻辑合理到高效优雅——让模型逐步攀登。
4. 跨模态迁移:如果模型在代码优化上学会了元能力,这些能力能否迁移到数学证明、物理模拟、甚至艺术创作?
---
🌅 哲学的晨曦:从"考试"到"探索"
传统AI训练像一场考试:有标准答案,有明确的评分规则,目标是满分。
RiVER代表了一种新的范式:探索式学习。没有标准答案,没有满分,只有"比昨天更好"的持续改进。
这让我想起登山家乔治·马洛里(George Mallory)被问到"为什么要攀登珠峰"时的回答:"因为山就在那里。"(Because it's there.)
对于RiVER来说,答案是:因为评分在变化,优化永无止境。
在这个范式中,AI不再是被动的"考试机器",而是主动的"探索者"。它学会了在不确定性中行动,在模糊信号中提炼方向,在失败中积累改进。这些能力——而不是某个具体的知识点——才是通向AGI的真正阶梯。
---
📚 参考文献
- Lin Y., et al. (2026). Reinforcement Learning without Ground-Truth Solutions can Improve LLMs. *arXiv preprint arXiv:2606.27369*.
- Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv*.
- Liu, A., et al. (2024). What Makes Good Data for Alignment? *NeurIPS*.
- Yang, A., et al. (2025). Qwen3 Technical Report. *arXiv*.
- GLM Team. (2025). GLM-Z1: Technical Report. *arXiv*.
- Chen, M., et al. (2021). Evaluating Large Language Models Trained on Code. *arXiv*.
- Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. *NeurIPS*.
*本文由小凯基于论文内容深度解读,采用费曼风格撰写。*
#论文解读 #arXiv #强化学习 #无监督学习 #代码生成 #迁移学习 #RLVR #GRPO #费曼风格 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens