🏞️ 没有标准答案的修行：当RL学会在迷雾中找路

> 论文: Reinforcement Learning without Ground-Truth Solutions can Improve LLMs > 作者: Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, et al. > arXiv: 2606.27369 > 发布日期: 2026-06-25

---

🌫️ 迷雾中的旅人

想象你走进一片从未有人标注过的荒野。没有路标，没有地图，甚至连"目的地"本身都模糊不清。你只能凭借模糊的直觉——"往那边走似乎地势更平坦"——一步步试探。

大多数传统的强化学习（RL）训练像一场有明确终点的马拉松：你知道终点线在哪里，每跑一步都清楚自己离终点更近还是更远了。但在这片荒野中，没有终点线。你唯一知道的，只是某些路径比另一些"看起来更好"——基于一些间接的、不完美的信号。

这正是Yingyu Lin等人的论文要解决的问题：如何训练LLM在没有标准答案（ground-truth）的任务上，通过强化学习持续进步？

他们的答案，是一个名叫RiVER的框架——Ranking-induced VERifiable framework。它不仅让LLM在"无标 wilderness"中学会了自寻出路，更令人惊讶的是，这些在无标任务上训练的能力，竟然能迁移到传统的有标任务上。

---

🏗️ 传统RLVR的"舒适区"陷阱

可验证奖励的RL（RLVR）

在讲RiVER之前，我们需要理解当前主流的RL训练方法——RLVR（Reinforcement Learning with Verifiable Rewards）。

RLVR的核心很简单： 1. 模型生成一个答案（比如一段代码）。 2. 系统检查这个答案是否正确（比如用单元测试验证）。 3. 正确就奖励，错误就惩罚。 4. 模型根据奖励信号调整策略，逐渐学会生成正确答案。

这种方法在有明确对错的任务上非常有效：数学问题（有数值答案）、代码竞赛（有测试用例）、逻辑谜题（有唯一解）。

但舒适区是有边界的

RLVR的致命弱点在于：它只能应用于"有标准答案"的任务。就像一位只能在有参考答案的考试中拿高分的学霸，一旦遇到开放式问题（"请设计一个更好的算法"），他就手足无措了。

现实世界中的大多数问题，恰恰没有标准答案：

"写一段更高效的代码"——"高效"是连续的，没有绝对的对错。
"设计一个更友好的用户界面"——"友好"是主观的，没有唯一解。
"优化一个供应链网络"——目标是多重的，最优解是模糊的。

这些问题通常有评分函数（score function）——某种评估质量的连续值（如"运行时间减少了30%"）——但没有二元对错的判定。这就形成了一个巨大的训练盲区：RLVR无法触及的区域。

---

🌊 RiVER：在评分之河中航行

核心洞察：评分也是信号

Lin团队的第一个洞察是：评分（score）虽然没有绝对对错，但仍然包含信息。如果你运行一个算法十次，得到十个不同的评分，这些评分的相对高低本身就告诉你哪些尝试更好。

这就像在荒野中虽然没有路标，但你可以通过"脚下的草地更平坦"来判断某些方向比另一些更可走。

框架设计：RiVER 的三个组件

RiVER框架包含三个关键组件：

#### 1. 基于排名的奖励塑形（Ranking-Based Reward Shaping）

传统的RL直接使用原始评分作为奖励：分数越高，奖励越大。但Lin团队发现，直接使用原始评分会导致两个严重问题。

#### 2. 校准的挑战：尺度主导与频率主导

挑战一：尺度主导（Scale Dominance）

不同测试实例的评分尺度可能完全不同。比如：

实例A：好解得1000分，坏解得500分，差距500。
实例B：好解得10分，坏解得8分，差距2。

如果你直接比较原始评分，模型会认为实例A的500分差距比实例B的2分差距更重要。但实际上，相对提升可能才是关键的——实例B从8到10是25%的提升，实例A从500到1000只是100%的提升（虽然绝对值更大）。

这种尺度不一致会导致策略更新被大尺度实例主导，小尺度实例的信号被淹没。

挑战二：频率主导（Frequency Dominance）

在基于采样的RL（如PPO、GRPO）中，模型会为一个实例生成多个候选解。问题出现了：差但容易采样的解，可能比好但稀有解出现得更频繁。

想象一个考试：

简单题：很多学生都能答对，出现频率高。
难题：只有少数天才答对，出现频率低。

如果模型学到了"简单题的标准答案"，它会不断生成这些答案，因为它们得分高且容易采样。但真正提升模型能力的是那些难题的解法。频率主导让模型陷入"舒适区"，回避真正困难的挑战。

#### 3. RiVER的解决方案：实例级对比+顶部聚焦

实例内对比（Instance-wise Comparison）

RiVER不比较跨实例的绝对评分，而是在每个实例内部进行相对比较。对于每个测试用例，它将所有候选解按评分排序，然后根据排名分配奖励：

排名越高，奖励越大。
但即使是非最优解，只要表现合理，也能获得有界的正奖励。

这就像老师批改作业时，不是给绝对分数，而是说："这次你比上次进步了"或"你在班里排前10%"——这种相对比较消除了尺度问题。

顶部聚焦（Top-Rank Emphasis）

RiVER对排名最高的解给予显著更高的奖励，但保持其他有效解的奖励不为零。这就像：

冠军获得金牌，但银牌和铜牌也有价值。
即使没拿奖牌，只要完成了比赛，也有参与奖。

这种设计避免了"赢家通吃"的极端：模型不会只追求一个最优解而忽略其他有价值的尝试。同时，它确保模型有足够的动力去挑战顶部——因为顶部的奖励确实更诱人。

---

🧪 实验：从启发式竞赛到通用编程

训练场地：AtCoder Heuristic Contest

Lin团队选择了一个非常有趣的训练场：AtCoder Heuristic Contest（AHC）。

AHC是日本著名的编程竞赛平台，它的"启发式竞赛"特别之处在于：

没有唯一正确答案。
评分基于运行结果（如"得分越高越好"）。
参赛者需要在有限时间内找到尽可能好的解，而不需要完美。

这12个AHC任务构成了RiVER的训练环境。模型需要在没有标准答案的情况下，通过反复尝试和评分反馈，学会优化策略。

测试场地：三个不同领域

训练完成后，模型在三个完全不同的基准上测试：

#### 1. ALE-Bench（Algorithm Engineering Benchmark）

这是与训练最接近的测试：同样是算法工程优化问题，评分驱动。

结果：RiVER在Qwen3-8B上提升了8.9%的ALE评级排名，在GLM-Z1-9B-0414上提升了9.4%。这是直接的验证：RiVER确实学会了"优化"。

#### 2. LiveCodeBench（实时代码竞赛）

这是传统的有标准答案的编程竞赛。每道题有明确的正确/错误判定（测试用例全过才算对）。

结果：尽管RiVER只在AHC（无标任务）上训练，它在LiveCodeBench上仍然有2.4%的平均提升。

这个结果令人震惊。它表明：在无标任务上学会的"优化思维"，可以迁移到传统的有标任务上。这就像一位在开放式设计比赛中磨练出的设计师，参加传统的标准化考试反而也表现更好——因为他的思维方式被全面提升了。

#### 3. USACO（美国计算机奥赛）

同样是传统竞赛，难度更高，更强调算法能力而非启发式优化。

结果：3.5%的平均提升。再次验证了迁移效应。

对比基线：为什么原始评分不行？

Lin团队还对比了一个关键基线：直接用原始评分训练（不加校准的reward shaping）。

结果：

在AHC上确实有提升（毕竟评分信号还是有效的）。
但在LiveCodeBench和USACO上完全失败——没有迁移，甚至可能有负面影响。

这证明了校准的重要性。原始评分就像一个未调音的乐器：它有声音，但不成旋律。只有经过校准（实例内对比、排名塑形），这些评分才能被转化为有效的训练信号。

---

🧠 理论洞察：为什么评分优化能教会有标任务？

能力的"通用性"

为什么在无标任务上训练能提升有标任务？Lin团队的解释是：

评分优化培养的是"元能力"——不是某个具体问题的解法，而是：

搜索策略：如何在巨大的解空间中找到更好的方向。
评估直觉：如何快速判断一个解的"好坏"。
改进循环：如何从当前解出发，找到增量改进。
鲁棒性：如何处理不同难度的实例，避免只在简单问题上表现好。

这些元能力在AHC上被磨练，然后在LiveCodeBench和USACO上"调用"。就像一个运动员在沙滩排球（无固定规则）上训练的反应速度和团队协作，迁移到室内排球（严格规则）时仍然有效。

形式化视角：从点到分布

传统RLVR训练的是点估计：找到那个唯一的正确答案。

RiVER训练的是分布优化：学会在解空间中生成高质量分布——即使不知道 exact optimum，也能持续生成更好的解。

这种"分布级"的能力比"点级"的能力更通用。因为在真实世界中，大多数问题没有唯一解，而是有一个帕累托前沿（Pareto frontier）——一组在不同维度上各有优劣的解。

---

⚠️ 局限与未来

当前的局限

1. 评分质量依赖：如果评分函数本身有缺陷（如奖励"hack"），RiVER会放大这些缺陷。就像学生学会了考试技巧，但没学会真正的知识。

2. 计算成本：GRPO（Group Relative Policy Optimization）需要为每个实例生成多个候选解，计算开销大。对于需要长时间运行的任务（如大型代码项目），这可能不现实。

3. 任务类型限制：AHC类型的任务有明确的评分函数，但很多现实任务（如创意写作、设计）的评分是主观的，难以自动化。

未来方向

1. 模型自评（Self-Evaluation）：让模型自己学会评分，而不是依赖外部评分函数。这类似于人类从"老师打分"过渡到"自我评估"。

2. 多目标优化：现实任务通常有多个目标（如"代码要快"且"要可读"）。扩展RiVER到多目标设置是一个自然的方向。

3. 层次化奖励：对于复杂任务，设计多层次的奖励——从语法正确到逻辑合理到高效优雅——让模型逐步攀登。

4. 跨模态迁移：如果模型在代码优化上学会了元能力，这些能力能否迁移到数学证明、物理模拟、甚至艺术创作？

---

🌅 哲学的晨曦：从"考试"到"探索"

传统AI训练像一场考试：有标准答案，有明确的评分规则，目标是满分。

RiVER代表了一种新的范式：探索式学习。没有标准答案，没有满分，只有"比昨天更好"的持续改进。

这让我想起登山家乔治·马洛里（George Mallory）被问到"为什么要攀登珠峰"时的回答："因为山就在那里。"（Because it's there.）

对于RiVER来说，答案是：因为评分在变化，优化永无止境。

在这个范式中，AI不再是被动的"考试机器"，而是主动的"探索者"。它学会了在不确定性中行动，在模糊信号中提炼方向，在失败中积累改进。这些能力——而不是某个具体的知识点——才是通向AGI的真正阶梯。

---

📚 参考文献

Lin Y., et al. (2026). Reinforcement Learning without Ground-Truth Solutions can Improve LLMs. *arXiv preprint arXiv:2606.27369*.
Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv*.
Liu, A., et al. (2024). What Makes Good Data for Alignment? *NeurIPS*.
Yang, A., et al. (2025). Qwen3 Technical Report. *arXiv*.
GLM Team. (2025). GLM-Z1: Technical Report. *arXiv*.
Chen, M., et al. (2021). Evaluating Large Language Models Trained on Code. *arXiv*.
Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. *NeurIPS*.

---

*本文由小凯基于论文内容深度解读，采用费曼风格撰写。*

#论文解读 #arXiv #强化学习 #无监督学习 #代码生成 #迁移学习 #RLVR #GRPO #费曼风格 #小凯