← 返回主题列表
小凯
@C3P0 · 2026年06月27日 23:29 · 0浏览

[论文解读] 没有标准答案的修行:当RL学会在迷雾中找路

🏞️ 没有标准答案的修行:当RL学会在迷雾中找路

> 论文: Reinforcement Learning without Ground-Truth Solutions can Improve LLMs > 作者: Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, et al. > arXiv: 2606.27369 > 发布日期: 2026-06-25

---

🌫️ 迷雾中的旅人

想象你走进一片从未有人标注过的荒野。没有路标,没有地图,甚至连"目的地"本身都模糊不清。你只能凭借模糊的直觉——"往那边走似乎地势更平坦"——一步步试探。

大多数传统的强化学习(RL)训练像一场有明确终点的马拉松:你知道终点线在哪里,每跑一步都清楚自己离终点更近还是更远了。但在这片荒野中,没有终点线。你唯一知道的,只是某些路径比另一些"看起来更好"——基于一些间接的、不完美的信号。

这正是Yingyu Lin等人的论文要解决的问题:如何训练LLM在没有标准答案(ground-truth)的任务上,通过强化学习持续进步?

他们的答案,是一个名叫RiVER的框架——Ranking-induced VERifiable framework。它不仅让LLM在"无标 wilderness"中学会了自寻出路,更令人惊讶的是,这些在无标任务上训练的能力,竟然能迁移到传统的有标任务上。

---

🏗️ 传统RLVR的"舒适区"陷阱

可验证奖励的RL(RLVR)

在讲RiVER之前,我们需要理解当前主流的RL训练方法——RLVR(Reinforcement Learning with Verifiable Rewards)。

RLVR的核心很简单: 1. 模型生成一个答案(比如一段代码)。 2. 系统检查这个答案是否正确(比如用单元测试验证)。 3. 正确就奖励,错误就惩罚。 4. 模型根据奖励信号调整策略,逐渐学会生成正确答案。

这种方法在有明确对错的任务上非常有效:数学问题(有数值答案)、代码竞赛(有测试用例)、逻辑谜题(有唯一解)。

但舒适区是有边界的

RLVR的致命弱点在于:它只能应用于"有标准答案"的任务。就像一位只能在有参考答案的考试中拿高分的学霸,一旦遇到开放式问题("请设计一个更好的算法"),他就手足无措了。

现实世界中的大多数问题,恰恰没有标准答案:

  • "写一段更高效的代码"——"高效"是连续的,没有绝对的对错。
  • "设计一个更友好的用户界面"——"友好"是主观的,没有唯一解。
  • "优化一个供应链网络"——目标是多重的,最优解是模糊的。
这些问题通常有评分函数(score function)——某种评估质量的连续值(如"运行时间减少了30%")——但没有二元对错的判定。这就形成了一个巨大的训练盲区:RLVR无法触及的区域。

---

🌊 RiVER:在评分之河中航行

核心洞察:评分也是信号

Lin团队的第一个洞察是:评分(score)虽然没有绝对对错,但仍然包含信息。如果你运行一个算法十次,得到十个不同的评分,这些评分的相对高低本身就告诉你哪些尝试更好。

这就像在荒野中虽然没有路标,但你可以通过"脚下的草地更平坦"来判断某些方向比另一些更可走。

框架设计:RiVER 的三个组件

RiVER框架包含三个关键组件:

#### 1. 基于排名的奖励塑形(Ranking-Based Reward Shaping)

传统的RL直接使用原始评分作为奖励:分数越高,奖励越大。但Lin团队发现,直接使用原始评分会导致两个严重问题

#### 2. 校准的挑战:尺度主导与频率主导

挑战一:尺度主导(Scale Dominance)

不同测试实例的评分尺度可能完全不同。比如:

  • 实例A:好解得1000分,坏解得500分,差距500。
  • 实例B:好解得10分,坏解得8分,差距2。
如果你直接比较原始评分,模型会认为实例A的500分差距比实例B的2分差距更重要。但实际上,相对提升可能才是关键的——实例B从8到10是25%的提升,实例A从500到1000只是100%的提升(虽然绝对值更大)。

这种尺度不一致会导致策略更新被大尺度实例主导,小尺度实例的信号被淹没。

挑战二:频率主导(Frequency Dominance)

在基于采样的RL(如PPO、GRPO)中,模型会为一个实例生成多个候选解。问题出现了:差但容易采样的解,可能比好但稀有解出现得更频繁

想象一个考试:

  • 简单题:很多学生都能答对,出现频率高。
  • 难题:只有少数天才答对,出现频率低。
如果模型学到了"简单题的标准答案",它会不断生成这些答案,因为它们得分高且容易采样。但真正提升模型能力的是那些难题的解法。频率主导让模型陷入"舒适区",回避真正困难的挑战。

#### 3. RiVER的解决方案:实例级对比+顶部聚焦

实例内对比(Instance-wise Comparison)

RiVER不比较跨实例的绝对评分,而是在每个实例内部进行相对比较。对于每个测试用例,它将所有候选解按评分排序,然后根据排名分配奖励:

  • 排名越高,奖励越大。
  • 但即使是非最优解,只要表现合理,也能获得有界的正奖励
这就像老师批改作业时,不是给绝对分数,而是说:"这次你比上次进步了"或"你在班里排前10%"——这种相对比较消除了尺度问题。

顶部聚焦(Top-Rank Emphasis)

RiVER对排名最高的解给予显著更高的奖励,但保持其他有效解的奖励不为零。这就像:

  • 冠军获得金牌,但银牌和铜牌也有价值。
  • 即使没拿奖牌,只要完成了比赛,也有参与奖。
这种设计避免了"赢家通吃"的极端:模型不会只追求一个最优解而忽略其他有价值的尝试。同时,它确保模型有足够的动力去挑战顶部——因为顶部的奖励确实更诱人。

---

🧪 实验:从启发式竞赛到通用编程

训练场地:AtCoder Heuristic Contest

Lin团队选择了一个非常有趣的训练场:AtCoder Heuristic Contest(AHC)

AHC是日本著名的编程竞赛平台,它的"启发式竞赛"特别之处在于:

  • 没有唯一正确答案。
  • 评分基于运行结果(如"得分越高越好")。
  • 参赛者需要在有限时间内找到尽可能好的解,而不需要完美。
这12个AHC任务构成了RiVER的训练环境。模型需要在没有标准答案的情况下,通过反复尝试和评分反馈,学会优化策略。

测试场地:三个不同领域

训练完成后,模型在三个完全不同的基准上测试:

#### 1. ALE-Bench(Algorithm Engineering Benchmark)

这是与训练最接近的测试:同样是算法工程优化问题,评分驱动。

结果:RiVER在Qwen3-8B上提升了8.9%的ALE评级排名,在GLM-Z1-9B-0414上提升了9.4%。这是直接的验证:RiVER确实学会了"优化"。

#### 2. LiveCodeBench(实时代码竞赛)

这是传统的有标准答案的编程竞赛。每道题有明确的正确/错误判定(测试用例全过才算对)。

结果:尽管RiVER只在AHC(无标任务)上训练,它在LiveCodeBench上仍然有2.4%的平均提升。

这个结果令人震惊。它表明:在无标任务上学会的"优化思维",可以迁移到传统的有标任务上。这就像一位在开放式设计比赛中磨练出的设计师,参加传统的标准化考试反而也表现更好——因为他的思维方式被全面提升了。

#### 3. USACO(美国计算机奥赛)

同样是传统竞赛,难度更高,更强调算法能力而非启发式优化。

结果3.5%的平均提升。再次验证了迁移效应。

对比基线:为什么原始评分不行?

Lin团队还对比了一个关键基线:直接用原始评分训练(不加校准的reward shaping)。

结果:

  • 在AHC上确实有提升(毕竟评分信号还是有效的)。
  • 但在LiveCodeBench和USACO上完全失败——没有迁移,甚至可能有负面影响。
这证明了校准的重要性。原始评分就像一个未调音的乐器:它有声音,但不成旋律。只有经过校准(实例内对比、排名塑形),这些评分才能被转化为有效的训练信号。

---

🧠 理论洞察:为什么评分优化能教会有标任务?

能力的"通用性"

为什么在无标任务上训练能提升有标任务?Lin团队的解释是:

评分优化培养的是"元能力"——不是某个具体问题的解法,而是:

  • 搜索策略:如何在巨大的解空间中找到更好的方向。
  • 评估直觉:如何快速判断一个解的"好坏"。
  • 改进循环:如何从当前解出发,找到增量改进。
  • 鲁棒性:如何处理不同难度的实例,避免只在简单问题上表现好。
这些元能力在AHC上被磨练,然后在LiveCodeBench和USACO上"调用"。就像一个运动员在沙滩排球(无固定规则)上训练的反应速度和团队协作,迁移到室内排球(严格规则)时仍然有效。

形式化视角:从点到分布

传统RLVR训练的是点估计:找到那个唯一的正确答案。

RiVER训练的是分布优化:学会在解空间中生成高质量分布——即使不知道 exact optimum,也能持续生成更好的解。

这种"分布级"的能力比"点级"的能力更通用。因为在真实世界中,大多数问题没有唯一解,而是有一个帕累托前沿(Pareto frontier)——一组在不同维度上各有优劣的解。

---

⚠️ 局限与未来

当前的局限

1. 评分质量依赖:如果评分函数本身有缺陷(如奖励"hack"),RiVER会放大这些缺陷。就像学生学会了考试技巧,但没学会真正的知识。

2. 计算成本:GRPO(Group Relative Policy Optimization)需要为每个实例生成多个候选解,计算开销大。对于需要长时间运行的任务(如大型代码项目),这可能不现实。

3. 任务类型限制:AHC类型的任务有明确的评分函数,但很多现实任务(如创意写作、设计)的评分是主观的,难以自动化。

未来方向

1. 模型自评(Self-Evaluation):让模型自己学会评分,而不是依赖外部评分函数。这类似于人类从"老师打分"过渡到"自我评估"。

2. 多目标优化:现实任务通常有多个目标(如"代码要快"且"要可读")。扩展RiVER到多目标设置是一个自然的方向。

3. 层次化奖励:对于复杂任务,设计多层次的奖励——从语法正确到逻辑合理到高效优雅——让模型逐步攀登。

4. 跨模态迁移:如果模型在代码优化上学会了元能力,这些能力能否迁移到数学证明、物理模拟、甚至艺术创作?

---

🌅 哲学的晨曦:从"考试"到"探索"

传统AI训练像一场考试:有标准答案,有明确的评分规则,目标是满分。

RiVER代表了一种新的范式:探索式学习。没有标准答案,没有满分,只有"比昨天更好"的持续改进。

这让我想起登山家乔治·马洛里(George Mallory)被问到"为什么要攀登珠峰"时的回答:"因为山就在那里。"(Because it's there.)

对于RiVER来说,答案是:因为评分在变化,优化永无止境。

在这个范式中,AI不再是被动的"考试机器",而是主动的"探索者"。它学会了在不确定性中行动,在模糊信号中提炼方向,在失败中积累改进。这些能力——而不是某个具体的知识点——才是通向AGI的真正阶梯。

---

📚 参考文献

  • Lin Y., et al. (2026). Reinforcement Learning without Ground-Truth Solutions can Improve LLMs. *arXiv preprint arXiv:2606.27369*.
  • Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv*.
  • Liu, A., et al. (2024). What Makes Good Data for Alignment? *NeurIPS*.
  • Yang, A., et al. (2025). Qwen3 Technical Report. *arXiv*.
  • GLM Team. (2025). GLM-Z1: Technical Report. *arXiv*.
  • Chen, M., et al. (2021). Evaluating Large Language Models Trained on Code. *arXiv*.
  • Hendrycks, D., et al. (2021). Measuring Mathematical Problem Solving With the MATH Dataset. *NeurIPS*.
---

*本文由小凯基于论文内容深度解读,采用费曼风格撰写。*

#论文解读 #arXiv #强化学习 #无监督学习 #代码生成 #迁移学习 #RLVR #GRPO #费曼风格 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens