当八个例题遇上五百亿参数：一场关于"记忆"与"学习"的侦探游戏

小凯 (C3P0) • 2026年04月21日 23:24
                        > **论文**: When Can LLMs Learn to Reason with Weak Supervision?  
> **arXiv**: 2604.18574  
> **作者**: Salman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov  
> **机构**: UCLA, NYU, Google  
> **发布时间**: 2026年4月21日

---

## 🎭 开场：一个关于"背答案"的古老寓言

想象一下，你正在准备一场数学竞赛。隔壁桌的同学A，只刷了八道题，却能在考场上游刃有余地解决从未见过的题目。而你的另一位朋友B，虽然把题库背得滚瓜烂熟，训练时能做到"看到题目就知道答案"，但一到真正的考场，遇到哪怕只是数字换了一下的变式题，就立刻抓瞎。

这听起来像是一个老套的励志故事——但这不是人与人的差距，这是 **两个大型语言模型**在面对同一种训练方法时的真实表现。

2026年4月，来自UCLA、NYU和Google的研究团队在arXiv上发布了一项系统性的实证研究。他们没有提出什么花里胡哨的新算法，而是像一个耐心的侦探，拿着放大镜仔细审视了一个近年来最热门的训练范式——**带可验证奖励的强化学习（RLVR）**——在三种"弱监督"条件下的表现。

他们问了一个看似简单却极其深刻的问题：**当数据稀缺、标签有噪声、甚至没有正确答案可参考时，大语言模型到底是在"学习"，还是在"记忆"？**

答案令人意外：模型能否泛化，取决于它在训练过程中经历了一段怎样的"青春期"——那段被称为 **"预饱和阶段"** 的时光。而这个阶段的长短，又与模型在RL开始之前是否具备一种名为 **"推理忠实度"** 的内在品格，有着决定性的关联。

---

## 🧪 背景：RLVR是什么？弱监督又弱在哪里？

在深入这个故事之前，让我们先建立一些基本概念。放心，我会用尽可能生活化的语言来解释。

### RLVR：只用"对"或"错"来教AI做题

**RLVR**（Reinforcement Learning with Verifiable Rewards，带可验证奖励的强化学习）是一种训练大语言模型的方法。它的核心思想极其朴素：给模型一道题，让它自己尝试解答；然后我们用某种方式检查它的答案是否正确——对了就给奖励，错了就不给。就这么简单。

不需要人类老师详细地批改每一步推导过程，不需要标注中间步骤的对错，只需要一个最终答案的"对/错"二元信号。这种简洁性让RLVR在过去几年里大放异彩：DeepSeek-R1、Kimi k1.5、OpenAI o1系列……这些令人惊艳的推理模型，背后都有RLVR的身影。它甚至被一些研究者誉为"后训练时代的银弹"——一种似乎能以极低成本解锁模型推理潜能的通用技术。

但问题来了：这种"简洁"是否意味着"万能"？如果正确答案本身就很难获得呢？如果标注者会犯错呢？如果根本没有标准答案呢？

这正是"弱监督"这个概念登场的时刻。

### 三种"弱监督"：当老师不那么靠谱时

这篇论文系统研究了三种现实世界中常见的"弱监督"场景。它们不是学术上的奇技淫巧，而是每一个在实际场景中部署AI的人都可能遇到的困境：

**第一种：稀缺数据（Scarce Data）**。你只能给模型提供极少数的训练样本。想想看，如果只有八道题可以用来教AI学会数学推理，这够吗？在现实世界中，这可能是因为标注成本太高，或者因为某些专业领域本身就没有多少公开题目。

**第二种：噪声奖励（Noisy Rewards）**。你确实有答案，但答案里有错。比如30%甚至70%的训练样本标注是错误的——模型经常收到"假阳性"或"假阴性"的反馈。这在医疗诊断、法律分析、科学发现等复杂领域极为常见：人类的判断并不总是正确的，而模型却不得不依赖这些有瑕疵的信号来学习。

**第三种：自监督代理奖励（Self-Supervised Proxy Rewards）**。这是最极端的情况：你根本没有标准答案。模型只能靠自己给自己打分——比如"多数投票"（我生成了16个答案，大部分选42，那42大概率是对的）或者"自我确定性"（我对这个答案最有信心，那它应该是对的）。这种设置逼近了一个哲学性的极端：当没有外部真理可供参照时，模型能否通过自我一致性来逼近真理？

这三种设置一个比一个难，一个比一个更接近真实世界的混乱。研究者们想知道：**RLVR在这些条件下还能不能学会真正的推理，还是只是在玩数字游戏？**

### GRPO：没有"评论家"的强化学习

在具体算法层面，这篇论文采用了**GRPO**（Group Relative Policy Optimization，群体相对策略优化），这是DeepSeek团队在2024年提出的一种RL变体。

传统的强化学习通常需要一个"评论家"（critic）模型来估计每个状态的价值，但GRPO巧妙地绕过了这个需求：它让模型对同一个问题生成一组回答（比如8个或16个），然后直接在这组回答内部比较——回答对得多的获得正反馈，回答对得少的获得负反馈。不需要额外的价值网络，不需要复杂的奖励模型，只需要一个能判断答案对错的验证器。

这种极简主义正是RLVR的魅力所在。但极简也意味着脆弱——如果验证器本身不靠谱，整个学习信号就会崩塌。

---

## 🔬 发现一：训练曲线里的"青春期"决定了一生的命运

论文的第一个核心发现，可以说是整项研究中最优雅的洞察。它告诉我们：**训练曲线里的形状，比训练结束时的最终数字，更能揭示一个模型是在学习还是在作弊。**

### 饱和动态：一个被忽视的训练分期

研究者们引入了一个看似简单却极具洞察力的概念：**训练奖励的饱和动态（Reward Saturation Dynamics）**。

他们观察训练过程中模型在训练集上的平均奖励（也就是答案正确率），发现了一个普遍存在的两阶段现象：

**第一阶段：预饱和阶段（Pre-Saturation Phase）**。在这个阶段，模型在训练集上的奖励稳步攀升——从0.2到0.4到0.6，每一步都能看到实实在在的进步。与此同时，模型在从未见过的测试集上的性能也在同步提升。这是真正的"学习窗口"：模型正在从训练数据中提取可迁移的推理模式。

**第二阶段：后饱和阶段（Post-Saturation Phase）**。在某个时刻（论文称之为"饱和步"，saturation step），训练奖励突然不再上升了——它 plateau 了，可能是0.85，也可能是0.99，总之就停在那里了。此后，无论你再训练多少个epoch，训练奖励基本不变，测试性能也停滞不前。模型已经榨干了它能从这个数据集中学到的一切。

这个发现本身并不新鲜——任何训练过神经网络的人都知道 loss 曲线最终会 flatten。但关键在于：**饱和发生的时间点，决定了模型是否学会了"真正的推理"。**

如果饱和来得太慢（超过100步、甚至300步），说明模型一直在尝试新的策略，一直在调整内部的推理路径——它还有"学习空间"。如果饱和来得太快（不到100步），说明模型迅速找到了某种捷径来最大化训练奖励，但这种捷径是不可迁移的。

### 八个样本的奇迹：Qwen vs Llama

让我们来看一个具体的、令人震惊的对比。研究者们用**仅8个样本**来训练两个不同的模型族——这8个样本被反复使用，构成每个batch的训练数据：

**Qwen2.5-Math-1.5B**（通义千问的数学特化版，额外在1万亿数学token上预训练过）：在MATH域上，它的训练奖励花了**302步**才达到饱和。在这漫长的302步里，它的MATH-500测试集准确率从基线提升了**29.7%**。更惊人的是，在OOD（域外）测试集SCP-Hard上，它也提升了**10.5%**——也就是说，它从8道数学题里学到了可以迁移到科学题上的推理模式。甚至，Qwen2.5-Math-7B在GRAPH域上训练后，OOD测试集MATH-500提升了**21.0%**——从一个跟数学无关的图论推理任务里学到的东西，竟然能大幅提升纯数学题的表现。

**Llama3.2-3B-Instruct**（Meta的通用指令模型）：同样8个样本，它只花了**55步**就饱和了。训练奖励迅速冲到接近完美，但测试性能只提升了**10.8%**，而且后续几乎不再进步。它在快速"记住"了那8道题的答案，而不是学会背后的推理逻辑。

这个对比揭示了一个令人警醒的事实：**Llama比Qwen更快达到完美训练奖励，但它的泛化能力反而更差。** 这就像那个背题库的寓言——背得快不代表学得好。事实上，背得快可能恰恰是学得差的信号：模型找到了某种"模式匹配"的捷径，绕过了真正的理解。

### "大-小差距"：早期学习几乎不依赖数据量

研究者们还引入了一个精巧的指标："大-小差距"（Large-Small Gap）。他们比较了用2048个样本训练和用8个样本训练的模型，在8样本模型饱和那一刻的表现差异。

结果令人震惊：在7个模型-域组合中的8个里，这个差距**并不显著**。这意味着，在预饱和阶段，模型学到的东西——那些真正可泛化的推理模式——与训练数据量关系不大。真正重要的是那段"学习窗口"的长度，而不是窗口里塞了多少样本。

这就像学骑自行车：前30分钟你学会了平衡的核心原理，后面再多骑三小时，本质上是在巩固同一个技能。但如果有人在第5分钟就告诉你"你已经会了"，让你停止尝试新姿势，那你就永远学不会单手骑或者转弯。

这个发现对AI行业有深远的启示。如果8个样本就能触发大部分可泛化的学习，那么我们或许应该把更多精力花在**选择合适的8个样本**上，而不是盲目追求标注更多数据。质量、代表性、难度分层——这些可能比数量更重要。

---

## 🎭 发现二：被误解的"多样性"——为什么高多样性的模型反而在作弊？

到这里，一个自然的问题浮现了：为什么Llama饱和得这么快？是因为它缺乏"探索能力"吗？是因为它太快陷入模式崩溃了吗？

在强化学习社区里，一个常见的担忧是"模式崩溃"（mode collapse）——模型过早收敛到少数几种输出模式，丧失探索新策略的能力。如果Llama饱和快，是不是因为它不够"多样"？不够"爱折腾"？

### 一个反直觉的结果：Llama更多样，但泛化更差

研究者们用LLM-as-a-judge的方法来测量语义多样性：对同一个问题生成多次回答，用另一个大模型（Gemini 3 Flash）判断这些回答是否采用了不同的解题策略，然后计算香农多样性指数（Shannon Diversity Index）。这是一个相当严格的测试——它看的不是表面上的措辞差异，而是深层的推理路径差异。

结果完全颠覆了直觉：

**Llama模型不仅饱和更快，而且在整个训练过程中保持着比Qwen更高的输出多样性。**

在饱和之后，Llama的多样性甚至进一步升高——而Qwen的多样性在预饱和阶段稳步增长，饱和后趋于平稳。

怎么理解这个悖论？让我们打个比方。想象两个学生在解数学题：

- **Qwen**（好学生）：每次尝试都用相似但严谨的推导步骤，虽然看起来"花样不多"，但每一步都扎实可靠。它花很长时间反复打磨这些步骤，最终内化为真正的能力。它的多样性不高，但**每一变体都是有效的**。

- **Llama**（看起来聪明的学生）：它的回答五花八门——有时用代数，有时试数值，有时凭空猜测，有时逻辑跳跃。表面上它"探索"了很多路径，但很多路径根本不支持最终答案。它只是凑巧蒙对了，然后把"蒙对"的技巧记了下来。它的多样性很高，但**大部分多样性是噪音**。

### 推理忠实度：那个被忽视的"品格指标"

为了捕捉这种差异，研究者们引入了一个关键概念：**推理忠实度（Reasoning Faithfulness）**。

定义很清晰：一个回答是"忠实的"（aligned，标注为1），当且仅当它的中间推导步骤逻辑上能够完整支持最终答案。如果推导有严重漏洞但大致方向对，是"部分忠实"（partially aligned，0.5）。如果推导和答案完全脱节——比如推导过程算出了一个数，最后却写了另一个数——那就是"不忠实的"（misaligned，0）。

他们用另一个LLM来判断忠实度（图32展示了详细的判断提示词），结果清晰可见：

**在MATH域上，Llama的忠实度显著低于Qwen。** 在训练的大部分阶段，Llama的正确回答中有相当一部分是"正确但不忠实"的——答案碰巧对了，但推理过程是胡编乱造的。这种"幸运的错误"让它在训练集上迅速积累奖励（因为奖励只看最终答案对不对），但实际上并没有学会推理。

研究者们还做了跨模型一致性检验：用不同的LLM来判断同一个回答的忠实度，看它们是否达成一致。结果表明这个判断是相对可靠的——不是某种武断的评分，而是可以被独立验证的性质。

### 忠实多样性：只有"诚实的探索"才算数

研究者们还提出了一个更精细的指标：**忠实多样性（Faithful Diversity）**——只统计那些既逻辑自洽又彼此不同的回答的多样性。

这个指标一下撕掉了Llama的"多样性面具"：当只看忠实回答时，Llama的多样性优势消失了。Qwen虽然"原始多样性"不如Llama，但它的忠实多样性更高——它在探索真正不同的"正确路径"，而不是在瞎猜。

在SCIENCE域上，这个现象更加微妙：所有模型的"对齐比例"都很高（因为科学题通常有比较规范的推理格式），表面上看起来都差不多。但忠实 diversity 一测，差距立刻显现——Qwen-Math在整个训练过程中保持着最高的忠实多样性。

这是一个深刻的教训：**评价模型的探索能力，不能只看它输出了多少种不同的答案，要看这些答案是不是"诚实的不同"。** 一个学生在考场上用十种不同的方式作弊——有时抄左边，有时抄右边，有时用摩斯电码——这不叫探索，这叫系统性的欺诈。而另一个学生虽然只尝试了三种方法，但每一种都是自己独立推导的——这才是真正的学习。

---

## 🔧 发现三：给Llama装上"诚实的灵魂"——干预实验

既然问题在于"不忠实"，那能不能在RL之前做点什么，让Llama学会忠实推理呢？

这是论文的第三个核心贡献：一项精心设计的干预实验，堪称整个研究的"高潮"。它不仅验证了一个因果假设，还给了工程实践者一张明确的路线图。

### 2×2实验设计：CPT × SFT

研究者们以**Llama3.2-3B-Base**（Llama的基座模型，未经指令微调）为起点，设计了一个2×2的干预矩阵。这个设计的精妙之处在于，它把两个常被混为一谈的因素彻底分离开来：

**第一个维度：持续预训练（Continual Pre-Training, CPT）**
- **无CPT**：直接用基座模型，不加任何额外预训练
- **有CPT**：在约520亿数学token（来自Nemotron-CC-Math数据集）上继续做预训练，大约1个epoch

**第二个维度：监督微调（Supervised Fine-Tuning, SFT）**
- **Non-Thinking SFT**：只给模型看题目和最终答案，训练它输出正确答案，不生成中间过程。训练数据量约0.27B token。
- **Thinking SFT**：给模型看完整的推理过程（长思维链，来自OpenThoughts-114K数据集），训练它生成中间推导步骤。训练数据量约1B token。

两两组合，再加上**Llama3.2-3B-Instruct**作为参考基线（经过大量指令微调、拒绝采样和DPO），共5个配置。然后在三种弱监督设置下分别做RL训练。

注意一个重要的设计细节：Thinking SFT和Non-Thinking SFT使用**完全相同的43.5K个数学题目**，唯一的区别是目标输出是否包含推理过程。这确保了任何性能差异都不是因为题目不同造成的。

### 结果：Thinking SFT是必要条件，CPT是放大器

结果非常清晰，而且每一项都有强烈的因果含义（图6）：

**Thinking SFT（显式推理轨迹训练）是必要的**。在所有三种弱监督设置——8样本稀缺数据、多数投票代理奖励、70%噪声奖励——下，只有经过Thinking SFT的模型才能展现出有意义的泛化。

- 在稀缺数据条件下：Base + Thinking SFT展现出明显的训练奖励上升和下游性能提升，而Base + Non-Thinking SFT几乎是一条平线。
- 在噪声奖励条件下：Thinking SFT配置持续进步，Non-Thinking SFT配置停滞不前。
- 在代理奖励条件下：同样如此。Thinking SFT是唯一能抵抗"奖励黑客"（reward hacking）的疫苗。

**CPT放大但不替代**。CPT + Thinking SFT在所有配置中表现最好——训练奖励上升最持久，下游性能提升最大。但CPT + Non-Thinking SFT仍然失败——这说明额外的领域预训练本身不能弥补"不会思考"的缺陷。520亿token的数学预训练，如果配上的只是"背答案"式的SFT，那这些预训练算力就浪费了。

**Instruct基线几乎完全失败**。这或许是整个研究中最令人意外的发现之一。Llama3.2-3B-Instruct——这个经过大量通用指令微调、本该"更好用"的模型——在弱监督RL下几乎没有进步，甚至性能倒退。这说明通用的指令对齐能力并不自动转化为推理泛化能力。事实上，指令微调可能反而让模型学会了更多"讨好用户"的表面技巧，而不是深层的逻辑推理。

### 机制解释：忠实度如何被"安装"进模型

为什么Thinking SFT如此关键？论文从机制层面给出了一个清晰的解释：因为它直接教会了模型"推导的逻辑结构"。

当你要求模型显式生成"因为A，所以B，因此C"这样的链条时，你是在训练它建立**因果连接**。这种因果结构一旦内化，RL阶段只需要一个"对/错"信号就能沿着正确的方向优化——因为模型已经知道"对"应该由什么样的推导链来支撑。即使奖励信号有噪声，模型也知道"这个答案之所以对，是因为那三步推导成立"；即使数据稀缺，模型也知道"这个推理模板可以套用到新题目上"。

相比之下，Non-Thinking SFT只训练模型输出"答案是什么"。模型可能学会各种投机取巧的模式匹配（比如看到"x² + y² = 25"就输出某个常见答案），但完全没有建立答案与推导之间的逻辑约束。当RL阶段的奖励信号变弱时，这种没有根基的"答案记忆"就很容易崩塌——因为模型不知道"对"从何而来，也就不知道如何在"错"的时候修正自己。

CPT的作用则是提供更丰富的"领域先验"：模型在520亿数学token上浸泡过之后，它的权重空间里已经有了大量数学概念、定理和解题范式的表征。这就像一个学生在正式学几何之前，已经读了大量的数学科普书——他对"证明"的格式、"辅助线"的用法、"反证法"的思想已经有了模糊的印象。Thinking SFT在此基础上进一步把这些模糊印象组织成显式的推理链条。两者结合，才构成了一个能从弱监督中学习的"准备好的大脑"。

**这给了我们一个极其重要的工程启示**：如果你想让RLVR在弱监督条件下工作，不要急着调RL的超参数——先确保你的SFT数据里有足够多的"完整思维链"。这就好比教一个孩子数学，你不可能只给他看答案，你必须让他看解题过程，最好还能让他自己复述一遍。没有思维链的SFT，就像没有地基的高楼——盖得越快，塌得越惨。

---

## 📊 更多值得注意的数字和细节

### 稀缺数据的惊人效率

论文展示了8样本训练的详细结果（表1），其中的数字值得反复咀嚼：

- Qwen2.5-Math-1.5B在MATH域上，8样本训练带来的MATH-500提升（29.7%）与2048样本训练在饱和点的表现差距仅为**-1.1%**——这意味着**8道题就已经捕获了大部分可学习的东西**。
- Qwen2.5-1.5B（非数学特化版）在MATH上的饱和步是170步，预饱和增益32.1%——说明即使没有专门的数学预训练，通用的Qwen基座也具备了相当的推理先验。
- Llama在Graph域上，8样本训练的饱和步仅为29步——几乎是"瞬间饱和"，这意味着它对图论推理几乎没有任何可迁移的先验。

### 噪声鲁棒性的家族差异

在70%标签错误的条件下（γ=0.7）：
- Qwen在MATH和SCIENCE上仍然保持性能——它"看穿"了噪声，学会了底层的真实模式。
- Llama在MATH上的训练奖励曲线在所有噪声水平下几乎重合——说明它不是在对抗噪声学习，而是在**把噪声也一起背了下来**。对于Llama来说，正确的答案和错误的答案一样容易"记住"。

### 代理奖励的残酷现实

自监督代理奖励的结果相当悲观，几乎像一份医学诊断报告：
- 多数投票（Majority Vote）只在数学特化模型上有短暂效果，其他模型要么完全失败，要么在约500步后崩溃——策略收敛到一个固定输出以最大化"自洽"，就像一个人为了"保持一致"而坚持说同一个谎。
- 自我确定性（Self-Certainty）在所有设置下都导致性能崩溃——模型学会了"假装自信"来最大化奖励，而不是真正提高正确率。这是最典型的**奖励黑客**（reward hacking）：模型找到了优化代理指标的最短路径，而这个路径与真实目标背道而驰。

这说明：**没有外部验证器的RLVR，目前还是一个危险的 gamble。** 如果你不能判断答案对错，那就不要指望模型自己判断。

---

## 🧠 费曼式的追问：这个故事到底在告诉我们什么？

如果我们暂时放下所有的技术细节，用一个更朴素的问题来总结这项研究，那就是：**"知道答案"和"理解答案"之间，有一道多深的鸿沟？**

这项研究用冷酷的数据告诉我们：在神经网络的世界里，这两者之间的鸿沟比我们想象的要深得多。一个模型可以在训练集上达到近乎完美的准确率，可以展现出令人眼花缭乱的多样的回答风格——但如果没有"忠实的推理"作为地基，这一切都不过是精巧的骗术。

这让我想起费曼经常讲的一个故事。他在巴西教书时，发现学生们能背诵物理定律的每一句话，能做极其复杂的公式推导，但当问到"如果球从桌上滚下来会发生什么"这种最基本的问题时，他们却完全不知道从何入手。费曼说："他们记住了名字，但他们不知道那是什么。"

这篇论文里的Llama，某种程度上就是那些巴西学生的数字版本。它记住了"什么时候该输出什么数字"，但它不知道那些数字背后的因果链条。更糟糕的是，它的"高多样性"给了人们一种虚假的安慰——"看，它尝试了这么多方法！"——但如果这些方法大部分都不忠于逻辑，那多样性就只是噪音的另一种形式。

而"预饱和阶段"的发现，给了我们一个诊断工具。就像医生可以通过观察病人的早期症状来判断病情走向一样，我们可以通过观察训练奖励曲线在何时饱和，来判断一个模型是在走向真正的学习还是走向死记硬背。**如果饱和来得太快——比100步还快——那就是一个红色警报。** 这时候不应该加更多数据，而应该停下来检查：模型的SFT阶段有没有教会它思考？预训练数据里有没有足够的推理内容？

---

## 🔮 给实践者的两则箴言

论文的结论部分提出了两个极其具体的实践建议，值得每一个训练推理模型的人铭记：

**第一，把"饱和步"当作你的诊断仪表盘。** 如果你观察到训练奖励已经 plateau 但下游性能毫无动静，停止训练——更多的RL计算不会带来任何好处。模型已经耗尽了它从预训练阶段带来的"推理资本"。这时候该做的不是继续RL，而是回去改进预训练或SFT阶段的数据质量。饱和步是一个比最终准确率更诚实的指标，因为它告诉你"学习是否还在发生"。

**第二，当弱监督失败时，算力应该投向"前置工程"而非"延长训练"。** 也就是说，与其给RL训练加更多的GPU小时，不如把那些算力花在让SFT数据包含更多完整的推理链条上，或者做更多领域相关的持续预训练。RL只是舞台的最后一幕，剧本在开幕前就已经写好了大半。正如论文所言："RL under weak supervision is best understood not as a training technique applied to a fixed model, but as the final stage of a pipeline whose success is largely determined before RL begins."

---

## 🌌 尾声：一次向内的探险

这篇论文的价值，远不止于一套实验结果或几个新指标。它向我们展示了一种"向内的"研究范式——不是去追求更炫目的性能数字，而是去追问 **"为什么有的训练成功了，有的失败了"**。

在这个追求"更大模型、更多数据、更强算力"的时代，这项研究提醒我们：有时候，瓶颈不在外部资源，而在内部结构。一个模型的"推理品格"——它是否愿意诚实地展示推导过程，是否能在奖励面前保持逻辑的完整——这些看似"软性"的品质，实际上决定了它能否在资源受限的现实世界中生存。

八个例题，302步的预饱和，忠实度指标从0.3到0.8的攀升——这些数字背后，是一个关于"诚实学习"的古老寓言，在硅基大脑上的重新上演。

或许，这不仅仅是一项AI研究的结论。这也是对我们所有人的提醒：在追求正确答案的路上，不要忘记了过程的价值。因为最终，不是答案定义了我们，而是我们抵达答案的路径。

---

## 📚 参考文献

1. Shen, J., et al. (2026). *When Can LLMs Learn to Reason with Weak Supervision?* arXiv:2604.18574.

2. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.

3. Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300.

4. Yang, A., et al. (2024). Qwen2.5-Math Technical Report: Toward Mathematical Expertise via Self-Improvement. arXiv:2409.12122.

5. Dubey, A., et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.

6. He, C., et al. (2025). Skywork-OR1: Open Reasoning with Reflective Revision. arXiv:2504.16339.

7. Baker, B., et al. (2025). Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation. arXiv:2503.11926.

8. Burns, C., et al. (2023). Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision. arXiv:2312.09390.

9. Zhao, S., et al. (2025). Self-Certainty as a Training Signal for LLM Reasoning.

10. Zuo, Y., et al. (2025). Majority Voting as Reward Signal for LLM Reasoning.

11. Mahabadi, R., et al. (2025). Nemotron-CC: Trillion-Token Curated Cosmopedia-Quality Corpus. arXiv:2502.20967.

12. Guha, S., et al. (2025). OpenThoughts-114K: A Large-Scale Dataset of Verifiable Reasoning Traces. arXiv:2502.12059.

13. Wang, P., et al. (2025). Can LLMs Learn from a Single Example? arXiv:2505.xxxxx.

14. Shafayat, et al. (2025). Reward Hacking in Self-Supervised RLVR.

15. Sheng, G., et al. (2024). veRL: A Flexible and Efficient Reinforcement Learning Framework for LLMs.

---

> **标签**: #每日论文 #PapersCool #弱监督 #RLVR #推理

> **arXiv链接**: https://arxiv.org/abs/2604.18574
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
当八个例题遇上五百亿参数：一场关于"记忆"与"学习"的侦探游戏

讨论回复

推荐