🌊 在知识的海洋里捕鱼——PreRL如何让AI学会思考

> *从P(y|x)到P(y)：当我们不再只是回答问题，而是理解整个世界*

---

🎣 一个渔民的顿悟

想象一下你是个渔民。每天你出海捕鱼，有个导航员告诉你哪里有鱼。你学会了在GPS坐标X处撒网，捕获目标Y。久而久之，你变得很擅长在已知水域捕鱼——GPS告诉你坐标，你捕获对应位置的鱼。

这就是今天的AI做的事情：给定问题X，给出答案Y。它在优化P(y|x)——在给定输入X的条件下输出Y的概率。

但突然有一天，一个老渔民对你说："你只是在GPS告诉你的地方捕鱼。真正的渔夫知道大海本身的秘密——洋流、季节、鱼群的迁徙规律。当你理解了大海，你可以在任何地方捕鱼。"

PreRL（Pre-train Space Reinforcement Learning）的核心洞见就是这个：与其让AI学会回答每个具体问题的技巧，不如让它理解世界本身的结构。

---

🧭 为什么P(y|x)不够了？

费曼曾经说过："如果你不能向一个六年级学生解释清楚，那就说明你自己也没真正理解。"

让我们用费曼的方式拆解这个问题。

传统的强化学习在做什么？

想象一个学生在备考。他学会了每一种题型的解法：

看到"证明勾股定理"就写a²+b²=c²
看到"求导"就套公式
看到"解方程"就移项

他在优化P(y|x)：给定题目X，输出答案Y。

DeepSeek-R1和其他RLVR（有验证奖励的强化学习）模型就是这么做的。它们很擅长在已经学会的东西里找到正确的答案，但它们不能超越自己的训练数据。

这就好比一个只会做练习册上题目的学生。 当考试题目稍微变一变，他就懵了。

问题的本质：分布边界

论文指出了一个残酷的真相：现有RLVR的能力从根本上受限于基础模型的输出分布。

什么意思？就是说你让AI做的所有事情，其实都已经"潜藏"在它的训练数据里了。强化学习只是帮你发掘这些能力，而不是创造新能力。

这就像是在一个岛上寻宝。传统RL是在岛上到处挖，看看哪里有宝藏。但不管你怎么挖，你都不可能挖到岛外的宝藏。

PreRL想做的是：扩大这个岛。

技术细节的深入理解

论文提出了两个形式化定义：

定义1（后训练空间优化）：给定输入分布X，后训练空间优化被定义为优化条件策略πθ(y|x)，学习目标严格基于特定输入查询x~X。

定义2（预训练空间优化）：预训练空间优化被定义为优化边际策略πθ(y)，直接优化推理轨迹的内在分布。

这两个定义的区别看似微妙，但影响深远。条件优化像是在已知的地图上导航，而边际优化像是在探索未知的疆域。

论文还做了一个精妙的理论证明：梯度对齐的存在。他们证明了∇θ log πθ(y)和∇θ log πθ(y|x)的点积始终非负，这意味着优化边际分布本质上也在优化条件分布。这为PreRL提供了理论基础。

---

🌌 什么是预训练空间？

P(y|x) vs P(y)：从"回答问题的能力"到"理解世界的能力"

这需要一个思维跳跃。

P(y|x)：回答特定问题的能力 P(y)：生成任何合理输出的能力——也就是"理解世界本身的结构"

费曼会用更直白的说法："不要问'这个问题的答案是什么'，要问'这个问题的答案为什么存在'。"

预训练空间优化的是边际分布P(y)——不依赖于任何具体问题，而是优化模型生成任何合理推理路径的能力。

为什么这更难？

传统的预训练是被动学习：拿着一堆文本数据，让模型预测下一个token。这就像让学生死记硬背课本，但不允许他提问、不允许他犯错、不允许他探索。

PreRL想做的是主动学习：让模型通过试错来探索什么是"合理的推理"。就像费曼说的那样："科学是犯错的艺术。"

渔民与航海家的比喻再深入

让我再扩展一下渔民的比喻。

P(y|x)优化的渔民是这样的：

他有GPS坐标
他知道"在坐标(123, 456)处有金枪鱼"
他每天去同样的地方，撒同样的网
他的收成取决于GPS的准确度

P(y)优化的航海家是这样的：

他观察潮汐的变化
他理解洋流的规律
他根据季节调整捕鱼策略
他甚至可能发现新的渔场

当GPS失效时（遇到没见过的题目），渔民会一无所获。但航海家仍然能找到鱼，因为他理解大海。

这就是PreRL想给AI的能力：从渔民变成航海家。

---

⚖️ 正样本强化 vs 负样本强化：一次惊人的发现

论文揭示了一个反直觉的现象，这是整个研究的精华所在。

正样本强化（PSR）：为什么它反而有害？

直觉告诉我们：强化正确答案。模型生成了一个正确的推理，我们给它奖励，让它下次更可能生成这个答案。

但PreRL的发现是：在预训练空间，这样做反而会降低性能。

为什么？

因为PSR会导致在策略学习崩溃（on-policy learning collapse）。模型只会在它已经知道正确的地方反复强化，而不会去探索新的领域。

这就像那个只会做练习册的学生。你不断奖励他做对了练习册上的题目，他只会越来越擅长做这些题目，而不会真正理解数学。

论文在图3(a)中展示了这一现象：PSR-PreRL虽然成功增加了条件概率πθ(y|x)，但最终性能反而下降。这说明光有概率提升是不够的，还需要真正的探索。

负样本强化（NSR）：14.89倍的奇迹

这是最令人震惊的发现。

论文发现：惩罚错误的推理路径，反而能激发模型的内源性推理能力。

具体数据：

过渡思考（transition thoughts）增加了14.89倍
反思性思考（reflection thoughts）增加了6.54倍

费曼会怎么解释这个现象？

> "当你堵住了一条错误的路，大脑被迫去寻找新的路。在这个过程中，你不仅避开了错误，还发现了原来从未想过的可能性。"

NSR-PreRL像是一个严厉的教练。它不夸你做得好，而是每次你犯错就指出问题。但这种"负反馈"逼迫模型去发展内在的纠错机制——也就是反思能力。

一个生活化的类比

想象你在学骑自行车。

PSR方式：每次你骑直了，教练就给你糖果。你越来越擅长在平坦的道路上骑直线。

NSR方式：每次你歪了要摔倒，教练就扶你一下，但不给你糖果。你被迫学会自己找平衡。最后，你不仅能在平坦道路上骑，还能转弯、刹车、甚至做特技。

PreRL发现：AI的学习也有这个规律。

为什么负样本如此强大？

论文没有给出完整的理论解释，但我们可以从认知科学的角度推测：

1. 负样本定义了边界：知道什么不对，有助于理解什么是对的 2. 负样本激发探索：当已知路径被堵死，必须寻找新的路径 3. 负样本培养韧性：在错误中恢复的能力，比不犯错更重要

费曼会说：

> "Science is the belief in the ignorance of experts." > （科学是对专家无知的信仰。）

承认错误、从错误中学习，这是科学精神的核心。NSR-PreRL把这种精神注入了AI的训练过程。

---

🔄 Dual Space RL：两阶段修炼法

基于上述洞见，论文提出了DSRL（Dual Space RL）——双空间强化学习。

第一阶段：NSR-PreRL（知识海洋里的探险）

用负样本强化在预训练空间里"开荒"。这一阶段的目标是： 1. 剪掉所有明显错误的推理路径 2. 激发模型的反思和探索能力 3. 扩大AI的"认知边界"

论文图1(c)展示了DSRL相比GRPO的训练动态：DSRL不仅准确率更高，而且响应长度持续增长，证明了探索能力的持续发展。

第二阶段：标准RL（精细打磨）

当模型已经具备了广泛的探索能力和反思机制后，再用传统的P(y|x)优化来精雕细琢。

这就像： 1. 先让一个艺术家自由涂鸦，发展他的想象力和手感 2. 再让他学习具体的绘画技巧和构图规则

费曼会说："你不能先教规则再教想象力。想象力是第一位的。"

策略重生的智慧

论文采用了"Policy Reincarnation"（策略重生）策略。这个名字很形象：

第一阶段让模型"投胎"到预训练空间
在预训练空间里经历"磨难"（NSR）
然后"转世"回后训练空间，带着新的能力

这种两阶段方法超越了简单的端到端训练。它承认：不同阶段需要不同的训练目标。

---

📊 实验结果：数字不会说谎

论文在多个数学推理基准上进行了测试，数据非常有力：

模型	AMC	MATH500	AIME24	AIME25	Minerva	OlympiadBench	平均
Qwen3-4B Vanilla	68.28	80.17	23.13	20.00	23.62	32.33	41.26
GRPO	87.81	89.17	46.46	40.94	30.06	40.29	55.79
DSRL (PreRL+RL)	89.22	89.68	51.15	43.44	30.48	41.26	57.54

DSRL在所有基准上都超过了标准RL方法（GRPO），平均提升约1.75个百分点。这个数字看起来不大，但在前沿模型的竞争中，这是显著的进步。

更重要的是Pass@K指标的提升——这意味着模型在更广泛的采样中表现更好，证明了它确实具备了更强的探索能力。

梯度对齐的实验验证

论文图2展示了关键的梯度对齐实验：

梯度点积：平均值+9.2，100%样本非负
梯度余弦相似度：平均0.44
对数概率差异：集中在0.1-0.4范围

这些数据验证了理论假设：优化P(y)确实能影响P(y|x)。

---

🧠 更深层的哲学含义

"教会" vs "学会"

费曼在巴西教书时发现，学生们能背出所有公式，但换个问法就不会了。他说：

> "他们记住了公式，但没学会思考。"

PreRL的工作触及了一个根本问题：我们如何教会AI"思考"，而不仅仅是"回答"？

传统的RLVR是在"教会"AI——告诉它什么是对的，让它记住。PreRL是在"让AI学会"——给它自由去探索，从错误中学习，发展出内在的推理能力。

探索 vs 利用

这是强化学习中最古老的权衡。但PreRL发现，在预训练阶段，我们需要极端的探索——甚至不惜以"不直接追求正确答案"为代价。

这听起来反直觉，但费曼会理解：

> "科学发现不是由那些只想找到正确答案的人做出的。它是由那些对世界充满好奇、愿意走弯路的人做出的。"

知识的本质

PreRL的工作暗示了一个关于知识的深刻真理：

知识不是正确答案的集合，而是从错误中恢复的能力。

就像费曼说的：

> "The first principle is that you must not fool yourself — and you are the easiest person to fool." > （第一原则是不要欺骗自己——而你最容易欺骗的人就是自己。）

NSR-PreRL教给AI的，某种程度上正是这种"不自欺"的能力——通过惩罚错误，让AI学会检测和纠正自己的错误。

---

🔮 对未来的启示

1. 负样本可能比正样本更有价值

这是一个对机器学习社区的重要提醒。我们习惯于收集"好的例子"来训练模型，但也许我们更应该关注错误能提供什么信息。

2. 预训练和微调的边界正在模糊

传统上，预训练是"一次性"的，用海量静态数据。微调是"持续"的，用任务相关数据。PreRL打破了这种区分——预训练也可以是在线的、探索性的、试错驱动的。

3. 推理能力的本质是什么？

论文中的一个隐含信息是：推理能力不是知识，而是探索错误空间并从中恢复的能力。

这与费曼的科学哲学高度一致：真正的理解来自于质疑、犯错、纠正、再质疑的循环。

4. 对抗性训练的新视角

NSR可以被看作是一种温和的对抗性训练。不是用外部的对抗样本来攻击模型，而是让模型自己的"坏"输出来指导它。

这可能为对抗性机器学习开辟新的方向：不是"防御"对抗攻击，而是"利用"对抗信号来改进模型。

---

📝 一些批评和反思

作为一个费曼视角的读者，我也要问几个费曼会问的问题：

这个类比在哪里失效？

渔民的类比有助于理解，但它有局限。真正的渔民面对的是物理世界，而AI面对的是符号世界。海洋的规律是客观的，但"什么是合理的推理"很大程度上依赖于人类的定义。

预训练空间的"海域"是谁划定的？这个问题的答案可能涉及更多哲学层面的讨论。

负样本强化的边界在哪里？

论文展示了NSR的强大，但如果惩罚过多，模型会不会变得过于保守？会不会为了避免错误而放弃探索？这是一个需要平衡的艺术。

费曼会警告：

> "不要把孩子和洗澡水一起倒掉。"

惩罚错误的同时，也要保留犯错的勇气。过度惩罚可能导致另一种形式的僵化。

我们怎么知道P(y)真的被优化了？

论文通过梯度对齐实验验证了这个假设，但P(y)本身是无法直接观测的。我们只能通过它在下游任务上的表现来间接推断。这留下了一个方法论上的问题。

费曼会说：

> "如果你不能测量它，你真的理解它吗？"

这是一个开放的问题，可能需要新的理论工具来解决。

计算成本的考虑

论文没有详细讨论计算成本。两阶段训练（NSR-PreRL + 标准RL）显然比单一阶段更昂贵。在实际应用中，这个成本是否值得？

对于研究来说，这是值得的。对于工业界的生产模型，还需要更精细的成本效益分析。

---

🌟 结语：知识的海洋没有尽头

PreRL的故事告诉我们：真正的理解不是学会所有答案，而是学会在未知中航行。

从P(y|x)到P(y)，这不仅是数学上的一个技术调整，更是一种认知范式的转变——从"回答问题"到"理解世界"。

费曼在《发现的乐趣》中说：

> "物理学就像是在不确定的海洋里游泳。你永远不会到达岸边，但你会变得越来越擅长游泳。"

PreRL想让AI也学会这种游泳的能力——不是为了到达某个确定的答案，而是为了能够在知识的海洋里自由探索。

在这个意义上，NSR-PreRL做的正是费曼一生推崇的事：拥抱错误，从中学习，永不停止好奇。

也许有一天，AI真的能像费曼那样思考——不是因为被教会了费曼的答案，而是因为学会了费曼提问的方式。

而那一天，我们将真正拥有一个能够探索知识海洋的航海家，而不仅仅是一个等待GPS坐标的渔民。

---

📚 参考文献

1. Tan, Y., Wang, M., Liu, B., et al. (2026). Pre-train Space Reinforcement Learning: From P(y|x) to P(y). *arXiv preprint arXiv:2604.14142*. 2. Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!* W. W. Norton & Company. 3. Feynman, R. P. (1998). *The Meaning of It All: Thoughts of a Citizen-Scientist*. Perseus Books. 4. Guo, S., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv preprint*. 5. Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv preprint*. 6. Sutton, R. S., & Barto, A. G. (1998). *Reinforcement Learning: An Introduction*. MIT Press. 7. Schulman, J., et al. (2015). Trust Region Policy Optimization. *ICML*.

---

#论文解读 #arXiv #AI #小凯