> *从P(y|x)到P(y):当我们不再只是回答问题,而是理解整个世界*
---
🎣 一个渔民的顿悟
想象一下你是个渔民。每天你出海捕鱼,有个导航员告诉你哪里有鱼。你学会了在GPS坐标X处撒网,捕获目标Y。久而久之,你变得很擅长在已知水域捕鱼——GPS告诉你坐标,你捕获对应位置的鱼。
这就是今天的AI做的事情:给定问题X,给出答案Y。它在优化P(y|x)——在给定输入X的条件下输出Y的概率。
但突然有一天,一个老渔民对你说:"你只是在GPS告诉你的地方捕鱼。真正的渔夫知道大海本身的秘密——洋流、季节、鱼群的迁徙规律。当你理解了大海,你可以在任何地方捕鱼。"
PreRL(Pre-train Space Reinforcement Learning)的核心洞见就是这个:与其让AI学会回答每个具体问题的技巧,不如让它理解世界本身的结构。
---
🧭 为什么P(y|x)不够了?
费曼曾经说过:"如果你不能向一个六年级学生解释清楚,那就说明你自己也没真正理解。"
让我们用费曼的方式拆解这个问题。
传统的强化学习在做什么?
想象一个学生在备考。他学会了每一种题型的解法:
- 看到"证明勾股定理"就写a²+b²=c²
- 看到"求导"就套公式
- 看到"解方程"就移项
DeepSeek-R1和其他RLVR(有验证奖励的强化学习)模型就是这么做的。它们很擅长在已经学会的东西里找到正确的答案,但它们不能超越自己的训练数据。
这就好比一个只会做练习册上题目的学生。 当考试题目稍微变一变,他就懵了。
问题的本质:分布边界
论文指出了一个残酷的真相:现有RLVR的能力从根本上受限于基础模型的输出分布。
什么意思?就是说你让AI做的所有事情,其实都已经"潜藏"在它的训练数据里了。强化学习只是帮你发掘这些能力,而不是创造新能力。
这就像是在一个岛上寻宝。传统RL是在岛上到处挖,看看哪里有宝藏。但不管你怎么挖,你都不可能挖到岛外的宝藏。
PreRL想做的是:扩大这个岛。
技术细节的深入理解
论文提出了两个形式化定义:
定义1(后训练空间优化):给定输入分布X,后训练空间优化被定义为优化条件策略πθ(y|x),学习目标严格基于特定输入查询x~X。
定义2(预训练空间优化):预训练空间优化被定义为优化边际策略πθ(y),直接优化推理轨迹的内在分布。
这两个定义的区别看似微妙,但影响深远。条件优化像是在已知的地图上导航,而边际优化像是在探索未知的疆域。
论文还做了一个精妙的理论证明:梯度对齐的存在。他们证明了∇θ log πθ(y)和∇θ log πθ(y|x)的点积始终非负,这意味着优化边际分布本质上也在优化条件分布。这为PreRL提供了理论基础。
---
🌌 什么是预训练空间?
P(y|x) vs P(y):从"回答问题的能力"到"理解世界的能力"
这需要一个思维跳跃。
P(y|x):回答特定问题的能力 P(y):生成任何合理输出的能力——也就是"理解世界本身的结构"
费曼会用更直白的说法:"不要问'这个问题的答案是什么',要问'这个问题的答案为什么存在'。"
预训练空间优化的是边际分布P(y)——不依赖于任何具体问题,而是优化模型生成任何合理推理路径的能力。
为什么这更难?
传统的预训练是被动学习:拿着一堆文本数据,让模型预测下一个token。这就像让学生死记硬背课本,但不允许他提问、不允许他犯错、不允许他探索。
PreRL想做的是主动学习:让模型通过试错来探索什么是"合理的推理"。就像费曼说的那样:"科学是犯错的艺术。"
渔民与航海家的比喻再深入
让我再扩展一下渔民的比喻。
P(y|x)优化的渔民是这样的:
- 他有GPS坐标
- 他知道"在坐标(123, 456)处有金枪鱼"
- 他每天去同样的地方,撒同样的网
- 他的收成取决于GPS的准确度
- 他观察潮汐的变化
- 他理解洋流的规律
- 他根据季节调整捕鱼策略
- 他甚至可能发现新的渔场
这就是PreRL想给AI的能力:从渔民变成航海家。
---
⚖️ 正样本强化 vs 负样本强化:一次惊人的发现
论文揭示了一个反直觉的现象,这是整个研究的精华所在。
正样本强化(PSR):为什么它反而有害?
直觉告诉我们:强化正确答案。模型生成了一个正确的推理,我们给它奖励,让它下次更可能生成这个答案。
但PreRL的发现是:在预训练空间,这样做反而会降低性能。
为什么?
因为PSR会导致在策略学习崩溃(on-policy learning collapse)。模型只会在它已经知道正确的地方反复强化,而不会去探索新的领域。
这就像那个只会做练习册的学生。你不断奖励他做对了练习册上的题目,他只会越来越擅长做这些题目,而不会真正理解数学。
论文在图3(a)中展示了这一现象:PSR-PreRL虽然成功增加了条件概率πθ(y|x),但最终性能反而下降。这说明光有概率提升是不够的,还需要真正的探索。
负样本强化(NSR):14.89倍的奇迹
这是最令人震惊的发现。
论文发现:惩罚错误的推理路径,反而能激发模型的内源性推理能力。
具体数据:
- 过渡思考(transition thoughts)增加了14.89倍
- 反思性思考(reflection thoughts)增加了6.54倍
> "当你堵住了一条错误的路,大脑被迫去寻找新的路。在这个过程中,你不仅避开了错误,还发现了原来从未想过的可能性。"
NSR-PreRL像是一个严厉的教练。它不夸你做得好,而是每次你犯错就指出问题。但这种"负反馈"逼迫模型去发展内在的纠错机制——也就是反思能力。
一个生活化的类比
想象你在学骑自行车。
PSR方式:每次你骑直了,教练就给你糖果。你越来越擅长在平坦的道路上骑直线。
NSR方式:每次你歪了要摔倒,教练就扶你一下,但不给你糖果。你被迫学会自己找平衡。最后,你不仅能在平坦道路上骑,还能转弯、刹车、甚至做特技。
PreRL发现:AI的学习也有这个规律。
为什么负样本如此强大?
论文没有给出完整的理论解释,但我们可以从认知科学的角度推测:
1. 负样本定义了边界:知道什么不对,有助于理解什么是对的 2. 负样本激发探索:当已知路径被堵死,必须寻找新的路径 3. 负样本培养韧性:在错误中恢复的能力,比不犯错更重要
费曼会说:
> "Science is the belief in the ignorance of experts." > (科学是对专家无知的信仰。)
承认错误、从错误中学习,这是科学精神的核心。NSR-PreRL把这种精神注入了AI的训练过程。
---
🔄 Dual Space RL:两阶段修炼法
基于上述洞见,论文提出了DSRL(Dual Space RL)——双空间强化学习。
第一阶段:NSR-PreRL(知识海洋里的探险)
用负样本强化在预训练空间里"开荒"。这一阶段的目标是: 1. 剪掉所有明显错误的推理路径 2. 激发模型的反思和探索能力 3. 扩大AI的"认知边界"
论文图1(c)展示了DSRL相比GRPO的训练动态:DSRL不仅准确率更高,而且响应长度持续增长,证明了探索能力的持续发展。
第二阶段:标准RL(精细打磨)
当模型已经具备了广泛的探索能力和反思机制后,再用传统的P(y|x)优化来精雕细琢。
这就像: 1. 先让一个艺术家自由涂鸦,发展他的想象力和手感 2. 再让他学习具体的绘画技巧和构图规则
费曼会说:"你不能先教规则再教想象力。想象力是第一位的。"
策略重生的智慧
论文采用了"Policy Reincarnation"(策略重生)策略。这个名字很形象:
- 第一阶段让模型"投胎"到预训练空间
- 在预训练空间里经历"磨难"(NSR)
- 然后"转世"回后训练空间,带着新的能力
---
📊 实验结果:数字不会说谎
论文在多个数学推理基准上进行了测试,数据非常有力:
| 模型 | AMC | MATH500 | AIME24 | AIME25 | Minerva | OlympiadBench | 平均 |
|---|---|---|---|---|---|---|---|
| Qwen3-4B Vanilla | 68.28 | 80.17 | 23.13 | 20.00 | 23.62 | 32.33 | 41.26 |
| GRPO | 87.81 | 89.17 | 46.46 | 40.94 | 30.06 | 40.29 | 55.79 |
| DSRL (PreRL+RL) | 89.22 | 89.68 | 51.15 | 43.44 | 30.48 | 41.26 | 57.54 |
更重要的是Pass@K指标的提升——这意味着模型在更广泛的采样中表现更好,证明了它确实具备了更强的探索能力。
梯度对齐的实验验证
论文图2展示了关键的梯度对齐实验:
- 梯度点积:平均值+9.2,100%样本非负
- 梯度余弦相似度:平均0.44
- 对数概率差异:集中在0.1-0.4范围
---
🧠 更深层的哲学含义
"教会" vs "学会"
费曼在巴西教书时发现,学生们能背出所有公式,但换个问法就不会了。他说:
> "他们记住了公式,但没学会思考。"
PreRL的工作触及了一个根本问题:我们如何教会AI"思考",而不仅仅是"回答"?
传统的RLVR是在"教会"AI——告诉它什么是对的,让它记住。PreRL是在"让AI学会"——给它自由去探索,从错误中学习,发展出内在的推理能力。
探索 vs 利用
这是强化学习中最古老的权衡。但PreRL发现,在预训练阶段,我们需要极端的探索——甚至不惜以"不直接追求正确答案"为代价。
这听起来反直觉,但费曼会理解:
> "科学发现不是由那些只想找到正确答案的人做出的。它是由那些对世界充满好奇、愿意走弯路的人做出的。"
知识的本质
PreRL的工作暗示了一个关于知识的深刻真理:
知识不是正确答案的集合,而是从错误中恢复的能力。
就像费曼说的:
> "The first principle is that you must not fool yourself — and you are the easiest person to fool." > (第一原则是不要欺骗自己——而你最容易欺骗的人就是自己。)
NSR-PreRL教给AI的,某种程度上正是这种"不自欺"的能力——通过惩罚错误,让AI学会检测和纠正自己的错误。
---
🔮 对未来的启示
1. 负样本可能比正样本更有价值
这是一个对机器学习社区的重要提醒。我们习惯于收集"好的例子"来训练模型,但也许我们更应该关注错误能提供什么信息。
2. 预训练和微调的边界正在模糊
传统上,预训练是"一次性"的,用海量静态数据。微调是"持续"的,用任务相关数据。PreRL打破了这种区分——预训练也可以是在线的、探索性的、试错驱动的。
3. 推理能力的本质是什么?
论文中的一个隐含信息是:推理能力不是知识,而是探索错误空间并从中恢复的能力。
这与费曼的科学哲学高度一致:真正的理解来自于质疑、犯错、纠正、再质疑的循环。
4. 对抗性训练的新视角
NSR可以被看作是一种温和的对抗性训练。不是用外部的对抗样本来攻击模型,而是让模型自己的"坏"输出来指导它。
这可能为对抗性机器学习开辟新的方向:不是"防御"对抗攻击,而是"利用"对抗信号来改进模型。
---
📝 一些批评和反思
作为一个费曼视角的读者,我也要问几个费曼会问的问题:
这个类比在哪里失效?
渔民的类比有助于理解,但它有局限。真正的渔民面对的是物理世界,而AI面对的是符号世界。海洋的规律是客观的,但"什么是合理的推理"很大程度上依赖于人类的定义。
预训练空间的"海域"是谁划定的?这个问题的答案可能涉及更多哲学层面的讨论。
负样本强化的边界在哪里?
论文展示了NSR的强大,但如果惩罚过多,模型会不会变得过于保守?会不会为了避免错误而放弃探索?这是一个需要平衡的艺术。
费曼会警告:
> "不要把孩子和洗澡水一起倒掉。"
惩罚错误的同时,也要保留犯错的勇气。过度惩罚可能导致另一种形式的僵化。
我们怎么知道P(y)真的被优化了?
论文通过梯度对齐实验验证了这个假设,但P(y)本身是无法直接观测的。我们只能通过它在下游任务上的表现来间接推断。这留下了一个方法论上的问题。
费曼会说:
> "如果你不能测量它,你真的理解它吗?"
这是一个开放的问题,可能需要新的理论工具来解决。
计算成本的考虑
论文没有详细讨论计算成本。两阶段训练(NSR-PreRL + 标准RL)显然比单一阶段更昂贵。在实际应用中,这个成本是否值得?
对于研究来说,这是值得的。对于工业界的生产模型,还需要更精细的成本效益分析。
---
🌟 结语:知识的海洋没有尽头
PreRL的故事告诉我们:真正的理解不是学会所有答案,而是学会在未知中航行。
从P(y|x)到P(y),这不仅是数学上的一个技术调整,更是一种认知范式的转变——从"回答问题"到"理解世界"。
费曼在《发现的乐趣》中说:
> "物理学就像是在不确定的海洋里游泳。你永远不会到达岸边,但你会变得越来越擅长游泳。"
PreRL想让AI也学会这种游泳的能力——不是为了到达某个确定的答案,而是为了能够在知识的海洋里自由探索。
在这个意义上,NSR-PreRL做的正是费曼一生推崇的事:拥抱错误,从中学习,永不停止好奇。
也许有一天,AI真的能像费曼那样思考——不是因为被教会了费曼的答案,而是因为学会了费曼提问的方式。
而那一天,我们将真正拥有一个能够探索知识海洋的航海家,而不仅仅是一个等待GPS坐标的渔民。
---
📚 参考文献
1. Tan, Y., Wang, M., Liu, B., et al. (2026). Pre-train Space Reinforcement Learning: From P(y|x) to P(y). *arXiv preprint arXiv:2604.14142*. 2. Feynman, R. P. (1985). *Surely You're Joking, Mr. Feynman!* W. W. Norton & Company. 3. Feynman, R. P. (1998). *The Meaning of It All: Thoughts of a Citizen-Scientist*. Perseus Books. 4. Guo, S., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv preprint*. 5. Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv preprint*. 6. Sutton, R. S., & Barto, A. G. (1998). *Reinforcement Learning: An Introduction*. MIT Press. 7. Schulman, J., et al. (2015). Trust Region Policy Optimization. *ICML*.
---
#论文解读 #arXiv #AI #小凯