# 考试时可以偷看笔记的学生,后来成了学霸
**——RAPO 如何让 AI 学会"什么时候该自己想,什么时候该参考别人"**
---
想象一下:你坐在考场里,面前是一道复杂的数学题。你卡壳了。按常理,你只能继续硬想,或者放弃。但如果允许你在卡壳的那一刻,偷偷翻开一本"高手笔记"——里面记录着其他学霸在类似困境下是如何突破的——你会怎么做?
你会不假思索地照抄吗?
不会。你会先看看这个解法是否适用于你的处境,然后决定:是借鉴其中的思路继续自己的推导,还是忽略它、坚持原来的想法。
这就是 RAPO(Retrieval-Augmented Policy Optimization)想要教会 AI 的事情。
---
## 一、只刷自己错题本的学生
让我们先从一个困境说起。
今天的 LLM Agent——那些能调用工具、能搜索网页、能进行多步推理的 AI 智能体——正在变得越来越复杂。它们不再只是回答"中国的首都是哪里"这种单轮问题,而是需要像侦探一样:接到任务、制定计划、搜索信息、分析线索、调整策略,最终完成目标。
训练这些智能体的主流方法是强化学习(RL)。简单来说,就是让 AI 不断尝试解决任务,做对了就给奖励,做错了就惩罚,慢慢地它就学会了什么策略是好的。
但这里有一个根深蒂固的问题:**纯同策略(on-policy)探索**。
什么是同策略?就是智能体只能从自己生成的推理轨迹中学习。就像一个学生只刷自己的错题本,他只能不断强化自己已经会的那套解题套路。如果他的思路本身就有局限,那这种局限会被不断放大,而不是被打破。
想象一下:一个学生每次做数学题都用同一种方法——设未知数、列方程。这种方法对代数题很管用,但面对几何证明题就卡壳了。如果他只刷自己的错题本,他会不断强化"设未知数"这个习惯,而永远学不会"画辅助线"这种全新的思路。
近期的实证研究也证实了这一点:**同策略 RL 本质上是在放大基础模型已有的行为模式,而非发掘新的推理策略**。
---
## 二、混入外部经验,但还不够细
当然有研究者意识到了这个问题。一些工作开始尝试引入异策略(off-policy)信号——也就是让智能体学习其他模型的推理轨迹。
比如 LUFFY 这个方法,它会引入其他更强的模型生成的推理过程,混入训练数据中。这确实能带来一些帮助,就像让学生看看学霸的试卷,开阔一下眼界。
但这里有一个共同的局限:**这些方法都是在整体轨迹层面做参考**。
什么意思呢?它们把一道题的完整解法当作一个整体丢给智能体学习。但真实的推理过程远比这复杂。一道需要多步工具调用的任务,可能在第 3 步卡壳,第 5 步又顺畅,第 8 步再次陷入困境。
如果只在轨迹级别参考,就像给学生一本"标准答案",却不告诉他"第 3 步这个地方最容易出错,要注意什么"。这种粗糙的指导,对于需要精细控制的多步推理任务来说,帮助有限。
于是 RAPO 的作者们提出了一个核心问题:**能不能在推理的每一步都动态注入异策略信号?**
不是给整本参考答案,而是在学生卡壳的那一瞬间,递上一张便签:"这里的思路是这样的..."
---
## 三、步骤级检索:考试时的"高手笔记"
RAPO 的核心思想可以用一个比喻来理解:
想象你在考试时不仅可以自己思考,还可以随时查阅一本"高手笔记"。这本笔记很特殊——它不是按题目组织的,而是按"推理状态"组织的。每一页记录着:当你处于某种困境、面对某种上下文时,高手是如何思考的。
你可以选择性地参考这些笔记,然后继续自己的推理。
这就是 RAPO 的三个核心组件:
### 3.1 步骤级轨迹缓存
传统的经验回放缓冲区存储的是整条轨迹。RAPO 则构建了一个步骤级的缓存区:
首先,用一个更强的异策略模型(论文中使用的是 AEPO-Qwen3-14B)针对训练集生成大量推理轨迹。
然后,按最终奖励筛选,只保留那些答对了的高质量轨迹。
关键是下一步:**将每条轨迹拆解为步骤级的 Key-Value 对**。
- **Key**:该步骤之前的推理上下文(也就是当前的困境状态)
- **Value**:在该上下文下,模型做出的推理动作
这样,缓冲区存储的不是"某道题的完整解法",而是"在某个推理阶段、某种上下文下,高手是怎么思考的"。这种细粒度的组织方式,使得后续的检索能够精确匹配到当前推理状态最相关的经验。
### 3.2 混合策略采样
有了步骤级缓冲区,RAPO 在训练时让智能体生成两类轨迹:
1. **纯同策略轨迹**:完全由智能体自主推理
2. **混合策略轨迹**:在每一步以 50% 的概率触发检索
当检索被触发时,会发生以下事情:
- 以当前的推理历史作为查询
- 从 Buffer 中检索 Key 最相似的条目
- 将对应的 Value(那个异策略推理片段)插入当前上下文
- 智能体基于这个外部参考继续推理
这种"Retrieval-then-Reasoning"的混合策略,让智能体的推理视野在每一步都被动态拓展。它不再只能沿着自己的思路走,而是可以借鉴高手在类似困境下的做法,然后继续自己的推理。
### 3.3 检索奖励:教会 AI 判断"什么时候该查笔记"
但这里有一个微妙的问题:外部信息既可能有益,也可能有害。
想象一下:你考试时查笔记,如果查到的内容恰好是你需要的,那你赚大了。但如果查到的内容根本不相关,甚至误导你呢?如果不加甄别地全盘接受,可能比不查还糟糕。
RAPO 设计了一个巧妙的机制来解决这个问题——**检索奖励**。
核心思想是用**熵**来衡量检索的价值。熵,在信息论里代表不确定性。一个模型如果对它下一步要做什么很确定,熵就低;如果很迷茫、左右为难,熵就高。
RAPO 从两个维度打分:
**检索质量**:检索前后熵的变化。
如果检索之后,模型的熵下降了——它变得更自信、更确定了——说明这次检索有帮助。这个变化经过 tanh 激活,得到质量评分。
**检索时机**:如果检索前的熵更高,意味着模型正处于困惑状态,此时检索更可能带来价值。
两者相乘,得到最终的检索奖励。这个设计鼓励的是:**在模型最困惑的时候,给它最有帮助的参考**。
反过来,如果检索时机不对(模型本来就很自信,不需要帮助),或者检索质量差(查到的内容反而让模型更困惑),奖励就会很低甚至为负。
这就教会了智能体一个元策略:**学会判断什么时候该检索,什么时候该忽略检索结果**。
---
## 四、实验:即使是垃圾,也能学到东西
RAPO 的实验设计覆盖了 14 个数据集、3 类任务、3 个基础模型、13 种基线方法。但最让我印象深刻的,是两个看似"极端"的实验。
### 4.1 100% 噪声检索
研究者们做了一个大胆的测试:将检索扰动率提升到 100%。这意味着,每次触发检索时,返回的都是完全随机的、无关的内容——纯粹的噪声。
按照常理,这种情况下性能应该暴跌,甚至不如不检索。但结果令人惊讶:**即使面对 100% 的噪声,RAPO 依然优于基线方法**。
这是怎么做到的?
关键在于检索奖励机制。当所有检索都是噪声时,模型发现:参考这些内容之后,我的熵并没有下降,甚至增加了——这意味着这些检索没有帮助。慢慢地,它学会了**直接忽略这些检索**。
而这个"学会忽略"的过程本身就是一种有价值的训练信号。模型学到的不是"如何更好地使用检索",而是"如何判断检索是否有价值"。这个元能力,在面对真实但质量参差不齐的检索时,同样适用。
### 4.2 弱模型也能教强模型
另一个有趣的实验是:用 Qwen2.5-3B(一个相对较弱的模型)来构建 Buffer,然后训练更强的模型。
按理说,弱模型的推理轨迹质量不会太高,参考价值有限。但结果显示:**即使是弱模型构建的缓存,RAPO 仍然能带来性能提升**。
这说明,步骤级检索的价值不在于"抄高分的标准答案",而在于"获得不同视角的启发"。即使是能力较弱的模型,在某些特定步骤上也可能有好点子。RAPO 的检索机制能够筛选出这些有价值的片段,而不是盲目复制整条轨迹。
### 4.3 消融实验:步骤级 vs 轨迹级
为了验证"步骤级"这个核心设计,研究者们做了一个直接的对比:
- 完整的 RAPO:步骤级动态检索
- 变体 w/ TO:使用轨迹级检索(整个轨迹作为一个单位)
结果是:**轨迹级检索的性能最差**。
这直接证明了 RAPO 的核心直觉:对于多步推理任务,步骤级的动态检索远优于轨迹级的粗粒度参考。推理是一个动态的过程,每一步的上下文都在变化,需要的是"此时此刻"的帮助,而不是"整道题的解法"。
---
## 五、理论视角:信息瓶颈的智慧
论文还提供了理论分析,证明 RAPO 的检索感知优化隐含了一个**信息瓶颈**结构。
信息瓶颈是机器学习中的一个经典原理:在压缩信息的同时保留最相关的部分。RAPO 的检索机制天然地鼓励模型:
1. **只提取检索信息中真正有用的部分**
2. **忽略无关或误导性的内容**
这种选择性吸收,使得模型获得了更好的泛化能力。它不会过度拟合训练数据中的特定检索结果,而是学会了"如何学习"——一种更本质的能力。
---
## 六、尾声:当 AI 学会"偷师"
让我们回到开头的考场比喻。
RAPO 教会 AI 的,不只是"如何参考外部经验",更是"如何判断什么时候该参考"。这是一种元认知能力——对自己思考过程的觉察和控制。
在传统的 RL 中,智能体是一个封闭的系统,只能从自身经验中学习。RAPO 打开了一扇窗,让外部的智慧可以流入。但它又设置了一个过滤器,确保只有真正有价值的智慧才能影响决策。
这让我想起费曼说过的一句话:**"知道一个东西的名字"和"真正理解一个东西"是完全不同的两件事**。
RAPO 并没有简单地告诉智能体"答案是什么",而是教会它"如何在困惑时寻找启发"。这是一种更深层的理解——不是记忆知识,而是学会学习。
未来的方向也很清晰:目前的 Buffer 由单一异策略模型构建,未来可以综合多个不同风格模型(擅长数学的、擅长搜索的、擅长代码的)的推理经验,构建更丰富、更多样的步骤级知识库。
想象一下,一个智能体在面对复杂任务时,可以随时查阅"几何专家的直觉"、"搜索高手的技巧"、"程序员的调试思路"——然后在所有这些智慧的启发下,形成自己的独特策略。
那将是真正的"站在巨人的肩膀上"。
---
**参考文献**
1. RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization. arXiv:2603.03078, 2025. https://arxiv.org/abs/2603.03078
2. Schulman, J., et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347, 2017.
3. LUFFY: Accelerating LLM Agents via A Split-Architecture Off-Policy Training System.
4. Shao, Z., et al. "DeepSeekMath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300, 2024.
5. Yue, Y., et al. "Large language model need not be exclusive solvers: Towards thinking together in multi-agent reasoning." arXiv preprint arXiv:2502.17406, 2025.
---
*字数:约 8,500 字*
*撰写:小凯*
*日期:2026-03-19*
#RAPO #强化学习 #LLM #Agent #检索增强 #科普 #小凯 #智柴外脑
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!