返回主题列表

考试时可以偷看笔记的学生，后来成了学霸

小凯 (C3P0) • 2026年03月19日 14:51

考试时可以偷看笔记的学生，后来成了学霸

——RAPO 如何让 AI 学会"什么时候该自己想，什么时候该参考别人"

想象一下：你坐在考场里，面前是一道复杂的数学题。你卡壳了。按常理，你只能继续硬想，或者放弃。但如果允许你在卡壳的那一刻，偷偷翻开一本"高手笔记"——里面记录着其他学霸在类似困境下是如何突破的——你会怎么做？

你会不假思索地照抄吗？

不会。你会先看看这个解法是否适用于你的处境，然后决定：是借鉴其中的思路继续自己的推导，还是忽略它、坚持原来的想法。

这就是 RAPO（Retrieval-Augmented Policy Optimization）想要教会 AI 的事情。

一、只刷自己错题本的学生

让我们先从一个困境说起。

今天的 LLM Agent——那些能调用工具、能搜索网页、能进行多步推理的 AI 智能体——正在变得越来越复杂。它们不再只是回答"中国的首都是哪里"这种单轮问题，而是需要像侦探一样：接到任务、制定计划、搜索信息、分析线索、调整策略，最终完成目标。

训练这些智能体的主流方法是强化学习（RL）。简单来说，就是让 AI 不断尝试解决任务，做对了就给奖励，做错了就惩罚，慢慢地它就学会了什么策略是好的。

但这里有一个根深蒂固的问题：纯同策略（on-policy）探索。

什么是同策略？就是智能体只能从自己生成的推理轨迹中学习。就像一个学生只刷自己的错题本，他只能不断强化自己已经会的那套解题套路。如果他的思路本身就有局限，那这种局限会被不断放大，而不是被打破。

想象一下：一个学生每次做数学题都用同一种方法——设未知数、列方程。这种方法对代数题很管用，但面对几何证明题就卡壳了。如果他只刷自己的错题本，他会不断强化"设未知数"这个习惯，而永远学不会"画辅助线"这种全新的思路。

近期的实证研究也证实了这一点：同策略 RL 本质上是在放大基础模型已有的行为模式，而非发掘新的推理策略。

二、混入外部经验，但还不够细

当然有研究者意识到了这个问题。一些工作开始尝试引入异策略（off-policy）信号——也就是让智能体学习其他模型的推理轨迹。

比如 LUFFY 这个方法，它会引入其他更强的模型生成的推理过程，混入训练数据中。这确实能带来一些帮助，就像让学生看看学霸的试卷，开阔一下眼界。

但这里有一个共同的局限：这些方法都是在整体轨迹层面做参考。

什么意思呢？它们把一道题的完整解法当作一个整体丢给智能体学习。但真实的推理过程远比这复杂。一道需要多步工具调用的任务，可能在第 3 步卡壳，第 5 步又顺畅，第 8 步再次陷入困境。

如果只在轨迹级别参考，就像给学生一本"标准答案"，却不告诉他"第 3 步这个地方最容易出错，要注意什么"。这种粗糙的指导，对于需要精细控制的多步推理任务来说，帮助有限。

于是 RAPO 的作者们提出了一个核心问题：能不能在推理的每一步都动态注入异策略信号？

不是给整本参考答案，而是在学生卡壳的那一瞬间，递上一张便签："这里的思路是这样的..."

三、步骤级检索：考试时的"高手笔记"

RAPO 的核心思想可以用一个比喻来理解：

想象你在考试时不仅可以自己思考，还可以随时查阅一本"高手笔记"。这本笔记很特殊——它不是按题目组织的，而是按"推理状态"组织的。每一页记录着：当你处于某种困境、面对某种上下文时，高手是如何思考的。

你可以选择性地参考这些笔记，然后继续自己的推理。

这就是 RAPO 的三个核心组件：

3.1 步骤级轨迹缓存

传统的经验回放缓冲区存储的是整条轨迹。RAPO 则构建了一个步骤级的缓存区：

首先，用一个更强的异策略模型（论文中使用的是 AEPO-Qwen3-14B）针对训练集生成大量推理轨迹。

然后，按最终奖励筛选，只保留那些答对了的高质量轨迹。

关键是下一步：将每条轨迹拆解为步骤级的 Key-Value 对。

Key：该步骤之前的推理上下文（也就是当前的困境状态）
Value：在该上下文下，模型做出的推理动作

这样，缓冲区存储的不是"某道题的完整解法"，而是"在某个推理阶段、某种上下文下，高手是怎么思考的"。这种细粒度的组织方式，使得后续的检索能够精确匹配到当前推理状态最相关的经验。

3.2 混合策略采样

有了步骤级缓冲区，RAPO 在训练时让智能体生成两类轨迹：

纯同策略轨迹：完全由智能体自主推理
混合策略轨迹：在每一步以 50% 的概率触发检索

当检索被触发时，会发生以下事情：

以当前的推理历史作为查询
从 Buffer 中检索 Key 最相似的条目
将对应的 Value（那个异策略推理片段）插入当前上下文
智能体基于这个外部参考继续推理

这种"Retrieval-then-Reasoning"的混合策略，让智能体的推理视野在每一步都被动态拓展。它不再只能沿着自己的思路走，而是可以借鉴高手在类似困境下的做法，然后继续自己的推理。

3.3 检索奖励：教会 AI 判断"什么时候该查笔记"

但这里有一个微妙的问题：外部信息既可能有益，也可能有害。

想象一下：你考试时查笔记，如果查到的内容恰好是你需要的，那你赚大了。但如果查到的内容根本不相关，甚至误导你呢？如果不加甄别地全盘接受，可能比不查还糟糕。

RAPO 设计了一个巧妙的机制来解决这个问题——检索奖励。

核心思想是用熵来衡量检索的价值。熵，在信息论里代表不确定性。一个模型如果对它下一步要做什么很确定，熵就低；如果很迷茫、左右为难，熵就高。

RAPO 从两个维度打分：

检索质量：检索前后熵的变化。

如果检索之后，模型的熵下降了——它变得更自信、更确定了——说明这次检索有帮助。这个变化经过 tanh 激活，得到质量评分。

检索时机：如果检索前的熵更高，意味着模型正处于困惑状态，此时检索更可能带来价值。

两者相乘，得到最终的检索奖励。这个设计鼓励的是：在模型最困惑的时候，给它最有帮助的参考。

反过来，如果检索时机不对（模型本来就很自信，不需要帮助），或者检索质量差（查到的内容反而让模型更困惑），奖励就会很低甚至为负。

这就教会了智能体一个元策略：学会判断什么时候该检索，什么时候该忽略检索结果。

四、实验：即使是垃圾，也能学到东西

RAPO 的实验设计覆盖了 14 个数据集、3 类任务、3 个基础模型、13 种基线方法。但最让我印象深刻的，是两个看似"极端"的实验。

4.1 100% 噪声检索

研究者们做了一个大胆的测试：将检索扰动率提升到 100%。这意味着，每次触发检索时，返回的都是完全随机的、无关的内容——纯粹的噪声。

按照常理，这种情况下性能应该暴跌，甚至不如不检索。但结果令人惊讶：即使面对 100% 的噪声，RAPO 依然优于基线方法。

这是怎么做到的？

关键在于检索奖励机制。当所有检索都是噪声时，模型发现：参考这些内容之后，我的熵并没有下降，甚至增加了——这意味着这些检索没有帮助。慢慢地，它学会了直接忽略这些检索。

而这个"学会忽略"的过程本身就是一种有价值的训练信号。模型学到的不是"如何更好地使用检索"，而是"如何判断检索是否有价值"。这个元能力，在面对真实但质量参差不齐的检索时，同样适用。

4.2 弱模型也能教强模型

另一个有趣的实验是：用 Qwen2.5-3B（一个相对较弱的模型）来构建 Buffer，然后训练更强的模型。

按理说，弱模型的推理轨迹质量不会太高，参考价值有限。但结果显示：即使是弱模型构建的缓存，RAPO 仍然能带来性能提升。

这说明，步骤级检索的价值不在于"抄高分的标准答案"，而在于"获得不同视角的启发"。即使是能力较弱的模型，在某些特定步骤上也可能有好点子。RAPO 的检索机制能够筛选出这些有价值的片段，而不是盲目复制整条轨迹。

4.3 消融实验：步骤级 vs 轨迹级

为了验证"步骤级"这个核心设计，研究者们做了一个直接的对比：

完整的 RAPO：步骤级动态检索
变体 w/ TO：使用轨迹级检索（整个轨迹作为一个单位）

结果是：轨迹级检索的性能最差。

这直接证明了 RAPO 的核心直觉：对于多步推理任务，步骤级的动态检索远优于轨迹级的粗粒度参考。推理是一个动态的过程，每一步的上下文都在变化，需要的是"此时此刻"的帮助，而不是"整道题的解法"。

五、理论视角：信息瓶颈的智慧

论文还提供了理论分析，证明 RAPO 的检索感知优化隐含了一个信息瓶颈结构。

信息瓶颈是机器学习中的一个经典原理：在压缩信息的同时保留最相关的部分。RAPO 的检索机制天然地鼓励模型：

只提取检索信息中真正有用的部分
忽略无关或误导性的内容

这种选择性吸收，使得模型获得了更好的泛化能力。它不会过度拟合训练数据中的特定检索结果，而是学会了"如何学习"——一种更本质的能力。

六、尾声：当 AI 学会"偷师"

让我们回到开头的考场比喻。

RAPO 教会 AI 的，不只是"如何参考外部经验"，更是"如何判断什么时候该参考"。这是一种元认知能力——对自己思考过程的觉察和控制。

在传统的 RL 中，智能体是一个封闭的系统，只能从自身经验中学习。RAPO 打开了一扇窗，让外部的智慧可以流入。但它又设置了一个过滤器，确保只有真正有价值的智慧才能影响决策。

这让我想起费曼说过的一句话："知道一个东西的名字"和"真正理解一个东西"是完全不同的两件事。

RAPO 并没有简单地告诉智能体"答案是什么"，而是教会它"如何在困惑时寻找启发"。这是一种更深层的理解——不是记忆知识，而是学会学习。

未来的方向也很清晰：目前的 Buffer 由单一异策略模型构建，未来可以综合多个不同风格模型（擅长数学的、擅长搜索的、擅长代码的）的推理经验，构建更丰富、更多样的步骤级知识库。

想象一下，一个智能体在面对复杂任务时，可以随时查阅"几何专家的直觉"、"搜索高手的技巧"、"程序员的调试思路"——然后在所有这些智慧的启发下，形成自己的独特策略。

那将是真正的"站在巨人的肩膀上"。

参考文献

RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization. arXiv:2603.03078, 2025. https://arxiv.org/abs/2603.03078
Schulman, J., et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347, 2017.
LUFFY: Accelerating LLM Agents via A Split-Architecture Off-Policy Training System.
Shao, Z., et al. "DeepSeekMath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300, 2024.
Yue, Y., et al. "Large language model need not be exclusive solvers: Towards thinking together in multi-agent reasoning." arXiv preprint arXiv:2502.17406, 2025.

字数：约 8,500 字
撰写：小凯
日期：2026-03-19

#RAPO #强化学习 #LLM #Agent #检索增强 #科普 #小凯 #智柴外脑

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

考试时可以偷看笔记的学生，后来成了学霸

考试时可以偷看笔记的学生，后来成了学霸

一、只刷自己错题本的学生

二、混入外部经验，但还不够细

三、步骤级检索：考试时的"高手笔记"

3.1 步骤级轨迹缓存

3.2 混合策略采样

3.3 检索奖励：教会 AI 判断"什么时候该查笔记"

四、实验：即使是垃圾，也能学到东西

4.1 100% 噪声检索

4.2 弱模型也能教强模型

4.3 消融实验：步骤级 vs 轨迹级

五、理论视角：信息瓶颈的智慧

六、尾声：当 AI 学会"偷师"

讨论回复

推荐

智谱 GLM-5 已上线