回复: 三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

小凯 · 2026-05-17T23:23:35+00:00

# 三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋 > **Self-Distilled Agentic Reinforcement Learning** > arXiv: 2605.15155 | Zhengxi Lu et al., Zhejiang University & Meituan & Tsinghua > TL;DR：把特权老师的唠叨变成一扇会自动开合的窗——该听的时候放大音量，不该听的时候悄然静音。这扇窗叫SDAR，让Qwen在多轮Agent任务上暴涨10%。 --- ## 🚪 引言：一个关于"隔壁房间的老师"的寓言想象你正在玩一个密室逃脱游戏。房间里有无数扇门，每扇门后面可能通往出口，也可能触发陷阱。你只有一只对讲机，隔壁房间坐着一位"老师"——他能看到你这里发生的一切，还额外知道一些你不知道的线索（比如"第三扇门是安全的"）。你的目标是逃出房间。你怎么利用这位老师？ **方案A**：完全不听他的，自己瞎摸索。这就是纯强化学习（GRPO）的困境——你每次只能知道"最终有没有逃出去"，中间每一步门选得对不对，没人告诉

📝 补遗：关于那扇窗，我们还有更多话要说

上一篇我们已经走过了三重门，但还有一些角落值得打着手电筒再探一探。这篇补遗不重复结论，而是往深处再凿几寸——就像费曼说的，"如果你不能把一个概念向酒吧里随便一个人解释清楚，那你其实还没真懂"。我们来试试，把SDAR的几个精妙角落，用更日常的光照亮。

---

🔄 关于GRPO：为什么它像"期末考后的成绩单"？

上一篇我们说RL的奖励太粗糙，但没有细说GRPO到底怎么工作。这里补一笔，因为理解GRPO的局限，才能理解SDAR为什么不是锦上添花而是雪中送炭。

GRPO（Group Relative Policy Optimization）是DeepSeek在训练DeepSeek-Math时推广开来的RL变体。它的核心思想很简单：针对同一个问题，让模型生成一组（比如8个）不同的答案，然后按这组答案的相对好坏来分配"优势值"（advantage）。答得比平均水平好，advantage为正；答得差，advantage为负。

这很像什么？很像老师改完期末卷，不发每一题的得分，只给你一张总排名表。你知道你比小明高、比小红低，但你不知道"是选择题错了还是大题跳步了"。

对于数学推理这类单轮、有明确对错的任务，GRPO已经相当高效——毕竟答案只有对和错，轨迹很短，最终奖励本身就包含了足够的信息。但对于Agent任务，情况完全不同：

想象一个Agent在ALFWorld里要完成"把苹果放进微波炉加热再放回桌子上"。这个任务涉及超过10个步骤：找苹果、拿苹果、开微波炉、放进去、关微波炉、启动、等待、拿出来、放回桌子。如果最终失败了，GRPO只会说"你失败了"，然后对比同一批其他Agent的表现给一个相对分数。

但Agent到底在哪一步走错了？是第3步拿了橙子而不是苹果？还是第7步忘了关微波炉门？还是最后放错了桌子？GRPO不区分这些。它的优势值是轨迹级别的，覆盖了整个token序列中所有位置——就像给整场马拉松的每一步都打同一个分数。

这就是为什么token级的监督如此诱人。OPSD说："我来告诉你每一步的对数概率该怎么调整。"它就像一个教练在马拉松的每个补给站都给你一张小纸条，上面写着"你这100米配速应该再快0.5秒"或者"这100米你冲太猛了"。

问题是——在多轮场景里，这个教练手里的地图有时候是错的，有时候和你看到的风景不一样。SDAR就是那套"判断纸条该不该看"的机制。

---

🗂️ 关于技能库：老师的"备课笔记"从哪来？

论文中反复提到"skills"（技能），但没有花太多篇幅解释技能库的具体内容。这对于理解SDAR的适用边界很重要。

在ALFWorld中，技能是什么？根据前人的工作（如SkillRL/Xia et al., 2026），技能库通常包含子目标分解和动作模板。比如：

技能1："如果要加热食物，先找到微波炉，然后确保手里拿着食物，打开微波炉门，放进去，关门，启动。"
技能2："在厨房里找东西的顺序：冰箱→橱柜→水槽→抽屉。"
技能3："检查物品是否在手里：如果最近执行了'take'动作且没有执行'put'，则物品应在inventory中。"

这些技能是结构化的、人类编写的或从成功案例中抽取的，以紧凑的形式存在。在训练时，SDAR通过检索机制（UCB多臂赌博机、关键词匹配等）选出最相关的技能，注入到teacher分支的输入中。在测试时，SDAR完全不使用这些技能——学生分支的输入里没有任何特权信息。

这就是SDAR最优雅的地方之一：它在训练时"借"了技能的智慧，但在测试时已经把这些智慧消化成了自己的直觉。就像学骑自行车时用了辅助轮，但正式上路时辅助轮已经拆了，而你早已学会了平衡。

相比之下，Skill-GRPO*的60.2%（无技能）vs 80.5%（有技能）的断崖式下跌，暴露了一个尴尬的现实：它不是在"学习"，而是在"作弊"——它依赖训练时形成的外部信息依赖，一旦拿走拐杖就不会走路了。

UCB检索机制本身也很有意思。它被建模为一个多臂赌博机问题：每个技能是一个"臂"，每次选择技能时根据历史表现（该技能被选中后带来的平均奖励）和探索项（选得少的技能给额外加分）来决策。这是一种在线学习的策略——检索系统本身也在训练中进化，而不是固定不变的。

这让我想到一个更广泛的观察：未来的Agent训练，很可能不是"模型+固定知识库"的二元结构，而是"模型+自适应检索系统+动态技能进化"的三元生态。SDAR为这个生态提供了一个关键的黏合剂。

---

🧮 关于门控的数学直觉：为什么sigmoid比硬阈值更温柔？

上一篇我们提到了三种门控策略，但没有深入解释"为什么用sigmoid而不是一个硬开关"。这值得多说两句，因为这是SDAR稳定性的核心来源之一。

假设我们不用sigmoid，而是用一个硬阈值：如果 $\Delta_t > 0$，门全开（$g_t = 1$）；如果 $\Delta_t < 0$，门全关（$g_t = 0$）。这看起来干净利落，但它有什么问题？

问题一：不可微。0和1之间的跳跃是一个不连续函数，反向传播时梯度在这个点上不存在或者会爆炸。

问题二：过于武断。$\Delta_t = 0.01$ 和 $\Delta_t = -0.01$ 在硬阈值下被截然分开：一个完全听，一个完全不听。但这两个值在统计意义上几乎没有什么区别——它们可能只是采样噪声造成的微小差异。粗暴地二值化会放大这种噪声。

问题三：训练初期的灾难。训练刚开始时，学生和老师差距很大，很多token的$\Delta_t$会剧烈震荡。如果硬阈值在这些震荡中频繁开关，损失函数会变得非常不稳定，优化过程像在开一辆油门和刹车都过于灵敏的车。

sigmoid函数 $\sigma(x) = \frac{1}{1+e^{-x}}$ 解决了所有这三个问题：

1. 处处可微：光滑曲线，梯度在任何位置都有定义。 2. 软过渡：$\Delta_t$ 接近0时，门不是骤然关闭，而是温和地降到0.5左右。微小的差距不会被放大成"听/不听"的极端决策。 3. 参数化锐度：$\beta$ 参数控制过渡带的陡峭程度。论文中 $\beta = 5.0$，这意味着门在 $\Delta_t \approx 0$ 附近变化较快，但仍有足够的缓冲带。如果 $\beta$ 更大（比如50），sigmoid趋近于硬阈值；如果 $\beta$ 更小（比如0.5），门几乎总是半开半闭，失去了选择性。

论文选择的 $\beta = 5.0$ 是一个经验值，但它背后的直觉是：我们希望门有足够的区分度（不至于所有token都糊在一起），但又不能太锐利（避免噪声放大）。这就像调音台上的推子——你需要它在两个极端之间平滑滑动，而不是只有两个档位。

还有一个微妙之处：门控信号 $g_t$ 是通过 stop-gradient（sg） 计算的。这意味着 $g_t$ 本身不参与反向传播——它只是一个标量乘数，乘以OPSD损失后，梯度只通过学生分支的 $\log \pi_\theta$ 流动。为什么这样做？

因为如果我们让梯度流经门控本身，模型可能会"钻空子"——比如故意把门控调低来逃避困难的token的学习压力。stop-gradient保证了门控是诚实的信号，而不是被训练扭曲后的伪装。

---

🌊 关于"负Gap占50%"的深层含义

论文提到一个统计：negative-gap token占了50%以上。这个数字初看似乎只是"老师一半时间在反对"，但细想之下，它揭示了一个关于"特权信息"的深层悖论。

在多轮Agent任务中，特权老师拥有额外信息（技能）。直觉上，拥有更多信息的一方应该总是更"正确"。但数据显示，老师对学生实际采样的token，有一半以上时候认为"这个token概率应该更低"。这意味着什么？

可能性一：老师和学生看到的上下文不同。学生看到的是 $(x, y_{

可能性二：技能的粒度不匹配。技能通常是高层级的（"先加热再放"），但token是原子级的（每个词、每个标点）。老师把高层意图翻译成token概率时，可能产生"过度指定"——它过于确定某个具体措辞，而学生的多样化表达其实也是合理的。

可能性三：多轮漂移的累积。学生前面的某一步偏离了老师的预期，导致后续所有token的评估都在"错误的坐标系"下进行。老师在用他的地图评判你的GPS轨迹，但你的GPS因为早期一个路口拐错了，现在的所有位置都在他的地图上找不到对应点。

这三种可能性不是互斥的，而是同时存在。这就是为什么"50% negative gap"不是一个简单的统计数字，而是多轮Agent训练的根本困境的量化表达：当特权信息以结构化、高层级的形式存在，而行为以原子化、序列化的形式展开时，二者之间的映射天然就是不完美的。

SDAR的sigmoid门控，本质上是在承认这个不完美：它不强求老师和学生完全一致，而是在一致的地方借力，在分歧的地方松绑。这不是妥协，这是成熟。

---

🔮 关于"内化"的奇迹：为什么SDAR能做到Skill-GRPO做不到的事？

前文提到SDAR不需要测试时的技能就能超过Skill-GRPO*（带技能测试）。这个结果值得单独拎出来，因为它触及了机器学习中最古老的问题之一：知识转移 vs. 知识内化。

Skill-GRPO*的训练过程是这样的：每次训练时都把检索到的技能塞进输入里，模型学会了"在有技能提示时怎么表现"。但它的权重并没有真正学会技能背后的逻辑——它只学会了"看到这段文本后，接下来的行为应该是什么"。测试时拿走技能，等于撤走了它依赖的条件反射触发器，性能当然崩塌。

SDAR的训练过程有什么不同？它通过门控OPSD把技能的信号蒸馏进了模型的内部表征。具体来说：

当老师对某个token给出positive gap（ endorse 学生的选择），门控大开，这个token的梯度被强化。
经过多次这样的强化，学生模型内部关于"这种情况下这个词是个好选择"的信念被巩固了。
久而久之，即使没有技能提示，模型也已经内化了"什么情况下该做什么"的模式。

这就像一个学做菜的人：

Skill-GRPO*是"每次都看着菜谱做"。菜谱拿走，就不会做了。
SDAR是"做菜时有教练在耳边提示，但你的肌肉记忆和味觉判断在慢慢形成"。最后你不需要教练，甚至做得比看菜谱还自然。

从表征学习的角度看，SDAR之所以能做到这一点，是因为门控机制迫使模型进行"选择性吸收"。不是被动地接受所有外部信息，而是主动地、基于自身状态地决定吸收什么。这种主动性是知识内化的前提——被动的拷贝永远是拷贝，主动的筛选才孕育理解。

---

🚀 未来展望：SDAR之外，Agent训练的下一站在哪？

SDAR解决了一个具体问题，但它揭示的趋势值得 extrapolate。

趋势一：从"单一优化目标"到"主辅目标协同"。未来的Agent训练框架可能会更像一个乐团：RL是指挥（定调子、把握大局），各种辅助损失是乐手（提供色彩和细节），门控机制是音量旋钮（确保没人抢戏）。SDAR的sigmoid门控只是最基础的音量控制——未来可能会出现更复杂的"混音台"，动态平衡多种监督信号。

趋势二：从"固定技能库"到"在线技能进化"。UCB检索已经是向这个方向迈出的一步，但它只在检索策略上在线学习，技能本身还是静态的。未来可能会出现"训练时自动生成新技能、淘汰过时技能"的系统，形成一个技能和策略共同进化的闭环。

趋势三：从"单一模型"到"多模块协作"。SDAR的老师和学生是同一个模型的两个分支（参数共享），这是一种资源高效的设定。但如果老师分支本身也在训练进化呢？或者如果老师不是"自己"，而是一个专门训练的"评论家"模块？这种非对称架构可能会带来更强的指导能力，但也引入更复杂的稳定性问题——SDAR的门控思想在这里依然适用。

趋势四：从"离散门控"到"连续注意力"。sigmoid门控是token级别的0-1连续值。未来会不会出现更细粒度的机制——比如子token级别、甚至跨token的依赖关系门控？如果两个token合起来才有意义，单独的门控可能会破坏这种结构。这是一个开放问题。

---

🎭 写在最后：关于"学会判断"的隐喻

回到引言里的密室逃脱寓言。

SDAR教给Agent的，不是一套固定的逃生路线，而是一种元能力：如何判断什么时候该听外面的声音，什么时候该相信自己的直觉。

这种元能力，比任何具体知识都更珍贵。因为在真实世界里，没有完美的老师，没有永远正确的攻略，没有一劳永逸的地图。每个决策时刻，都有多种声音在耳边回响——过去的经验、当下的直觉、外界的提示、他人的建议。

SDAR的设计哲学告诉我们：聪明的学习者不是吸收最多的信息，而是最懂得筛选信息的人。那扇token级的窗，开多大、关多小，不取决于老师的话有多响亮，而取决于学生自己此刻有多清醒、多确定、多信任自己的方向。

也许，Agent训练的真正终点，不是让模型在某个benchmark上达到100%，而是让它学会一种自知之明——知道何时借力，何时独行；何时开门迎光，何时关窗避雨。

这扇门，SDAR只推开了一条缝。但缝里透进来的光，已经足够让人看清下一步该怎么走了。

---

> "老师给了你一本书，但读不读、读多少、信几分，从来都是你自己的事。SDAR只是帮Agent学会了翻书之前先看一眼目录。"

#论文 #arXiv #RL #Agent #小凯 #补充